什么是生物信息学？生物信息学中计算机和大数据各扮演什么样的角色？

心中u你 · 发表于 2024-10-23 22:28

登陆有奖并可浏览互动！

您需要登录才可以下载或查看，没有账号？立即注册

×

什么是生物信息学？生物信息学中计算机和大数据各扮演什么样的角色？
原文地址：https://www.zhihu.com/question/21476539

检验医师 · 发表于 2024-10-23 22:29

last update: 2020/5/31
我去年在中国农大暑期班上讲刚好跟学生们讨论过这方面的内容，跟大家分享一下：
生物信息学从上世纪80年代开始进入逐渐形成一门学科，一直到现在，伴随着生物学以及其他工程学技术的进步，其实它的内涵和外延也在一直发生变化。国内主流教材以及专著对生物信息学的理解大多数还停留在上世纪90年代末，其内容集中于基因编码序列的分析（BLAST，NCBI数据库，多序列比对，微芯片分析，分子进化树等等）。过去的20年里，伴随着测序技术、蛋白质组技术等等高通量技术的发展，生物信息学的内涵和外延都有了极大的发展。从行业近些年来的发展看来，生物信息学其实有广义和狭义两个定义。
广义的生物信息学，正如其他答案里援引的，是通过开发和应用计算工具来解答生物学问题的一门学科。很多从业者，包括很多大牛，都会用”生物信息学“这个词来笼统地介绍自己的工作领域。广义的生物信息学其实其实包含了”开发“以及”应用“两个维度。狭义的生物信息学，与现在流行的”数据科学“非常类似（可以称为”生物数据科学“），侧重于通过计算机和统计的方法，对生物学数据进行挖掘，获得新的知识。与数据科学一致，狭义的生物信息学从业者需要领域特殊知识（domain specific knowledge，比如人类遗传学），计算机以及统计三个方面。目前国内大多数培训机构的课程，针对的正式这个领域，面向的也主要是生物学家。
相应的一个最近较火的学科”计算生物学“，则偏重于开发新的算法、统计方法以及软件，为生物学新知识的发现提供工具。从业人员往往需要计算机、统计、数学、工程学等数量背景，对生物学知识的要求相应较少。
伴随着行业的发展，大家对从业人员数量背景的要求越来越高。比如在Broad Institute以及Cambridge周围的药企，大多数的职位都是计算生物学的职位，对数量背景要求很高（我们招聘时候会像互联网公司一样考算法题）。相较于生物学，系统的数量训练难度更高，而正因如此，行业里最优秀的科学家往往都有非常强的数量背景。说几个我比较熟的，比如Lior Pachter（数学家）, Gad Getz（物理学家），Mark Daly（物理学家）, Hilary Finucane（数学/理论计算机科学）, Alkes Price（数学家）, Poru Loh（应用数学/计算机科学）, Aviv Regiv（物理学家）, Ben Neale（统计学家/遗传学家）, Alex Bloemendal（数学家），Heng Li（物理学家），Hailiang Huang（物理学家）。当然还有我们研究所的创始人Eric Lander，也是数学家出身。
当然不是说你没有好的数量背景就没戏了，很多优秀的人也是生物学/医学出身，比如Daniel MacArthur（遗传学家）, Heidi Rehm（遗传学家）, Bill Sellers（癌症生物学家）, Mat Meyerson（癌症生物学家）, Levi Garraway(癌症生物学家）, David Altshuler. 他们的共同特点是（我跟其中很多位一起工作过/正在一起工作），对于数理的直觉特别好，能够很快地理解到数理方法的本质，并看到可能存在的问题。科学的本质都是相通的，当你在一个领域做到顶尖之后，是能够做到触类旁通的。
不过从行业发展的整体趋势来看，对于新一代想要从事生物信息学/计算生物学的学生/研究者，我强烈建议大家重视系统的数量训练（统计学方法、计算机算法、软件工程方法等等）。从我的对国内行业发展的优先经验中看（了解相对较少，可能有失偏颇），中国目前的从业人员在这方面的水平薄弱，跟国际差距较大（当然也有很优秀的，比如诺禾致源的创始人李瑞强就很厉害）。这与国人对于新概念的接受，以及相应的训练项目落后其实有直接的关系。我2009年出国的时候，美国比较好的高校几乎都已经有非常强调数量背景和训练的项目了（比如康奈尔的Tri-institute Computational Biology program和Harvard的Bioinformatics and Integrative Genomics等）。生物信息学这个专业在很多本科院校都有开设，在很多好的高中也有相关的课程。我们从当地高中选上来做生物信息学暑研的学生，工作能力比我接触过的很多国内受过硕士训练的人还要强（两边的水平其实都挺让我吃惊的）。所以如果你的数理能力强，就在竞争中占得了先机。
就先讲这么多

继续前进 · 发表于 2024-10-23 22:29

美国科学家在1985年提出人类基因组计划（Human Genome Project,简称HGP），目的在于阐明人类基因组核苷酸序列，破译人类全部遗传信息。随着HGP产生的海量数据，生物信息学作为一门新兴的学科，应运而生。
什么是生物信息学？Wikipedia(https://en.wikipedia.org/wiki/Bioinformatics)给的定义是：
Bioinformatics is an interdisciplinary field that develops methods and software tools for understanding biological data. As an interdisciplinary field of science, bioinformatics combines biology, computer science, information engineering, mathematics and statistics to analyze and interpret biological data. Bioinformatics has been used for in silico analyses of biological queries using mathematical and statistical techniques.
简单说来，生物信息学是一门交叉学科，结合生物学、计算机科学、信息工程、数学和统计学来分析和解释生物数据。
听起来是不是有点抽象？

简单说来，人类基因组有30亿个碱基对，可以理解为这是一本由30亿个ATCG字母构成的“书”。如何从这本书中翻译出生命的奥秘呢？目前主流的方法是使用二代测序来测整个人全基因组。按照经验，一个标准的人全基因组测序原始数据可以达到100GB。二代测序技术是将DNA的长链分子随机打断，然后用化学方法一批批地将小片段DNA扩增和读取出来。
我们可以这样简单理解：

测序相当于将生命之“书”投进碎纸机，变成了一条条碎纸片段（序列打断），每个片段一般只有几百个字母。由于碎纸片段实在细碎繁多，可能遗漏某些重要片段，所以通常会把碎纸片复印（聚合酶链式反应，PCR）多份，再进行扫描（基于荧光标记dNTP的光学检测），把这些碎纸片段的字母读取出来。

拿到这些扫描后的片段数据（短序列），我们需要用计算机去处理（生物信息分析），尽可能拼回原来完整的书，并寻找书中独特的词（基因变异）。然后去查字典（变异数据库），看看究竟这些词表达什么意思（信息注释）。
典型的生物信息过程包括：首先去掉质量不高、破损严重的短序列数据（质量控制 Quality Control/Filtering），然后完成基因组比对/组装（ Mapping/Assembly），进而寻找基因变异（Variant Calling）。
从大体量的数据中，找到基因突变信息，这就是生物信息分析的工作。

如果对生信感兴趣的话，可以关注一下这个科普系列～
生物信息分析：从入门到精（fang）通（qi）第0期生信分析是个什么玩意儿？

大力水手 · 发表于 2024-10-23 22:29

谢邀
对生物信息学，NIH 的官方定义（
http://www.bisti.nih.gov/docs/compubiodef.pdf）是
Bioinformatics: Research, development, or application of computational tools and approaches for expanding the use of biological, medical, behavioral or health data, including those to acquire, store, organize, archive, analyze, or visualize such data.
可见这个定义相当宽泛。既然涉及数据获取，存储，组织，归档，分析，可视化这方方面面，计算机所能扮演的角色也自然不一而足，很难有效列举。这问题下的许多答案都可以作为参考。
这里就所谓的“大数据”，提一点浅见。
如上所言，生物信息学涉及方面众多，随生物技术的发展而发展，也自然发展出许多的分支。维基上（
Bioinformatics）就列出了十二个主要分支。其中有些是不需要大数据的，就是用到大数据，也不一定是我们现在常说的大数据。像文献知识的自动提取，就和传统意义上的大数据有很多相似之处。但，现在高通路生物数据所面对的大数据，和网上常说的大数据，有着本质的不同。
一般我们说因为网络而兴起的大数据，就像谷歌这样的，它们收集的，是成百万上千万网络用户在网络上留下的行为印迹。
这个海量，首先就在于采样的对像，数据收集者可以轻松的收集到几乎所有人的信息。比如，知乎显然保存了我们每个用户的历史数据，也收集了所有匿名访问它的人的相关信息。
网络的使用，是一个时时在进行的过程。这海量数据的第二点，就是对于每个用户，信息的收集是一个时序过程。你可以收集到用户在相似行为上的重复动作信息，以加强所收集到的用户行为的可靠性。
第三点，则是人们在网络上的行为是有限的。网络是人设计出来的，理论上每一个细节都是网站的设计者可以把握的。当一个动作只有支持，反对，或不选择时，所观察到的行为可以很简单的归纳到这些人为设计的类别里。
这些网络特征，决定了网络产生的大数据，前所未有的提供了所有消费者的行为信息，而且，度量的意义大部分是明确的，也是可重复的。
这就让数据分析者可以有效准确的把握整个人群的行为特征，进而对人群进行细分。因为我们有了如此之多（确切的说是全部可能的样本），对于传统意义上的偏门市场，我们也能有足够的样本，来把他们找出来，了解他们独特的行为特征（microtrends），并有针对性的迎合他们的需求。还可以有针对性的设计实验，快速验证自己观察到的行为模式。
网络的大数据，让商家可以对消费者实现前所未有的细分，进而征服（divide and conquer），这就是所谓的 microtargeting。
现代高通路生物数据，则是在 1990 年代末的微阵列技术起来以后，才真正兴起的。
但是，对于生物数据，上面所言的几个关键特征，都是不存在的。（当然，这也是因为上面的几个特征，我是故意挑出来做对比的）。
生物数据需要采集生物样本。比如研究疾病，每种病的发病率都有限，这从一上来就让总的数据量被大打了折扣。其次，要收集样本，就要经过相关的标准审批程序（相信不少同学都被 IRB 给气死过）。然后，也要有足够的病人配合。最后，样本的采集也需要相当的技术以保证质量。
这一切，都是废时又花钱的事。
所以，生物样本的总数据量，总是一个瓶颈。
比如，这是几天前刚在 Nature 杂志上发表的一个关于癌症的大规模研究：
Signatures of mutational processes in human cancer在这个研究里，总共有 7042 个样本，涉及 30 种不同的癌症。
对于生物研究，上千个样本，真得是一个很奢侈的事。对于普通的研究者，进行一个先导研究（pilot study），往往受制于各种客观条件，只能有两位数的数据，我还经常看到有人在分析个位数的样本。
同样，对于每个样本，也是涉及到客观条件，也很难有时序上的数据。很多数据，只是取了一个时间点。而很多时候，因为数据收集的困难，这些采样时间点也不尽相同（比如有的是在诊断后，有的则是在开始治疗后），增加了数据本身的复杂度。
而能采集的数据，有时也和理想数据有差据。
比如就疾病来说，最好收集的数据，莫过于血液。采血可以迅速获得比传统方法要大得多的数据，几千，乃至上万。但是，这就要求这个病要把相关信息释放到血里。对于神经系统疾病，最好的信息莫过于来自脊髓的脑脊液。可是，这个收集过程就痛苦得多了。想来没有什么人会随便在体检时让你采个脑脊液。于是，你就面临数量和质量的问题。
那，生物数据的高通量，大数据，又反应在什么方面呢？
数据增长，完全表现在另一个维度上，就是对每个样本的相关信息。
对于是样本，你可以做最基本的基因表达的芯片，获得 3 万个基因的表达信息，如果需要，可以获得几十万个外显子的表达，以了解不同的剪切。你可以测序，获得 3 亿个核酸序列，并由此知到几百上千万个潜在的变异点的状态。你可以检查有没有 Copy-number variation。你还可以做甲基化芯片，以获得 50 万个潜在的 CpG 位点甲基化的信息。当然你还可以做免疫芯片，获得各种抗体信息（最近的苾片也可以得到几十万种氨基酸序列的信息了）
可见，对于一个样本，你拥有的，是上千万，乃至上亿种特征的信息。
这些特征，都是长期进化的产物。它们都或许有自己的用处，在某些特定的阶段，特定的疾病。但是，这是大自然这个工程师设计的，它没告诉你，在你的具体研究里，该用哪些个特征。这，就变成了一个在超高维度上，大海捞针的过程。
这就是生物大数据和网络大数据的本质不同。
网络大数据上，你有上千万的样本，每个样本有大量的重复采集的特征，而这些特征，往往是从人为设计的交互过程里选出来的。你的样本数，永远是远远大于特征数。
生物大数据上，你有几十上百个样本，每个样本可能只有一份采样，但是，从这份采样里，现代高通路生物技术帮你收集了上千万种不同的特征。你的样本数，永远是远远小于特征数。
这一差别，决定了二者从方法到前景上，都很不相同。

感恩由您 · 发表于 2024-10-23 22:30

在国内某被称为生物信息西点军校的非公司的研究院(嗯…是研究院)怒答一记…
补充一下自己对生物信息学发展的看法，以及学生该如何选择生物信息学，各位感兴趣的学生朋友们可以参考。
在国内广大高校的生科院中，生物信息还是非常冷门的学科，绝大多数科研人员还是在从事传统分子生物学为基础的实验科学。可是在信息化飞速发展的情况下，传统分子实验对生命的探索远远赶不上生物数据的产生(上百g的数据大概是无论如何也没法一个一个分子验证的)。面对生物数据大量膨胀，而分子实验效率无法有效提升，通量无法继续提高的情况下，只有利用高性能计算机对测序等产生的大数据进行统计学等数学方法分析，结合已有的分子基础，才能更系统更全面的探索生命活动过程。也就是现在比较火的系统生物学(System Biology)。
相对数据产生和过滤筛选的过程，结合数据对生命活动进行解释是生科专业大学生们更能发挥作用的战场，但是这也要求更高的数学物理统计计算机的水平。作为理科生，我觉得这些也是必须学习掌握的。希望能有更多的学习生科的同学加入到系统生物学的战场来。
知乎其实有很多我院我司的大神，在下水平不高，只给在学习生命科学的本科研究生提供一个对于选择生物信息方向的一个建议。

感恩由您 · 发表于 2024-10-23 22:31

此题专业对口，来手机答一题吧。
生物信息学(Bioinformatics)，实际上就是使用计算机来帮助解决生物学中遇到的各种问题。和许多学科类似，生物学的大多数领域最初是非常不定量的，除了群体遗传学等几个小众领域之外，大多数生物学家是电脑盲，甚至对基本的统计学一无所知。
导致这个情况出现变化的关键因素有两个:
一:计算机技术的进步使得人们发现很多生物学问题可以使用计算机迅速有效的解决。一个例子就是人们七十(？)年代开始使用数据库存储已知的DNA/蛋白质序列(NCBI/SWISSPROT)，随之而来的问题是如何快速搜索这些序列(Waterman&#39;s alignment algorithm, BLAST, BLAT, etc)，而后人们又想知道如何理解DNA/蛋白质的序列(GENESCAN, etc)，再往后人们想图形化的看到这些序列(Genome browser)，再往后。。。就这样，大量计算机科学家/数学家/统计学家涌入生物学这片处女地，使用算法和统计学解决各种各样的生物学问题。
二: 生物技术的进步带来基因租学/蛋白租学/各种组学的出现，使得海量的数据积累变得非常迅速，而不得不使用计算机和统计学来处理。人类基因租的测序之所以是里程碑式的事件，并不光是因为我们测出了人基因组。基因组的出现同时也标志了生物学大数据时代的黎明到来。人类基因组有3G，测一百倍覆盖率就是300G的序列数据。二代的测序技术让我们生成数据的能力指数级放大。到现在，一个研究生一礼拜生成和处理数百G的数据是司空见惯的事。这样规模的数据，没有生物信息学的工具和高性能计算机是不能处理的。
到今天，生物信息学已经发展到很难有一个精确的定义，因为生物信息学在生物学研究中无所不在，作为工具整合进几乎所有的研究中。生物信息学的先驱之一，CSHL 的 Lincoln Stein 数年前曾撰文说生物信息学将在十年内”消亡”，此言极有预见性，因为到今天生物信息学已经融入生物学研究的每一个领域，很难再称为是一个专门的学科了。就像八九十年代流行的“分子生物学”，当时仿佛生物学可以分为“分子”和“传统”的生物学。到今天已经无人再提“分子生物学”这个词，因为几乎所有的生物学领域都已经“分子”化了。生物信息学也是如此，几乎所有的生物学领域都已经“信息”化了，生物信息学作为一个独立学科的使命，也就到此为止。

图文播报

[分享] 什么是生物信息学？生物信息学中计算机和大数据各扮演什么样的角色？

登陆有奖并可浏览互动！

发表回复

浏览过的版块

官方推荐 /3

个人中心