在科研上，生物信息/计算生物学得到的结论可靠吗？

会里很 · 发表于 2025-1-12 10:26

登陆有奖并可浏览互动！

您需要登录才可以下载或查看，没有账号？立即注册

×

生物信息/计算生物学算法得到的结论可靠吗？算法结果本身能复现吗？能够被生物学实验所证实吗？

原文地址：https://www.zhihu.com/question/594740725

感恩由您 · 发表于 2025-1-12 10:26

这取决于你如何计算，用的是什么方法
态度上，必须清楚生物信息/计算生物的主要目的是找准方向，降低时间/经济成本，比如alphafold当然不如电镜准确，但是它输入序列即可得到预测的结果。生物信息/计算生物对于机制上的细节研究几乎无用，它很多时候只能预测哪些东西参与了机制，而不知先后，甚至不知道是A to B还是B to A，只知道A with B，除非你愿意细心设计实验，花大价钱分阶段测序和分析
此外，不同的分析方法拥有不同的准确度，比如WGCNA就是不太准确的办法，你会发现现在顶刊用这个的非常少，顶刊里的组学期刊，最好就是组学测完，比对，计量就直接出信号，不要在中间搞什么A与B相关性，C与D相关性，最直接的，反而会给出最准确的结果
生物信息/计算生物往往会用到机器学习或者AI，机器学习主要的任务是分类和回归，出来结果的准确度仁者见仁，智者见智。笔者同僚对机器学习一知半解，全靠GPT，搞了个100%准确度的机器学习模型，依笔者看，基本是过拟合了，但是老板似乎非常开心，所以也不能破坏气氛，就这么算了吧，总得有审稿人教育的。这个例子的意思就是，非科班玩硬生信，乱玩的占多数，信他们，不如信那些测大组学堆数据搞流水线的文章

感恩由您 · 发表于 2025-1-12 10:27

对生信原理以及分子生物学实验，有深刻的认识，就可靠。
只是走流程，做个图，根本不知道原理，就不可靠。
比如，测序的是全序列比对，PCR是靠引物抓取一部分片段，测序是高等级的核酸验证。你说，测序可靠不可靠？
单细胞测序识别细胞表型，根据是十几种甚至上百种细胞marker，而流式或者免疫荧光仅仅是一两个marker，你说单细胞测序可靠还是流式可靠？

但是，你拿着差异基因做了KEGG GSEA分析，告诉我这个药物作用于以下通路。我认为，你对蛋白活化分子机制、分子通路内涵、测序原理、KEGG等算法原理，一窍不通，只会跑流程造数据。
生信领域的科学家，为了职称，会灌水开发一些算法、网站和数据库，他们自己都不信这个，只是为了图酷炫、文章好发、职称好晋。
结果你用的很好，还验证出了结果。
这种情况，生信不可靠。

分子动力学模拟可靠么？
小分子化合物药物研发，初筛确实靠这个。
结构生物学也证明，AI可以达到他们10年前的水平。

总得来说，绝大多数不可靠，做到深刻甚至极致，就可靠。

感恩由您 · 发表于 2025-1-12 10:27

通常不可靠。误差极大。
说基因比较抽象，说个地理信息吧。
以前有个科学家，研究海底金属矿藏探测的，然后数据扫描出比鲸还大的移动金属矿，最后发现扫到核潜艇了。这种算法的结论你敢信？
做生信，得先把生物学/医学问题搞清楚，不然结果会很奇怪。当你大框架对路，细节比较仔细，有时候会发现一些不得了的东西，但是和你的目标又不一定关联。因为生命科学，以不按套路进化/演变而著称。
所以，生信不可靠。
但是好玩。

正经回答：每一步生信结果都要加上垂直验证，方法论永远要干湿结合。不要忘记自己的生物学框架。
在这个基础上，有一些结论可能是可靠的。“排除一切不可能的，剩下的即使再不可能，那也是真相”。
新冠最早来自生信分析结果，分析结果当时压根不敢报，返头排除了采样误差，样品搞混，测序误差，程序错误，数据库选取等等技术误差，然后一代验证+PCR验证，最后结论尽管改变世界观，但是结论确是可靠的。
再后面的事儿，大家都知道了。

大力水手 · 发表于 2025-1-12 10:27

这个问题很深刻，不是简单的可靠还是不可靠，
其实牵扯到，当我们做生物科研时候，我们在干什么。不管是做生信还是做实验都需要意识到，认真思考你会有收获。
生物是自然科学的子集，我们得到的科学知识本质是人对自然界的认识。
科学的方法归根究底是假设法与归纳法，
但我们认为自然界的真相是很难获得的，归纳法角度来看我们是不可能完全归纳法的，只能不完全归纳；演绎角度看，我们没有找到足够底层的公理，充斥着反例，演绎性很弱，但我们必须保证量化的基本要求。生物学目前的阶段就是从不完全归纳法试图跳出唯象的阶段。
这种不完全归纳，决定了科研模式是一个三元模型，也就是类似于roger penrose的三世界模型。
即从现实物理世界→理想数学世界→人认知世界。更具体到科研活动中而言，总体→样本→推断。
不管是实验还是生信都在这个框架里，具体而言，实验解决的是如何从总体采样获得样本的问题，生信解决的事如何从样本推断结论的问题。
以最传统朴实的分子生物学实验举例子，
假如想知道某种细胞a的基因b是否对药物c有反映，
饲养多个生物学重复的细胞a→分两组，一组给予药物c，一组不给予药物c→测量基因b的表达量→统计学检验(t检验)→作出统计学推断
完美符合总体→样本→推断的过程，可见哪怕是最简单的实验，也包含统计推断的成分。只是从利用工具或者关注角度而言，传统实验更关心如何从总体中如何获得最有代表性的样本，并对合适指标进行表征，对于统计推断他们希望越简单越好。这主要是因为上世纪属于现代生物学的早期阶段，连如何从总体到样本这一环节都无法很好保证理想的控制，实验通量很低，大部分实验难度比较高也难以流程化自动化，此时谈样本→推断的方法论就是空中楼阁。
那为什么会出现生信呢？
本质是总体→样本的实现环节大大进步了，我们获得了大量的高质量样本数据，我们可以谈一谈如何更好的进行样本→推断了。
具体而言，最早的分子生物学试验设计是比较简单的，比如两组(group=2)的小样本(n=3)的单特征(feature=1)，此时最简单的t检验就足以应对，或者也没有别的比较好的工具。而且不同研究者的数据基本没有协同分析的可能，异质性过大，只有结论类比的尝试。
之后随着实验技术进步，我们先是group变多，开始研究多group的数据了，统计学工具开始加速，方差分析成为工具。
接着是同时多特征测量技术的进步，加上临床数据的积累，features我们可以同时测非常多，可以得到典型的表格数据(tabular data)了。临床数据举例子，每个病人，我们开始收集年龄，性别，病理阶段，用药信息等。实验数据举例子，比如转录组早期的SAGE和microarray，每个样本获得多基因的信息。我们不得不指出的是，总体→样本环节数据量越大，所做的实验越是追求自动化、标准化、复现性，靠普通研究生几乎不可能凭借一己之力积累这么大的数据，举一个极端的例子，人两万个基因，不可能天天让一个研究生做两万次qpcr。也就是说所谓的生信，也是要做实验的，只是做部分实验的人变成了公司，变成了仪器。人的双手在被解放，此时统计学工具的要求更高了，我们想知道哪些特征是重要的，哪些是应该去除影响的协变量，并且特征之间是什么关系。生信工作此时已经成为必须了，普通的分析工具已经远远不足以涵盖数据背后的信息了，我们开始引入线性回归，机器学习甚至深度学习。
随着各种测量技术的进一步进步，我们现在的典型生物数据越来越复杂了，
举一个例子。
操作人做部分实验(选择动物模型或者细胞模型给予condition)→仪器完成高维表征→获得大group(group＞100)大样本(n＞20000)大特征(features＞20000)→复杂的推断分析
我们可以发现这种模式里，也是包含实验的，只是实验追求越来越自动化，对生信方法论的侧重点就越来越强。
生信本身天然带有自动化倾向，
最终目标是一套自动的全流程的生物学知识获得系统，一定要认识到生物科研认知系统的进化。目前也有相关尝试，生信大牛梁晗老师也提过这样的愿景。
这里可以回过头看一下题主的问题，生信是否更可靠？
我们上面说了那么多，对此总结一下，生信和实验天然就是科研认知系统的两个协同环节，没有实验做完不需要分析，也没有生信可以从空气中变出数据。
具体到信任问题上，问题也许是，对于一个生物学问题，我们想要正确认知其，在整个进化的科研认知系统光谱上，应该如何选择合适的模式？是传统的小样本试验(关注如何采样，轻视如何推断)更合适还是现代化的大样本测序(自动化采样，重视如何推断)。
饶毅老师曾经提问过，花那么多大价钱去做大型项目是否值得，因为很多重要成果都是当年传统的小样本试验获得的，而大型项目投了大量经费却没有非常好的带来生物学知识的爆发。
这背后部分原因是复杂的，包括了测量技术的进步与局限，相关性因果性问题的争议，试验设计的完整，生物系统认知的阶段。我们很难下一个定论，光谱两端谁更优秀。
只能优先建议，对于具体问题，我们不得不承认，任何科研认知系统都是不完美的，甚至存在巨大不稳定性的，都会有大量的假阳性与假阴性。我们必须观察我们的生物问题的不确定性环节在哪里。
比如小样本试验，必须意识到三元认知系统的不稳定性，在总体→样本→推断里，做实验的人特别喜欢p＜0.05觉得万事大吉，但必须认识到p值这种都是认知系统的内部度量，是一个变量，也就是说影响结论的关键就是如何控制总体→样本的代表性与低噪音，不满足这种前提，p值将毫无意义，那小样本试验就是完全不可靠的。
而大样本试验，一般已经解决或者对总体→样本有足够的认知，此时的巨大问题其实是，引入的大量统计学假设与生物学假设(科学本身就是支持引入假设的，来获得理想模型)，影响结论的关键是这些假设是否真的符合现实，如果不满足，再漂亮的统计也完全不可靠。

继续前进 · 发表于 2025-1-12 10:28

在不考虑数据按摩、实验设计正确、分析方法得当的前提下，生物信息学的结果比实验结果更加可靠，因为生信有基于统计理论的完备度量方法。举个例子，我们做GWAS或者RNAseq实验，会做很多次统计检验，然后为了控制假阳性率，会用到各种统计方法；但做实验，如果做了比如Western Blot，你做了10遍可能只有3遍拿到了阳性结果，但你就直接会报道阳性，而不是这个阳性结果的频率是30%。这是我觉得目前实验生物学最大的问题。没有引入健壮的统计框架的直接后果，就是比想象中更为严重的publication bias
当然很多高通量实验本身假阳性率很高，比如什么蛋白互作啊之类的，这个跟生信没关系，跟实验本身有关。如果实验本身没问题，生信是很准的。这是为什么GWAS/全基因组测序/RNASeq会成为如此通行的研究手段

图文播报

[分享] 在科研上，生物信息/计算生物学得到的结论可靠吗？

登陆有奖并可浏览互动！

发表回复

浏览过的版块

官方推荐 /3

个人中心