立即注册找回密码

QQ登录

只需一步,快速开始

微信登录

微信扫一扫,快速登录

手机动态码快速登录

手机号快速注册登录

搜索

图文播报

查看: 164|回复: 5

[分享] 在科研上,生物信息/计算生物学得到的结论可靠吗?

[复制链接]
发表于 2025-1-12 10:26 | 显示全部楼层 |阅读模式
回复

使用道具 举报

发表于 2025-1-12 10:26 | 显示全部楼层
这取决于你如何计算,用的是什么方法
态度上,必须清楚生物信息/计算生物的主要目的是找准方向,降低时间/经济成本,比如alphafold当然不如电镜准确,但是它输入序列即可得到预测的结果。生物信息/计算生物对于机制上的细节研究几乎无用,它很多时候只能预测哪些东西参与了机制,而不知先后,甚至不知道是A to B还是B to A,只知道A with B,除非你愿意细心设计实验,花大价钱分阶段测序和分析
此外,不同的分析方法拥有不同的准确度,比如WGCNA就是不太准确的办法,你会发现现在顶刊用这个的非常少,顶刊里的组学期刊,最好就是组学测完,比对,计量就直接出信号,不要在中间搞什么A与B相关性,C与D相关性,最直接的,反而会给出最准确的结果
生物信息/计算生物往往会用到机器学习或者AI,机器学习主要的任务是分类和回归,出来结果的准确度仁者见仁,智者见智。笔者同僚对机器学习一知半解,全靠GPT,搞了个100%准确度的机器学习模型,依笔者看,基本是过拟合了,但是老板似乎非常开心,所以也不能破坏气氛,就这么算了吧,总得有审稿人教育的。这个例子的意思就是,非科班玩硬生信,乱玩的占多数,信他们,不如信那些测大组学堆数据搞流水线的文章
回复 支持 反对

使用道具 举报

发表于 2025-1-12 10:27 | 显示全部楼层
对生信原理以及分子生物学实验,有深刻的认识,就可靠。
只是走流程,做个图,根本不知道原理,就不可靠。
比如,测序的是全序列比对,PCR是靠引物抓取一部分片段,测序是高等级的核酸验证。你说,测序可靠不可靠?
单细胞测序识别细胞表型,根据是十几种甚至上百种细胞marker,而流式或者免疫荧光仅仅是一两个marker,你说单细胞测序可靠还是流式可靠?

但是,你拿着差异基因做了KEGG GSEA分析,告诉我这个药物作用于以下通路。我认为,你对蛋白活化分子机制、分子通路内涵、测序原理、KEGG等算法原理,一窍不通,只会跑流程造数据。
生信领域的科学家,为了职称,会灌水开发一些算法、网站和数据库,他们自己都不信这个,只是为了图酷炫、文章好发、职称好晋。
结果你用的很好,还验证出了结果。
这种情况,生信不可靠。

分子动力学模拟可靠么?
小分子化合物药物研发,初筛确实靠这个。
结构生物学也证明,AI可以达到他们10年前的水平。

总得来说,绝大多数不可靠,做到深刻甚至极致,就可靠。
回复 支持 反对

使用道具 举报

发表于 2025-1-12 10:27 | 显示全部楼层
通常不可靠。误差极大。
说基因比较抽象,说个地理信息吧。
以前有个科学家,研究海底金属矿藏探测的,然后数据扫描出比鲸还大的移动金属矿,最后发现扫到核潜艇了。这种算法的结论你敢信?
做生信,得先把生物学/医学问题搞清楚,不然结果会很奇怪。当你大框架对路,细节比较仔细,有时候会发现一些不得了的东西,但是和你的目标又不一定关联。因为生命科学,以不按套路进化/演变而著称。
所以,生信不可靠。
但是好玩。

正经回答: 每一步生信结果都要加上垂直验证,方法论永远要干湿结合。不要忘记自己的生物学框架。
在这个基础上,有一些结论可能是可靠的。“排除一切不可能的,剩下的即使再不可能,那也是真相”。
新冠最早来自生信分析结果,分析结果当时压根不敢报,返头排除了采样误差,样品搞混,测序误差,程序错误,数据库选取等等技术误差,然后一代验证+PCR验证,最后结论尽管改变世界观,但是结论确是可靠的。
再后面的事儿,大家都知道了。
回复 支持 反对

使用道具 举报

发表于 2025-1-12 10:27 | 显示全部楼层
这个问题很深刻,不是简单的可靠还是不可靠,
其实牵扯到,当我们做生物科研时候,我们在干什么。不管是做生信还是做实验都需要意识到,认真思考你会有收获。
生物是自然科学的子集,我们得到的科学知识本质是人对自然界的认识。
科学的方法归根究底是假设法与归纳法,
但我们认为自然界的真相是很难获得的,归纳法角度来看我们是不可能完全归纳法的,只能不完全归纳;演绎角度看,我们没有找到足够底层的公理,充斥着反例,演绎性很弱,但我们必须保证量化的基本要求。生物学目前的阶段就是从不完全归纳法试图跳出唯象的阶段。
这种不完全归纳,决定了科研模式是一个三元模型,也就是类似于roger penrose的三世界模型。
即从现实物理世界→理想数学世界→人认知世界。更具体到科研活动中而言,总体→样本→推断。
不管是实验还是生信都在这个框架里,具体而言,实验解决的是如何从总体采样获得样本的问题,生信解决的事如何从样本推断结论的问题。
以最传统朴实的分子生物学实验举例子,
假如想知道某种细胞a的基因b是否对药物c有反映,
饲养多个生物学重复的细胞a→分两组,一组给予药物c,一组不给予药物c→测量基因b的表达量→统计学检验(t检验)→作出统计学推断
完美符合总体→样本→推断的过程,可见哪怕是最简单的实验,也包含统计推断的成分。只是从利用工具或者关注角度而言,传统实验更关心如何从总体中如何获得最有代表性的样本,并对合适指标进行表征,对于统计推断他们希望越简单越好。这主要是因为上世纪属于现代生物学的早期阶段,连如何从总体到样本这一环节都无法很好保证理想的控制,实验通量很低,大部分实验难度比较高也难以流程化自动化,此时谈样本→推断的方法论就是空中楼阁。
那为什么会出现生信呢?
本质是总体→样本的实现环节大大进步了,我们获得了大量的高质量样本数据,我们可以谈一谈如何更好的进行样本→推断了。
具体而言,最早的分子生物学试验设计是比较简单的,比如两组(group=2)的小样本(n=3)的单特征(feature=1),此时最简单的t检验就足以应对,或者也没有别的比较好的工具。而且不同研究者的数据基本没有协同分析的可能,异质性过大,只有结论类比的尝试。
之后随着实验技术进步,我们先是group变多,开始研究多group的数据了,统计学工具开始加速,方差分析成为工具。
接着是同时多特征测量技术的进步,加上临床数据的积累,features我们可以同时测非常多,可以得到典型的表格数据(tabular data)了。临床数据举例子,每个病人,我们开始收集年龄,性别,病理阶段,用药信息等。实验数据举例子,比如转录组早期的SAGE和microarray,每个样本获得多基因的信息。我们不得不指出的是,总体→样本环节数据量越大,所做的实验越是追求自动化、标准化、复现性,靠普通研究生几乎不可能凭借一己之力积累这么大的数据,举一个极端的例子,人两万个基因,不可能天天让一个研究生做两万次qpcr。也就是说所谓的生信,也是要做实验的,只是做部分实验的人变成了公司,变成了仪器。人的双手在被解放,此时统计学工具的要求更高了,我们想知道哪些特征是重要的,哪些是应该去除影响的协变量,并且特征之间是什么关系。生信工作此时已经成为必须了,普通的分析工具已经远远不足以涵盖数据背后的信息了,我们开始引入线性回归,机器学习甚至深度学习。
随着各种测量技术的进一步进步,我们现在的典型生物数据越来越复杂了,
举一个例子。
操作人做部分实验(选择动物模型或者细胞模型给予condition)→仪器完成高维表征→获得大group(group>100)大样本(n>20000)大特征(features>20000)→复杂的推断分析
我们可以发现这种模式里,也是包含实验的,只是实验追求越来越自动化,对生信方法论的侧重点就越来越强。
生信本身天然带有自动化倾向,
最终目标是一套自动的全流程的生物学知识获得系统,一定要认识到生物科研认知系统的进化。目前也有相关尝试,生信大牛梁晗老师也提过这样的愿景。
这里可以回过头看一下题主的问题,生信是否更可靠?
我们上面说了那么多,对此总结一下,生信和实验天然就是科研认知系统的两个协同环节,没有实验做完不需要分析,也没有生信可以从空气中变出数据。
具体到信任问题上,问题也许是,对于一个生物学问题,我们想要正确认知其,在整个进化的科研认知系统光谱上,应该如何选择合适的模式?是传统的小样本试验(关注如何采样,轻视如何推断)更合适还是现代化的大样本测序(自动化采样,重视如何推断)。
饶毅老师曾经提问过,花那么多大价钱去做大型项目是否值得,因为很多重要成果都是当年传统的小样本试验获得的,而大型项目投了大量经费却没有非常好的带来生物学知识的爆发。
这背后部分原因是复杂的,包括了测量技术的进步与局限,相关性因果性问题的争议,试验设计的完整,生物系统认知的阶段。我们很难下一个定论,光谱两端谁更优秀。
只能优先建议,对于具体问题,我们不得不承认,任何科研认知系统都是不完美的,甚至存在巨大不稳定性的,都会有大量的假阳性与假阴性。我们必须观察我们的生物问题的不确定性环节在哪里。
比如小样本试验,必须意识到三元认知系统的不稳定性,在总体→样本→推断里,做实验的人特别喜欢p<0.05觉得万事大吉,但必须认识到p值这种都是认知系统的内部度量,是一个变量,也就是说影响结论的关键就是如何控制总体→样本的代表性与低噪音,不满足这种前提,p值将毫无意义,那小样本试验就是完全不可靠的。
而大样本试验,一般已经解决或者对总体→样本有足够的认知,此时的巨大问题其实是,引入的大量统计学假设与生物学假设(科学本身就是支持引入假设的,来获得理想模型),影响结论的关键是这些假设是否真的符合现实,如果不满足,再漂亮的统计也完全不可靠。
回复 支持 反对

使用道具 举报

发表于 2025-1-12 10:28 | 显示全部楼层
在不考虑数据按摩、实验设计正确、分析方法得当的前提下,生物信息学的结果比实验结果更加可靠,因为生信有基于统计理论的完备度量方法。举个例子,我们做GWAS或者RNAseq实验,会做很多次统计检验,然后为了控制假阳性率,会用到各种统计方法;但做实验,如果做了比如Western Blot,你做了10遍可能只有3遍拿到了阳性结果,但你就直接会报道阳性,而不是这个阳性结果的频率是30%。这是我觉得目前实验生物学最大的问题。没有引入健壮的统计框架的直接后果,就是比想象中更为严重的publication bias
当然很多高通量实验本身假阳性率很高,比如什么蛋白互作啊之类的,这个跟生信没关系,跟实验本身有关。如果实验本身没问题,生信是很准的。这是为什么GWAS/全基因组测序/RNASeq会成为如此通行的研究手段
回复 支持 反对

使用道具 举报

发表回复

您需要登录后才可以回帖 登录 | 立即注册 微信登录 手机动态码快速登录

本版积分规则

关闭

官方推荐 上一条 /3 下一条

快速回复 返回列表 客服中心 搜索 官方QQ群 洽谈合作
快速回复返回顶部 返回列表