立即注册找回密码

QQ登录

只需一步,快速开始

微信登录

微信扫一扫,快速登录

手机动态码快速登录

手机号快速注册登录

搜索

图文播报

查看: 678|回复: 5

[分享] 为什么生物信息学发文章分这么低?

[复制链接]
发表于 2024-11-8 12:01 | 显示全部楼层 |阅读模式

登陆有奖并可浏览互动!

您需要 登录 才可以下载或查看,没有账号?立即注册 微信登录 手机动态码快速登录

×
我们知道,生物信息学(一下简称生信)用计算的方法从高维度大数据全局角度研究基因组转录组蛋白组,研究互作和网络,这是最好体现生物原本的高维度复杂性的方法。相比实验,生信用时短,短则几天,而实验需要论年;生信缺点是假阴性假阳性高,但是实验经常都是阴性结果只把阳性结果报上去,实验会被实验推翻,实验可以轻易推翻生信,为什么生信不可以。为什么生信发文IF普遍低,只有和实验在一起才能高分,难道时间真的很重要? 我听过北大一个老师的课,他说筛选就用了几周,但是验证用了五年,要是没有漫长的验证,不可能成果这么好。我想知道为什么呢?
一位最近和生信vs实验死磕上的博士

原文地址:https://www.zhihu.com/question/338352063
楼主热帖
回复

使用道具 举报

发表于 2024-11-8 12:02 | 显示全部楼层
其实生信陷入了一种怪圈,大家做的东西基本都一样,想说的故事基本都一样,不会纵向挖掘本质,只会横向堆砌内容,甚至一帮人迷恋画图无法自拔,与其说被裹挟导致的卷,不如说都在自发的做无意义的事,为什么不能深入探讨某个机制的原理,为什么不能深入发现致病关联的基因,面向文章的人太多,面向转化的人太少。还有就是编程和数据分析的反馈周期了,很多人做生信都是半道入门,基本上学习目标就是出图,追求的就是快和好看。。
真正的生信核心是编程,包括前端和后端,除了编程,另外的核心是细胞生物学已有的知识库,生信是最有希望发现新的分子机制的领域,但是能做到的人太少了,都是在为实验服务,都是在为他人服务,没有自己的见解,看见一个数据也不会产生任何想法。
回复 支持 反对

使用道具 举报

发表于 2024-11-8 12:03 | 显示全部楼层


Nature最近开源的文献

上面这论文,通篇都是什么外显子组啊,转录组的分析,全部是生信的图。2023年4月份发的。

有没有那么一种可能性,我是说可能性哈,
是大部分人其实没入行,
或者穷的叮当响,
或者匆匆忙忙。
只能看些很水的文章,
没时间仔细琢磨让证据变强,
只能明知不靠谱照猫画虎写个结论硬抗,
期盼未来有机会再成长。
这种现状让人彷徨。



昨天被拉去一个转录组的技术讨论,帮朋友做报告解读。甲方公司请了某医学院的老师来交流。老师从头到尾,很认真的的核对了转录组分析中没有考虑到的细节,听的我冷汗直流。
就mRNA的转录组分析,十几年了,生信长手就能跑。问题是,您有没有核对样本的信息,疾病的状态,有没有核对核酸的质量,有没有观察数据归一化后的分布,有没有去做全套的质控,有没有观察批次效应,有没有试几个差异软件,有没有选取不同的cutoff试一下GO的结果。
我也没办法回答,自动流程里有些有,有些没有,然后转头问销售同事,这个项目一个样本谈的多少钱来着?两位数人民币。老师目光逐渐的平和起来。大家开始转而吐槽最近上海这天气太糟糕了,又沙尘又降温的,送样的同事真的很辛苦啊。
客客气气的送客人下楼。
听那个老师说粗话了,艹,你丫报的是成本价,人家给你跑了生信有结果都是人情。。。

我赶紧返身回电梯上楼,圈子很小,以后保不齐还有合作的机会。

他俩关系一定很铁,说真话。
回复 支持 反对

使用道具 举报

发表于 2024-11-8 12:03 | 显示全部楼层
2023.10更新
和更多医学背景的所谓生信需求的人接触后,意识到2023聊生信发文章是一个很有趣的问题。由于国内过去那些年各种生信培训或者卖课的不懈努力,在医学背景的人嘴里说“生信”仍然有巨大的概念窄化。
如果是没啥钱的医学背景人,最大追求是frontier系列杂志。很多人指的仍然是用分子特征(没钱就公共转录组数据)建立诊断/预后模型或者药物靶点,这种过时的小方向。他们有的在花钱踩坑(花几千上万块学所谓的快速教程)后哀叹现在连frontiers都不收“纯生信”了;有的乐观点,表示愿意把筛到的特征在细胞模型里验证做点实验支持。当然,考虑到套路更新换代,他们现在被带着在疯狂往孟德尔随机化里挤,不过不少谈孟德尔随机化时候有意无意视其不是生信,因为他们概念过于窄化,坚持生信就是转录组的预后模型。最后发个三四区的觉得生信if真低。
如果是有钱的医学背景人,往往是看了几篇nature genetics或者nature communication里的多模态,什么单细胞,蛋白组,代谢组等等,大手一挥,觉得自己也可以呀,咱最不缺就是钱了。砸钱来新瓶装旧酒,不过起码测序公司很多就直接帮忙分析了,还保证了一点可靠性。分析不出来,数据出问题了,也没事,就花钱请专门的生信课题组拯救一下。反正钱花了,东西肯定得出来,变魔术也得变出来。最后发现咋自己做就是二区了呢,那就是套路过时了,生信if真低。

他们的想法很简单,
生信是啥不重要,什么能发文章比较重要。
具体发文章的细节不重要,能套路化模板化批量生产比较重要。
基础知识与科学问题不重要,生信就是个噱头,就是花里胡哨的那些一大堆图,颜色还得养眼。
最基本的编程不重要,现成代码不报错就大功告成。
统计学只听过t检验不重要,有p值就一切安好。

他们做一个课题看的论文一只手数的过来,基本就是看了一些所谓的教程,就直接找两篇看起来领域接近的论文,火急火燎对标去做了。
急躁,非常的急躁。
做个几年,好的没学多少,科研的坏习惯学了一大堆,以后还得想办法弄职称,到时候再用啥手段可就不好说了。
很庆幸连frontier都不收那些没任何价值的所谓套路了,不求澄清玉宇,起码不要浪费国家经费。
很多人2023还没想明白,尤其是医学背景的。我自己本科也是医学背景的,我理解什么之前没相关基础,理解什么时间紧张,理解什么论文压力,理解什么没那么高追求。正因为如此,我才劝告不要以这些为借口,走向无法回头的深坑。 学了那些所谓套路,基本就走远了,与正经科研绝缘了,越来越压力大,越来越跟不上发展,然后恶性循环了。

没看过几十上百篇bioinformatics,gb,nar以及往上杂志的论文,说句很严格的标准,根本不算做生信。bioinformatics已经算兜底了。
正经生信起码也是瞄准这些杂志。gb和nar的if可都不算低。生信是个正经领域,一个很小的领域,不是反科学。
国自然项目算一种大层面方向的引导,建议去搜一搜国自然里现在导向是怎么样的。不跟着大趋势走,之后没人听抱怨的。

2022.9
有些人对生信的理解就是被那些公众号带偏了,不会真以为生信就是学点R或者Python,跟着死流程跑跑geo和tcga转录组,筛选基因构建模型再实验验证这么回事吧?
发水文凑毕业其实没啥的,但腆着脸觉得自己真在搞生信就有点滑稽了。
回复 支持 反对

使用道具 举报

发表于 2024-11-8 12:03 | 显示全部楼层
先说是不是,再说为什么。就低影响因子的期刊来说,JBC的影响因子,并不比Bioinformatics的高,而nature,cell,science,也不是不会发表特别硬核的生物信息文章,所以吗,这个问题不成立。但是,我们可以想想,什么是好的生物信息工作。
好的生物信息工作,分两种,
一种是纯技术类的,比如开发算法与分析工具,Bamtools, BWA,Bowtie2,GATK,MACS,STAR,DEseq2,Seurat,这种工作的科学意义就是提供工具,本身没并不能产生什么科学贡献,以上工具,除了Seurat(第三版发了Cell),基本没有发CNS正刊,但是基于这些工具,产生了不知道多少有潜在价值的科学发现,发表了许许多多的CNS以及其他高影响力的文章;此外是数据库开发与维护,比如GEO,TCGA,1000 Genome。这类文章的标准就是看你能不能对用户(生物学家们)开发出好用的工具。
另一种是与重要生物问题结合类,即能否从数据中做出有意义的发现,这应该是题主比较关心的一类生物信息文章。比如去年暑假,nature上登出了一篇叫做“RNA velocity of single cells”工作,从scRNA-seq的数据中计算剪切转录本与未剪切转录本的比例,从而估算出单个细胞基因表达的速率,进而来重建细胞发育谱系。并且辅之以实验。也是利用公共数据,但是这种文章就能给人耳目一新的感觉。
总结来说,好的生物信息研究和生物领域的其他好的研究一样,要么是高效实用的,要么是十分具有创新精神的。
以上。
PS:在单细胞分析已经套路化的2019年,推荐一篇特别有新意的非套路化的,而且非常硬核的文章:
https://www.sciencedirect.com/science/article/pii/S009286741930039X
回复 支持 反对

使用道具 举报

发表于 2024-11-8 12:04 | 显示全部楼层
问题本身,因为目前所谓做生物信息的人水平参差不齐,投机者太多,不仅是做的人,看得人比比皆是。试问,除了生物信息学,实验科学发表在低IF上的文章不多吗?
我首先dis一下题主所谓的做实验的博士和部分回答者。发表一篇优秀的论文,生物信息的投入不亚于甚至高于实验科学。我看了这么多回答,无非就是围绕以下这些点,容我娓娓道来(可能有些不切题)。
第一,生物信息研究时间短的问题,“相比实验,生信用时短,短则几天,而实验需要论年”。生物信息研究和实验科学研究一样,皆需要大量的时间和精力的投入,(这里撇开灌水和套路的工作,实验科学难道不灌水?)。以生物信息软件开发,数据库建设、算法研究以及具体的系统生物学研究为例:软件开发的周期从提出问题到软件release本身的周期需要快则需要半年-1年的时间,功能复杂,加上文章撰写,用户评测,应用验证等工作 拖个3-5年文章发表是常事(我博士毕业已经三年+,文章到现在还没出来)。数据库建设的周期的核心步骤是在数据整理和结构化部分,有些需要定义流程、写流程、申请和下载数据(这一步是主要限速步骤,国外会好点),重新分析这些数据,半年-1年是常事,文章发表的周期通常在1-3年。算法研究完全是灵光乍现,好的算法需要不断的测试,更新,测试,时间不定,周期1-N。至于系统生物学研究,呵呵,我以后尽量不做,因为拖起周期来,能拖几届毕业生。
第二,对于生物信息灌水的问题, 制度和个人节操大环境下的产物。没有方法学、新的科学问题提出、套路的文章在我看来都是灌水,CNS的一些big name的文章也存在灌水的现象。灌水的文章读起来会让人提不起精神,写到简历里面都难看的要死。我这边的灌水的例子也有不少,最近审到大量灌水文章都是这样的套路(国内国外都有),TCGA数据+差异表达+功能分析+生存预后分析。看了下作者主要是各大医院的医生同僚,这种分析周期不过半天,写文章半天的套路工作发表了无非是为出版社增加业绩罢了(你们讲的时间短在这里)。当然,作为一名优秀的“审稿人”,我还是拒了的,所以有这类想法的同学们,尽量希望这类文章不要落到我手里......,其实这也侧面反映editor的不负责任。尽管我这里宽进严出,杂志上还是刊发了许多同类文章,这些文章的发表其实也就是题主所看到的低分文章,可能没有这些文章,杂志就活不下去了吧。换句话说,没有这些文章,对于一些人,晋升是个问题,考核也是个问题,所以这是不是生物信息的锅呢?
第三,是不是生物信息的文章和实验一起才能高分?错,生信+实验和发高分既不是充分也不是必要条件。我们看到的很多顶级期刊的文章既有生物信息又有实验,但是并不代表两者都有就能发表高分论文了。那么回过头来什么样的工作才能发表高分论文呢? 这个取决于你的读者或者editor看到你的文章能发出“哇”声音(这是有次听nature 主编报告的时候打的比喻),而不是“哦”。你的发现足以引起领域内关注,吸引人眼球,对未来的科学发展有着深远且实际的意义。跟你采用实验和生物信息的研究手段并无半毛钱关系,这些方法的使用无非是为了证明你的观点,验证你的结果以及迎合部分审稿人的需求罢了。 有兴趣读读主推方法学的期刊论文如nature method 、nature protocal、以及我们生物信息学的顶刊,呵呵 bioinformaitcs(反正我没中过,不了解这个刊的尿性)。其中不乏纯生物信息的高分工作。
第四,生物信息的理解,我从不去dis 实验科学,做实验的水有多深,想必大家心里也清楚(欢迎来怼)。但是很对对于生物信息一知半解的过来大放厥词,我看着就不爽。我从本科就对这个学科很感兴趣(那个时候 生物信息在国内处于起步阶段,相关的书籍很少),不是因为他可以方便灌水,而是因为这个学科集多个学科的内容为一体,受制于技术发展的同时,可以集大成的解决各类生物学问题,可以更方便触及生命科学的本质。我这里重贴一下生物信息的概念(wiki的,我觉得还算接近):Bioinformatics is an interdisciplinary field that develops methods and software tools for understanding biological data. As an interdisciplinary field of science, bioinformatics combines biology, computer science, information engineering, mathematics and statistics to analyze and interpret biological data. 这里可以看到,学好生物信息往往要数倍于单一现有专业的学科内容,这也更好的阐述学无止境这个词的概念,也是它最吸引人的地方。最后,高通量测序数据分析不等于生物信息!TCGA数据分析不等于生物信息!meta分析不等于生物信息!
第五,假阳性的问题。预测不代表百分百正确,实验科学有更多的幺蛾子。生物信息可以保证的是,同一批数据,同一个代码、同一个环境可以exactly的复现之前的结果。实验科学则不尽然(很多人说了,为了保证稳定性,怕是还得同一个人做才行)。所以,理论+假设+验证才是判断可信不可信的主要条件,假阳性的谁都有,不相信生物信息的话,你大可不必用他的结果,试一下把2w个基因挨个验证?
第五,生物信息学的一个特点就是可以作为工具性学科,但也不限于工具性学科。作为工具学科的特点就是,利用生物信息技术,你可以很快从一个门外汉插入一个全新的领域,可以快速的探索一个科学问题。不知道做哪个目标?高通量筛选来一套?大案牍术来一套(大数据分析)?文本挖掘来一套?(我就不信NLP挖的速度比你“人工智能”读文献的速度慢)。所以,作为方法学部分,会用和用好才是重点,而不限于你是做实验的还是做生物信息的。另外一方面生物信息是对各类生命科学/医学大数据大海捞针、抽丝剥茧、阐幽抉微和推宗明本的工作,这些大数据的阐述者,生物信息学研究人员的贡献重要而独特,他们的工作应该受到肯定和尊重(这句话来自我师兄兼基友,欢迎报考他的研究生,可以私聊),而不是“生物学研究的工具而已”。或许若干年以后会有个新专业叫生物信息技术,但是他们绝逼不是“生物信息学”。
我记得我以前回答过
从事生物信息学工作,学历和工作经验哪个更重要?“最后,我需要强调的是,生物信息学不是一门工具性的学科,它是一门有朝气并且具有独立学术思维和内容的学科。”
我记得10年前看过一本书的扉页是这样写的:生物信息研究者可能无法获得诺贝尔奖,但每个获诺贝尔奖的人都离不开生物信息的支撑。 10年后的今天,我觉得可能要改个说法了。
可能很多人觉得生物信息是个捷径,觉得万一实验学不好就可以学生物信息。但是根据我这些年的经验来看,这种想法来学生物信息的往往都转去其他学科了,因为学好、做好生物信息真的很难。
To 题主, 很多生物信息文章分数不低,看似简单却也经历若干年坎坷的研究过程。
回复 支持 反对

使用道具 举报

发表回复

您需要登录后才可以回帖 登录 | 立即注册 微信登录 手机动态码快速登录

本版积分规则

关闭

官方推荐 上一条 /3 下一条

快速回复 返回列表 客服中心 搜索 官方QQ群 洽谈合作
快速回复返回顶部 返回列表