立即注册找回密码

QQ登录

只需一步,快速开始

微信登录

微信扫一扫,快速登录

手机动态码快速登录

手机号快速注册登录

搜索

图文播报

查看: 161|回复: 5

[分享] 为什么做实验的人觉得生物信息数据分析很容易?

[复制链接]
发表于 2025-1-28 19:20 | 显示全部楼层 |阅读模式

登陆有奖并可浏览互动!

您需要 登录 才可以下载或查看,没有账号?立即注册 微信登录 手机动态码快速登录

×
在学术界和工业界这些年,经常发现在web lab 做实验的和从事数据分析bioinformatics scientist 之间在交流上有很大的隔阂,互相不理解。和身边做实验的交流,感觉他们认为生物信息数据分析是个很容易的事,跑跑pipeline 就好了。标准化的流程分析也许简单,但后续customized 分析很花时间,如何解读数据,数据中有什么问题,采取何种好的分析方法都很花时间。

原文地址:https://www.zhihu.com/question/638672346
楼主热帖
回复

使用道具 举报

发表于 2025-1-28 19:21 | 显示全部楼层
因为他们懂的比较浅,不理解是正常的。实际上很多做生信的也不懂生信,或者说,不懂生物,就容易闹笑话
很多湿实验实验室的干实验都是外包的,公司测序出标准报告,然而这只是为了赶时髦,上点组学,下游的功能验证早就做好了,组学只是锦上添花,做给审稿人看的,不然审稿人总会问你为啥你能找到这个基因,那个蛋白
做生信的很可能不懂生物,即使他是生物出生的。一个是掉进统计学陷阱,觉得有相关性/显著性,这几个基因就在某一机制中起协同作用,然而这种机制问题其实需要严格的分子生物学实验验证,不然好一点的期刊都是不认可的。另一个是数据滥用,喜欢标新立异,不按照套路出牌。优质套路文章虽然套路,就是测个多组学然后XXX,但是别人的方法学不会受到任何质疑,文章是有保底的。而你一旦想着破除套路,用所谓的"新方法"去解决老问题,就会受到方法学合理性的质疑,因为没有别人这么玩,你是第一个,那你最后很可能底裤都没有了
综上,生信的受轻视,是湿实验人的不了解以及生信人的不自重共同造成的,很多时候,我都觉得生信被鄙视真的不冤
回复 支持 反对

使用道具 举报

发表于 2025-1-28 19:21 | 显示全部楼层
1.跑pipeline做调包侠算生信,但并不是生信的核心。生信的核心是算法开发。
2.受益于github这种开源平台,让生信码农的学习成本降至极低。实验的protocol不确定性太多,而代码和环境是直观可见的,使得生信人更容易站在巨人的肩膀上,也使得很多人有了生信很简单的误解。如果没有Seurat,scanpy这种package/module,分析单细胞数据最起码也是个原代类器官培养的难度。
3.wet lab在掌握各类测序技术的建库上机流程之前是没有资格嘲讽生信的。国内的测序尤其是医院多数都是外包,有几个懂建库原理的?医学圈很多人连align是什么都不明白。
回复 支持 反对

使用道具 举报

发表于 2025-1-28 19:21 | 显示全部楼层
最主要原因就是做实验的看着做生信的只需要对着电脑就完成了,而他们不但需要对着电脑处理文件数据,还要辗转于各种实验平台,体力劳动拉满。有点类似蓝领看白领感觉对方天天空调房享福的感觉,再加上带入自己在电脑上工作的经验,自然感觉很容易。也有一种情况是,有人用公司分析的套路结果框框发文章,所以被旁人觉得很容易,随便准备一下样品又是一篇,比苦逼做实验容易多了。
如果观察再认真一点,还可能看到做生信的人电脑上打了几行命令运行上就开始摸鱼了,这也太容易了吧!但是脑力劳动跟体力劳动就是有区别的,生信流的主要工作量是靠电脑做的,人主要负责指挥电脑干活,实验流的很多工作量还是人力来做的。电脑的效率自然也是比单人人力高效的多,任务完成所需时间就少了,做题家自然认为时间少的活不难。这方面来说,真正对应生信流的其实是指挥师弟师妹干活的实验流大师兄,根本不是一个赛道的。
不过话又说回来,实验流鄙视生信流的情况我感觉并不多见,至少在我周围的小作坊课题组并不多见。可能更多见于干湿分离的大组,这种大组会有一个矛盾,生信流的数据很大程度来源于实验流,那么是数据基础更重要还是数据加工更重要呢?这种大组通常的传统观念是,数据基础更重要,实验流更生物,生信流是外道走捷径,甚至不怎么依托于具体的生物对象,署名也多是先湿后干,自然会塑造出生信更容易的误解
我其实水平也高不到哪里,大多数时候就一个跑pipeline的,最多加上几步简单的数据处理冒充一下最初级的算法,在类似话题下就是生信人的底层,滥竽充数纯混日子的那种,但是很少看到有人达到哪怕是我这个水平。是有,当然也有更强的,但真的不多。所以我周围的人并没有觉得我有多水,甚至还觉得我有点水平
实际上生信的门槛是很难越过的。我前前后后带过差不多10个师弟师妹,大多数后面都自愿去做实验了。只有三四个没太大阻碍能达到入门水平,但这三四个还是觉得做实验更容易,或许是路径依赖吧。其他的虽然多多少少都能按部就班跑一些命令,但缺乏灵感,可以说不是做生信的料子。只有一个,最终走上了生信路,达到了随便发三区的水平。我相比之下熟练一些,发二区没什么难度,但是一区就要花时间琢磨了。在我的水平往上,各个层次的一区包括CNS都能发纯生信的研究,只是难度不同。相比之下,干湿结合瞬间能够提升1-2个档次。
当然所谓的pipeline跟算法其实也没刻板印象那样差了多少档次。NBT一样有发pipeline为主最多加上简单数据处理的工具方法,有的深度学习科班出身做炼丹最后发个不知名期刊,数据还不公布或者没做用户测试根本跑不动。生信其实还是基于生物的学科,只要你做的符合生物研究的需求,其实不需要多高端的技术水平。
至少目前,能跑pipeline的水平也足够了。当然,这也不是特别容易的事情,因为你会遇到各种各样的bug,没有处理问题的能力还是很难跑的动数据的
回复 支持 反对

使用道具 举报

发表于 2025-1-28 19:22 | 显示全部楼层
看你如何定义生信,跑pipeline的确是很容易.
conventional, 传统生信说的是alignment,assembly,variants calling那一块,比如liheng那一边,做genome study的
现代生信包括做system biol,population analysis,model simulation, graphic analysis,主要是做quantitative model的
广义生信包括是AI,统计,math analysis,做生统的
超广生信是biophysics,molecular dynamics之类跨学科跟生物和computational相关
调包作图的不是生信,是生信下游的用户,美食家确实有可能需要知道菜怎么做,但和厨师还是差很远的
回复 支持 反对

使用道具 举报

发表于 2025-1-28 19:22 | 显示全部楼层
我读研的时候老板会问,你喜欢做工程还是做科研?
啥区别?
做工程的就是自己做一套算法、小工具、模型、pipeline、R包、数据库、软件、webservice......你只要切入角度够刁钻(有应用落地的地方且别人没做过),或者性能比现有的工具强一丢丢,就可以了,文章肯定能发的。
做工程绝对能有成果,不会失败,只是够不够好的差别,绝对不会延毕。
但是research,可能做了一圈,哦嚯,negative result。
胜败乃兵家常事,少侠请重新来过,延毕~
从这个角度来说,生信容易。

实验和生信的关系有点类似养鸡和烹饪鸡。
养鸡的成本高、周期长、风险大,可能会鸡瘟夭折;
烹饪的成本低廉、时间短,不管难不难吃,弄熟了即可,“多简单”。

说生信容易的实验人员,原因就是只要我把流程跑通了我就算会生信了——
“我会处理测序原始数据、做进化树、差异基因分析、通路分析、ggplot画图、run一些现成的脚本和包我就叫懂生信了~”(实不相瞒,很多纯生信组嫌很常规的操作浪费学生,都外包了,尤其是美工、线上工具的前端等等。我们希望越来越多的实验人员学会自己完成常规分析,就不要push我们给你屎上雕花)
“自己写个R脚本,哈哈哈能运行,但是R好慢啊,老师我要申请算力支撑。”(尼玛我一看三层嵌套循环)
“我运行代码了,没有报错,出结果了,oh yeah完美!”(预处理错了、选错了模型、设置错了参数或者流程不对)

但是专门做生信的,烹饪鸡的标准,绝对不是只把鸡弄熟。
生信新手:我选择了官方推荐的烤箱,把鸡放进去,设置说明书默认参数,然后鸡熟了oh yeah。
生信高手:这只鸡产地、品种是什么?怎么饲养的?几年鸡?有没有下过蛋?活杀还是冷鲜?基于上述信息选择烧、烤、炸、煎......哪种办法最能凸显这个鸡的美味?要不要按摩鸡肉、腌渍做预处理?如何选完美搭配鸡的调料和配菜?火候和烹饪时间怎么把控?摆盘如何呈现?米其林级别的烤鸡出炉 oh yeah。
当然,鸡的肉质特别好(数据好,而且非常贴合你的科学问题),你随便放火上烧熟,可能跟国宴级的烧鸡味道差别不大,顶多卖相差点。这种情况,厨艺加成不大。

但是不好呢?怎么改进?
生信人的手艺应该更体现在处理别人处理不了的料上——质量不好的鸡肉、被扔掉的皮、筋膜、骨头。
原始数据第一手被发表了,或者最优质的、最大块儿肉被鸡的生产者吃了,想复用再发,要在切入角度和分析方法上别出心裁,变废为宝,这才是彰显手艺的时候。
所以生信人的本事不仅在烤鸡上,也要能做出麻辣兔头、夫妻肺片、毛血旺、卤鸭舌这种下水料也能让人趋之若鹜的菜上。

另外,做实验的和生信合作不畅(相轻还好吧,至少我没有怎么遇到),我经历过以下情况:
1 没有理解生信的投入成本。
以前有篇nature纯生信的文章,正文两页纸不到,supplimentary 70多页,导师让我们学习。仔细一看,人家一篇文章用了30多个软件或者工具。查这个实验室的网站,人家课题组十年累积了100多个小工具(发表加未发表的)。我们照它的方法做一遍复现它的结果,愣是花了一个月。
我当时的想法是:本来要解决这个问题,靠这个数据,用常规分析方法根本解决不了,他们想法很巧妙,完全绕开获得不了的数据和解释不了的问题,另辟蹊径设计了一个新方法,然后接下来每一步,包括细微的处理都非常考究,我会思索他们为什么会用这个方法,而不用其他方法,或者有没有比它更好的办法,它在稳健和准确上平衡的很好,每一步都走得优雅、干净,最后感慨能发nature的果然不是靠运气,靠的是他们实验室这么多人、这么多年累积下来的深厚功力。
做实验的人看到的是:他先公共数据库里收集了xxx数据,然后用了三个自己开发的算法,得到了一些结果,有些结果还是已知的,未知的也没有实验验证。感觉就这几个步骤很简单,带图才两页纸,大概几个月就能完成。

2 没有真的理解对方的目标,导致对对方达到的效果不满意。
现实的数据是有很多限制和掣肘的,但是从算法的角度出发,思维更理想化。
一个是追求最优解,一个是追求最好解,但是最优往往不等于最好。
而且新手最容易出现的问题是:
做实验的,我要找个方法最完美的利用和呈现我的数据,讲好我的故事。
做生信的,我要找个最合适的数据体现我算法的优秀。

3 对“复杂”的理解不同。
有些对人来说很简单的事儿,对于计算机来说是极为复杂的;但是有些工业界觉得异常麻烦的事儿,对计算机来说反而是好解决的。
如果一开始合作的切入点跑偏了,落在对方劣势上,双方都会觉得吃力。


反驳一下有的帖子:
有说生信代码要求不高,也不用懂算法,那是十多年前我读书的那个年代,现在cs转生信的可多了,懂算法的人可多了,后生可畏。
说做湿实验的自己做数据更可靠。no,不是数据更靠谱,而是你自己做出来的数据到底靠不靠谱,你心里最有谱儿。
我们以前在处理别人的数据时,一律先怀疑是不靠谱的,check没问题了,才会使用。
比如芯片的话会先看看原始的图像(十多年前公共数据库里最多的还是芯片)。



信号不均一

我遇到最离谱的,有个人芯片上按了老大一个手指印,指纹都清晰可见。
我问这是啥,他说“哦当时拿起来的时候不小心在旁边捏了一下~”
这种你直接看数据看不出来。
还有测序数据,QC很好那是最好的事儿,可是QC不好呢?
是正常的信号衰减?是设备故障?是歧管爆裂?循环丢失?读取2故障?异常的峰值是污染还是基因过表达?遇到各种不理想的问题要怎么处理?如何取舍?还有测序仪本身的参数也要看,太新的机器和太老的机器,误差都会更大些。
当年我们建数据库,分析了400多套公共数据库里的高通量数据,有几个癌旁组织注释疑似错误,因为聚类以后,癌旁非要跟癌症样本挤在一个cluster里,bootstrap(支持度、可信度)非常高,你说它是benign的,我是不信的。
人家数据质量靠谱,但不妨碍你病理的判断出错。
这种存疑的病理错误率非常低,400多套数据里不到10套。但是大多数实验总共才10个左右的样本,错了一个,对于这个数据集本身也是天大的错误。
另外生信可不只是高通量数据处理,跑跑pipeline而已,延伸出去的工作有很多很多很多。
回复 支持 反对

使用道具 举报

发表回复

您需要登录后才可以回帖 登录 | 立即注册 微信登录 手机动态码快速登录

本版积分规则

关闭

官方推荐 上一条 /3 下一条

快速回复 返回列表 客服中心 搜索 官方QQ群 洽谈合作
快速回复返回顶部 返回列表