金桔
金币
威望
贡献
回帖0
精华
在线时间 小时
|
谢邀(保持zh传统),其实生信的研究思路很简单,别看现在组学那么丰富,方法那么多,遵循的基本定式无非是:
拿到数据,清洗数据,分析数据,筛选结果,可视化
下面浅析一下五个步骤是如何引导出一个完整的生信分析,又是如何最终架构出生信研究论文。
(免责声明:这里提到的"生信研究",不指代任何算法、理论和计算生物学相关的流程开发工作,仅限于应用向的生信分析)
1.拿到数据
拿到数据,说实话,这一步决定了你最终文章的水平或者功利地讲分数。世事无常,有的人就是含着金汤勺出生的,有的人出生连牙都没有。隔壁课题组发文章,chipseq,ATACseq, RNAseq, 组蛋白chipseq,单细胞水平的上述seq,空转,qtl,蛋白组等等等等,花样复杂,种类繁多,最重要的是都是自己测的或者是找公司测的,老板大手一挥,几十上百的样本就扔去测序,数据多得服务器都装不下,拿好几个移动硬盘备份。再看看你的课题组,第一天进组,老师来一句:你看看这篇文章,人家挖一挖公共数据库就发了一篇x区y分的文章,你好好研究一下,就按照他们的思路弄出一篇。
对于金汤勺,拿到数据可谓是水到渠成,当然,有时也要挖掘公共数据库去做补充。对于无齿的人,挖掘公共数据库是唯一的选择,但是挖掘的广度和深度不同也一定程度上影响最终质量。一般常用的公共数据库都有相应的挖掘教程,而优秀的无齿爬手往往能够探到更多"不为人知"的数据。如果无齿,就需要提升自己的信息检索能力,获取信息是生物信息学的第一课。
数据获取是一门可浅可深的学问,浅则点点鼠标,深则网络爬虫,更有甚者去隔壁金汤勺组窃取数据,上演黑客帝国。我们要感谢辛勤工作的数据管理员,现在绝大多数生信能用到的公共数据库都十分友好,甚至自带可视化功能,所以网络爬虫和黑客帝国绝大多数无齿的人也犯不着。无齿的同胞们也不用嫉妒金汤勺,挖掘公共数据库本身就是一项实用的技能,而真正顶尖的生信人是可以仅凭公共数据就把文章发到连金汤勺都发不到的水平。
2.清洗数据
清洗数据是一项乏味的工作,工作量与获取的数据量成正相关。同时,数据清洗也是一项极其细致的工作,可能一点点小疏忽就导致后面的工作全部白费。数据清洗既能体现工作能力,又能体现心理素质。如果想鉴定一个人是否适合做生信,最好的检验方法就是拿一批数据让他去好好洗洗。
基于流程的位置和数据的类型,数据清洗的难度也大相径庭。最简单的可能只需要用excel滑滑鼠标就能解决,复杂的需要python和r写些程序,更有甚者需要在服务器上用Linux命令行哗啦啦地跑代码。比较明确的是,下游的数据比上游的好清理,构成单一的数据比多组学的数据好清理。
我自己就因为数据清理不当吃过很多亏。比如一次是因为r语言读写问题,有一个基因名不规范,导致从该行以后的四千多行都没读入,分析结果少了四千多个基因,后来可视化的时候发现了问题,结果是全部重做。另一次是使用某个软件,我制作的物种分类文件和该软件的要求有差池,愣是重跑浪费了一周时间(确切地说浪费的是服务器的时间)。所以我自己在做数据清洗的时候一直保持着敬畏之心,食材来之不易,应当精心处理。
3.分析数据
把生信分析比作下厨,前面两部以及把食材买好、洗好,整整齐齐地放在案板上了。而分析数据就是把数据切碎,翻炒。分析数据是生信的核心,这时候生信大师的厨艺可以施展了。
厨师炒菜,虽然炒出来的又好有坏,但是炒菜的步骤大多是一成不变的。首先得有个锅吧(r语言),得烧上火吧(流程代码),接下来把食材放进去(组学数据),炒一炒(增删代码),加点佐料(一些好用的r包),最后出锅盛菜(导出数据)。
看似简单的步骤,然而最后炒出来的菜有的让人垂涎欲滴,有的让人退避三舍。有的人,一看到分析自己的组学的代码,拿过来直接套用,炒也不炒,佐料也不加,直接出锅,食材都烂在一起了。有的人,听说老八秘制的佐料很好,也不看看自己的食材合不合适,直接加进去,炒的也认真,结果最后一股奇怪的味道。更有甚者,连锅都不买,直接用微波炉转一下,以为自己的食材是加热速食,结果差点没烤干(直接用线上网站分析)。
把同样的食材给一名生信大厨和给一个生信饭桶,最终炒出来的菜很可能天差地别。如果说,数据的获取决定文章的上限,那么数据的分析就决定了文章的下限。再好的食材,没有伯乐相识,最终也会被白白浪费。
当然,在厨师水平不变且比较高的情况下,食材的种类越多,炒出来的菜约可口,佐料加的越丰富,菜味道约鲜美。一个组学,再怎么炒,也就能蒸煮闷炸罢了,能挖出的信息就那么多,但是再加一个组学就能玩出更多花样,交集并集,联合分析,得出的结果也更可靠。再加到三个、四个就可以称作多组学了,排列组合一下,再配上不同的炒法,不同的佐料,炒出来的菜品就数不胜数了。这就是为什么,多组学往往是高分文章的入场券。
想成为比较优秀的厨子,目前要做到以下几点
1.要对每种食材了如指掌(每个组学要搞懂)
2.了解不同食材的搭配方式(组学联合分析)
3.了解市面上常用的佐料,以及其对应的食材(熟悉常用的生信工具和其应用的数据种类)
4.得会炒,最好还能了解炒菜的原理(能够完善和增改流程,对流程有深入了解,能掌握好统计学)
5.能熟练控制火候(编程能力)
4.筛选数据和可视化
顶尖的厨师,除了会做菜,还会摆盘。菜是给人吃的,文章是给人看的,你的菜做的再好吃,看起来黑糊糊一片,也会吊人胃口。大厨们对自己菜肴的品相把控尤为细致。
对于有后续湿实验的文章,筛选数据是不可或缺的一步。再炫丽的生信分析最终也要回到实验上,回到研究的生物学问题上。就算是纯干实验的文章,不精挑选地把自己得到所有结果一股脑全部写到文章里,也不合适。筛选数据,可能不完全由生信工作完成,但是肯定要有生信工作者参与,因为自己跑的数据,自己最了解。
简单的时候,顾客会提供一串基因,你只需要调出相关基因的分析结果即可。复杂一点,可能需要你自己判断哪些基因合适。再进一步,可能需要你的结果来判断哪个实验思路走的通哪个走不通,选择哪条。再让人头疼一点,就是让你根据结果自己琢磨出一条实验思路给后续实验。最恼人的是,你得出的分析结果和他们的预测不符,否定了先前的实验思路,简直进退两难,左右不是人。
数据筛选的难度也随数据的复杂程度而增加,尤其是当多个组学之间的结果有冲突的时候,该如何处理和矫正,该相信哪个,该质疑哪个。这一阶段,除了对组学数据和分析结果的深入了解外,还需要扎实的统计学基础和丰富的文献积累。发表的文献,它们的数据都是经过筛选和提炼的,所以我们应当从较高水平的文献里吸纳他们的处理方法和筛选过程。当然,也有些文献的结果是经过捏造和篡改的,古话言近朱者赤近墨者黑,建议的大家筛选文献的时候尽量挑一些高水平的。
狭义地讲,可视化是数据筛选的一部分,就是展示筛选的数据。可视化其实不是一项技术活,而是体力活,慢工出细活就是指的这一步。想想米其林大厨精细地摆盘,和cns精美的图片一样令人称绝。无非是那么几个工具,ai,ps,ggplot和一些包自带的绘图函数,还有土一点的用ppt也很常见,不过excel做图就算了,做表格还好。
虽然有话讲,现在的生信越来越华而不实。但是既然你的内容很实,能华却不华,结果被华而不实的文章压过一头,吃哑巴亏。写论文和绘图都一样,既然内容质量好,包装也要精美,米其林的菜肴既要美味,也要美型。总之一句话,图做的好看,除了费点事,怎么都不亏。
总结
生信工作做的好不好,上限看数据,下限看分析,清洗数据要步步为营,筛选数据要有理有据,最后可视化要精益求精,
码字不易,希望大家看完之后如果有点收获,点点关注点点赞呗 (๑ ๑) |
|