生物信息学的研究思路是什么？

Rose · 发表于 2024-12-22 16:00

登陆有奖并可浏览互动！

您需要登录才可以下载或查看，没有账号？立即注册

×

医学研0，最近在阅读生信分析的文献，了解了一些数据库比如TCGA，还有R语言等研究的方法，但还是不知道生物信息学整体的研究思路是什么，希望大佬能指点指点！感谢

原文地址：https://www.zhihu.com/question/628721162

大力水手 · 发表于 2024-12-22 16:00

2024年了，不是玩TCGA的时代了。我只能说，少挖点公共数据库的东西，多测一些自己的东西，不要去堆组学，而是先去想想该测的是什么。你可以不做实验验证，但你要多花几倍的钱，去测数据，让数据和数据之间交叉验证，时间和钱，总得丢掉一样
10月24日更新
众多生信思路都是生医，这里更新动植物的研究思路，希望对各位有所裨益
对于动物植物的研究，首要的是选对素材，也就是选择什么动植物作为研究对象，万万不可高估自己实验室所做物种的价值，不要期望一个冷门素材做的工作成为离群值，发表CNS
我们举一些CNS编辑关注的物种，比如牛，羊，猪，水稻，小麦，西红柿，海鱼，这些物种近年在CNS及其子刊上有可观数量的文章发表，而鸭子，河鱼 (如鲤鱼)，家蚕，冬瓜则相反，这些物种的影响力被限制在东亚，甚至被限制在中国，CNS的编辑并不感兴趣，相关的工作很容易被拒稿，只有极少数的工作被发表在顶刊上。值得注意的是，鸡作为一种全球性的农业动物，近年却很少出现在CNS上，这是为何？
因为工作量问题，鸡是小型动物，其数据获取难度较低，难度X数据量≈工作量，即鸡的工作很容易被认为是低工作量的，这也是近年来的趋势，即小型农业动物好做，但不好发顶刊
除了素材，就是要选择最合适的方向去做研究。举个河鱼的例子，A鱼和B鱼产了C鱼，多年人工驯化，C鱼生产性能卓越，发明人因此甚至评上了工程院院士。此时，必然要从生产出发，直接单倍体基因组+基因渗漏+AB鱼染色体组重组+基因组事件分析 (如基因复制/缺失事件)+GWAS套路把该研究带走即可，发表正刊基本不可能，但发表NC还是有希望的。但如若，利用C鱼去研究鱼类是否有印迹基因，研究融合基因的机制，那便是走远了，因为这两个问题太大，不是一种河鱼能讲清楚地，尽管这俩问题确实是剑指正刊。题外话，2022年发表在SA的一篇河鱼文章就讲了SDR基因的类印迹，工作很solid, RNA，甲基化，性反转都做了，也不敢下结论自己找到了印迹，而是类印迹
最后是中国院士对顶刊的审稿有多大影响，我个人认为得分人，不是谁都有很大影响。如果该院士常常发文，那影响就较大，如果该院士一心搞生产，偶尔想发文了，那就不太管用，奉劝一句，打铁还需自身硬

清风寡欲 · 发表于 2024-12-22 16:01

最最核心的东西其实是如何刻画出一个生物状态。这个状态以之前的理解是转录组，表观遗传组，代谢组，蛋白质组等等，现在的理解是动态的变化路径，类群之间的关系等等。但生物信息学最重要的核心是如何用最好的表达方式来刻画想要体现的生物状态。
目前所有的方法都还有局限性，所以最高超最厉害的研究者要研究的往往是更新更好的表达方法。从pca,到tsne，到umap，到rna velocity，都会变成时代的产物。这个领域因为不需要做湿实验所以更新速度非常之快，但想要站在最前沿的领域，又受限于数学和物理专业的学者的参与。如果你想了解最前沿的研究思路，那么你需要加入一个既有数学物理研究者，又有资源生物学者的大牛组，和他们学习且感悟，创造一个新的研究思路。如果你只是想要协助别人完成简单的，目前己有的package可以完成的分析，那么你只需要知道目前绝大多数的生物信息学是在分析rna 表达谱的数据。分析这个数据有固定的思路和需要注意的点。你只需要上一两门生物信息分析课就可以立刻上手。
因此这个领域的研究思路取决于你对自己的定位。

同花顺 · 发表于 2024-12-22 16:02

谢邀（保持zh传统），其实生信的研究思路很简单，别看现在组学那么丰富，方法那么多，遵循的基本定式无非是：
拿到数据，清洗数据，分析数据，筛选结果，可视化
下面浅析一下五个步骤是如何引导出一个完整的生信分析，又是如何最终架构出生信研究论文。
（免责声明：这里提到的&#34;生信研究&#34;，不指代任何算法、理论和计算生物学相关的流程开发工作，仅限于应用向的生信分析）
1.拿到数据

拿到数据，说实话，这一步决定了你最终文章的水平或者功利地讲分数。世事无常，有的人就是含着金汤勺出生的，有的人出生连牙都没有。隔壁课题组发文章，chipseq，ATACseq, RNAseq, 组蛋白chipseq，单细胞水平的上述seq，空转，qtl，蛋白组等等等等，花样复杂，种类繁多，最重要的是都是自己测的或者是找公司测的，老板大手一挥，几十上百的样本就扔去测序，数据多得服务器都装不下，拿好几个移动硬盘备份。再看看你的课题组，第一天进组，老师来一句：你看看这篇文章，人家挖一挖公共数据库就发了一篇x区y分的文章，你好好研究一下，就按照他们的思路弄出一篇。
对于金汤勺，拿到数据可谓是水到渠成，当然，有时也要挖掘公共数据库去做补充。对于无齿的人，挖掘公共数据库是唯一的选择，但是挖掘的广度和深度不同也一定程度上影响最终质量。一般常用的公共数据库都有相应的挖掘教程，而优秀的无齿爬手往往能够探到更多&#34;不为人知&#34;的数据。如果无齿，就需要提升自己的信息检索能力，获取信息是生物信息学的第一课。
数据获取是一门可浅可深的学问，浅则点点鼠标，深则网络爬虫，更有甚者去隔壁金汤勺组窃取数据，上演黑客帝国。我们要感谢辛勤工作的数据管理员，现在绝大多数生信能用到的公共数据库都十分友好，甚至自带可视化功能，所以网络爬虫和黑客帝国绝大多数无齿的人也犯不着。无齿的同胞们也不用嫉妒金汤勺，挖掘公共数据库本身就是一项实用的技能，而真正顶尖的生信人是可以仅凭公共数据就把文章发到连金汤勺都发不到的水平。
2.清洗数据

清洗数据是一项乏味的工作，工作量与获取的数据量成正相关。同时，数据清洗也是一项极其细致的工作，可能一点点小疏忽就导致后面的工作全部白费。数据清洗既能体现工作能力，又能体现心理素质。如果想鉴定一个人是否适合做生信，最好的检验方法就是拿一批数据让他去好好洗洗。
基于流程的位置和数据的类型，数据清洗的难度也大相径庭。最简单的可能只需要用excel滑滑鼠标就能解决，复杂的需要python和r写些程序，更有甚者需要在服务器上用Linux命令行哗啦啦地跑代码。比较明确的是，下游的数据比上游的好清理，构成单一的数据比多组学的数据好清理。
我自己就因为数据清理不当吃过很多亏。比如一次是因为r语言读写问题，有一个基因名不规范，导致从该行以后的四千多行都没读入，分析结果少了四千多个基因，后来可视化的时候发现了问题，结果是全部重做。另一次是使用某个软件，我制作的物种分类文件和该软件的要求有差池，愣是重跑浪费了一周时间（确切地说浪费的是服务器的时间）。所以我自己在做数据清洗的时候一直保持着敬畏之心，食材来之不易，应当精心处理。
3.分析数据

把生信分析比作下厨，前面两部以及把食材买好、洗好，整整齐齐地放在案板上了。而分析数据就是把数据切碎，翻炒。分析数据是生信的核心，这时候生信大师的厨艺可以施展了。
厨师炒菜，虽然炒出来的又好有坏，但是炒菜的步骤大多是一成不变的。首先得有个锅吧（r语言），得烧上火吧（流程代码），接下来把食材放进去（组学数据），炒一炒（增删代码），加点佐料（一些好用的r包），最后出锅盛菜（导出数据）。
看似简单的步骤，然而最后炒出来的菜有的让人垂涎欲滴，有的让人退避三舍。有的人，一看到分析自己的组学的代码，拿过来直接套用，炒也不炒，佐料也不加，直接出锅，食材都烂在一起了。有的人，听说老八秘制的佐料很好，也不看看自己的食材合不合适，直接加进去，炒的也认真，结果最后一股奇怪的味道。更有甚者，连锅都不买，直接用微波炉转一下，以为自己的食材是加热速食，结果差点没烤干（直接用线上网站分析）。
把同样的食材给一名生信大厨和给一个生信饭桶，最终炒出来的菜很可能天差地别。如果说，数据的获取决定文章的上限，那么数据的分析就决定了文章的下限。再好的食材，没有伯乐相识，最终也会被白白浪费。
当然，在厨师水平不变且比较高的情况下，食材的种类越多，炒出来的菜约可口，佐料加的越丰富，菜味道约鲜美。一个组学，再怎么炒，也就能蒸煮闷炸罢了，能挖出的信息就那么多，但是再加一个组学就能玩出更多花样，交集并集，联合分析，得出的结果也更可靠。再加到三个、四个就可以称作多组学了，排列组合一下，再配上不同的炒法，不同的佐料，炒出来的菜品就数不胜数了。这就是为什么，多组学往往是高分文章的入场券。
想成为比较优秀的厨子，目前要做到以下几点
1.要对每种食材了如指掌（每个组学要搞懂）
2.了解不同食材的搭配方式（组学联合分析）
3.了解市面上常用的佐料，以及其对应的食材（熟悉常用的生信工具和其应用的数据种类）
4.得会炒，最好还能了解炒菜的原理（能够完善和增改流程，对流程有深入了解，能掌握好统计学）
5.能熟练控制火候（编程能力）
4.筛选数据和可视化

顶尖的厨师，除了会做菜，还会摆盘。菜是给人吃的，文章是给人看的，你的菜做的再好吃，看起来黑糊糊一片，也会吊人胃口。大厨们对自己菜肴的品相把控尤为细致。
对于有后续湿实验的文章，筛选数据是不可或缺的一步。再炫丽的生信分析最终也要回到实验上，回到研究的生物学问题上。就算是纯干实验的文章，不精挑选地把自己得到所有结果一股脑全部写到文章里，也不合适。筛选数据，可能不完全由生信工作完成，但是肯定要有生信工作者参与，因为自己跑的数据，自己最了解。
简单的时候，顾客会提供一串基因，你只需要调出相关基因的分析结果即可。复杂一点，可能需要你自己判断哪些基因合适。再进一步，可能需要你的结果来判断哪个实验思路走的通哪个走不通，选择哪条。再让人头疼一点，就是让你根据结果自己琢磨出一条实验思路给后续实验。最恼人的是，你得出的分析结果和他们的预测不符，否定了先前的实验思路，简直进退两难，左右不是人。
数据筛选的难度也随数据的复杂程度而增加，尤其是当多个组学之间的结果有冲突的时候，该如何处理和矫正，该相信哪个，该质疑哪个。这一阶段，除了对组学数据和分析结果的深入了解外，还需要扎实的统计学基础和丰富的文献积累。发表的文献，它们的数据都是经过筛选和提炼的，所以我们应当从较高水平的文献里吸纳他们的处理方法和筛选过程。当然，也有些文献的结果是经过捏造和篡改的，古话言近朱者赤近墨者黑，建议的大家筛选文献的时候尽量挑一些高水平的。
狭义地讲，可视化是数据筛选的一部分，就是展示筛选的数据。可视化其实不是一项技术活，而是体力活，慢工出细活就是指的这一步。想想米其林大厨精细地摆盘，和cns精美的图片一样令人称绝。无非是那么几个工具，ai，ps，ggplot和一些包自带的绘图函数，还有土一点的用ppt也很常见，不过excel做图就算了，做表格还好。
虽然有话讲，现在的生信越来越华而不实。但是既然你的内容很实，能华却不华，结果被华而不实的文章压过一头，吃哑巴亏。写论文和绘图都一样，既然内容质量好，包装也要精美，米其林的菜肴既要美味，也要美型。总之一句话，图做的好看，除了费点事，怎么都不亏。
总结

生信工作做的好不好，上限看数据，下限看分析，清洗数据要步步为营，筛选数据要有理有据，最后可视化要精益求精，
码字不易，希望大家看完之后如果有点收获，点点关注点点赞呗 (๑ ๑)

卡卡 · 发表于 2024-12-22 16:02

当加上“医学研0”的前提时候，谈生物信息学研究思路是一件非常尴尬的事情。
已经可预料到，很可能是，没人教没经费没时间，但就是想要sci的典型情况。
生物信息学根本不是给医生提供的，这是一个非常庞大复杂的数据科学学科，几乎不可能无基础只看几篇论文就学会生物信息学研究的。
这种期待的根本不叫研究思路，也没必要考虑研究思路。
这叫水文思路。
真正的思路都是要下苦功夫的。提到TCGA，那就是想研究肿瘤，这就要去研究肿瘤的异质性，肿瘤的特征，肿瘤的景观。继续往下思考，就是数据建模，预测，解释，验证。
然而，在没人教没经费没时间的前提下，谈研究思路是很奢侈的事情。

清风寡欲 · 发表于 2024-12-22 16:03

现在一大堆生信文章都是堆砌图表，图表花里胡哨，信息就一点甚至没有。看半天理不出个研究思路，都不知道这些垃圾文章怎么发的，审稿人看懂了吗？主要是测序分析的生信那点套路那点东西都做烂了，搞来搞去也就是找差异，找通路，找网络。能跟实验对上那是锦上添花，跟实验对不上那就哈哈哈。

图文播报

[分享] 生物信息学的研究思路是什么？

登陆有奖并可浏览互动！

发表回复

浏览过的版块

官方推荐 /3

个人中心