立即注册找回密码

QQ登录

只需一步,快速开始

微信登录

微信扫一扫,快速登录

手机动态码快速登录

手机号快速注册登录

搜索

图文播报

查看: 97|回复: 5

[讨论] 机器学习在生物信息(如DNA比对等方面)的研究现状是怎样的?

[复制链接]
发表于 2025-1-10 08:01 | 显示全部楼层 |阅读模式

登陆有奖并可浏览互动!

您需要 登录 才可以下载或查看,没有账号?立即注册 微信登录 手机动态码快速登录

×
计算机研一小白一枚,实验室整体做的方向是机器学习,老板分给我的方向是机器学习在生物信息领域的应用。这方面我搜了些论文,但基本都是比较偏生物的,看不懂啊喂。所以来知乎跪求学生物信息学的大佬们分享下当前的研究情况以及需要机器学习解决什么问题。
原文地址:https://www.zhihu.com/question/271866129
楼主热帖
回复

使用道具 举报

发表于 2025-1-10 08:01 | 显示全部楼层
看过几篇不错的相关文章,希望有帮助,欢迎关注 @pythonic生物人
深度学习 VS bioinformatics

介绍了近些年深度学习在生物信息领域的最新研究成果。



table2 不同的生物信息学数据分类



table4 深度学习+生物信息学的几个研究方向

同时,提供了生物信息学的几个研究方向(序列分析、功能预测、基因表达、医学图像处理等等)上使用深度学习的demo代码,


小编感觉是入门生物信息深度学习非常棒的资源,


每个demo里面都提供测试数据、python代码,




ref:DOI:10.1101/563601
<hr/>机器学习 VS  bioinformatics

一篇系统回顾machine learning与生物医学的纠葛文章,涉及很多生物信息组学方面。



DOI:https://doi.org/10.1016/j.patter.2021.100328

ref:DOI:https://doi.org/10.1016/j.patter.2021.100328
<hr/>paper3

探讨多组学数据整合机器学习方法及其应用



监督、非监督机器学习算法与多组学



监督、非监督机器学习算法与多组学

ref:DOI: 10.1016/j.biotechadv.2021.107739
推荐阅读

生物信息学一些基本的常用软件有哪些?
生物信息学入门需要具备什么能力?
网上的生物信息学资源都有哪些?
pythonic生物人:Python可视化笔记43篇合集(建议收藏)
pythonic生物人:从哪些方面着手提高Python?Python社区“老司机们”的这本书讲清楚了!
Python 从入门到精通推荐看哪些书籍呢?
你所读的统计学方向,有哪些不错的讲义(Notes)?
你是如何自学R语言的?
pythonic生物人:13个高清图助快速上手Python: NumPy/Pandas/SciPy/Matplotlib?
有哪些你看了以后大呼过瘾的数据分析书?
pythonic生物人:丰富的Python可视化“武器库”:从PyViz到Matplotlib
GitHub上都有哪些值得关注学习的R开源项目?
机器学习、数据科学 如何进阶成为大神?
作为一个研究生,有哪些你直呼好用的科研神器?
作为统计的博士生,你都读过哪些对你影响深远的统计书籍?
欢迎关注 @pythonic生物人

回复 支持 反对

使用道具 举报

发表于 2025-1-10 08:01 | 显示全部楼层
传统上生物信息学是关于数据结构的学科,主要是采用一些能够被运用到DNA字符串的数据结构及其算法。比如minhash, borrow-wheel transformation等,再比如dynamic programming,但这几年似乎不是最热门的研究方向了虽然也还有很多人在做。直到最近十几二十年,机器学习算法开始被应用到生物信息学中来, 比如最邻近搜索, 朴素贝叶斯,还有EM算法,当然最近一两年,深度学习也开始被运用,比如deep variational auto-encoder用来做基因组分箱。每天都几乎有几十篇用深度学习研究生物信息的文章。
回复 支持 反对

使用道具 举报

发表于 2025-1-10 08:01 | 显示全部楼层
从大趋势上看,机器学习在生物信息中,将要发生重要的影响和作用。
1,由于高通量测序成本的不断降低,当前基因组大数据已经到了爆发期。以前的数据由于基因研究数据的高维度性,样本量很多时候是不够的,但现在情况正在改观,而且会越来越好。从公有数据上看NCBI的TCGA数据的样本量已经有几万例,在国内的ivd企业中样本量几万例的公司不罕见,国家级的大队列项目更是惊人,华西医院的罕见病的队列就可以达到10万样本量。基因组测序大数据给机器学习,特别是深度学习方法的应用创造了条件。
重磅!十万例罕见病队列项目即将启动,未来5年将做这些事!_腾讯新闻
2,单细胞组学测序的数据收集,为机器学习方法应用开辟了新的维度。以前的Bulk样本是对每个标本测一个很深的数据,数据量多,样本数却因为标本是稀缺资源上不去。而深度学习往往需要一定数量的样本才能完成模型的训练。单细胞测序,由于是对每个样本的单个细胞进行测序, 每个细胞的标签都表示不同的样本,所以一个标本就可以有几十万个细胞的样本,这就解决了深度学习模型训练的困境。单细胞测序由于现在成本还较高,在科研中用的多,临床上还很少用,相信不久的将来就会遍地开花。



3,多组学研究将为创新药研究提供新的弹药库。近两年AI制药风头很热,但这个领域内卷很厉害,虽然在各种药物成分、药物作用和设计方法等不同的差异,但仍然存在着大量的开发集中在一小部分靶点的问题,且大多是单靶点药物,同质竞争很激烈。创新药厂在现在投资环境变差的今天,随着各个靶点的best-in-class的推出上市,生存环境不乐观。多组学的机器学习研究可能从大数据中挖掘对应疾病的治病机理,寻找真正治病的多个关键因素,为药物设计基于新靶点或多靶点药物提供新的弹药库。


4,从AI对制药的作用上看,现在还主要是解决技术问题,生物知识的发倔还有很大的提升空间。AIDD领域中,以蛋白质折叠问题为代表的大量的深度学习模型主要集中在对已有技术问题的改进的基础上的。但对于如何从系统生物学、药理学等领域出发进行生物知识的探索还是很初步的。
综上所述,基于单细胞多组学生物大数据的机器学习方法是大有可为的
我个人对药物基因表达调控网络探索细胞类型转换的内在机制在进行研究。贴三篇文章,有兴趣可以私信交流一下。
Nature | 新方法解析组学数据,建立机制模型,控制细胞状态转换
Nat Commun|AI结合基因表达特征,从头生成类苗头化合物
Nat. Comput. Sci. | 使用神经网络结构对基因调控网络进行建模
回复 支持 反对

使用道具 举报

发表于 2025-1-10 08:02 | 显示全部楼层
这学期在写的cs thesis刚好是做生物信息和机器学习结合的,抛砖引玉一下。作为一个已经五年没学过生物的人,老板还是满巧妙地把问题转换成了类似于自动调超参的问题的(?),需要的前置生物知识不算太多。
生物方面,我们研究的是population genetics. 在研究进化相关问题时,不仅面临数据少的问题,我们常常是不知道什么进化相关的参数导致了我们手上的数据的(evolutionary groud truth),所以这个领域比较依赖模拟出来的数据(simulated data)。近10-20年,生成这些数据的模型生物学家们手动选取一些参数[1][2],比如mutation rates, recombination and gene conversion rates, population size changes, 还有很多很多。由于是手工选取的,生成出的数据往往比较biased, 体现在对于某些summary statistics很match但是对于某些不太行,比如可能site frequency spectrum比较好但是linkage disequilibrium patterns不行[3].
有些人可能会说,直接拿各种生成网络直接一套不就好了,确实也有类似的工作[4]使用GAN来生成population genetics. 但是缺点是这样没法应用到下游任务,因为我们依旧不知道evolutionary ground truth. 把进化相关的参数想成population genetics的label可能会有助于理解。我们不仅需要data, 还需要相关的label(尽管也是假的但是起码和data得保持一致)所以只拿生成网络生成数据并不能解决问题。



The genealogy of eight haplotypes with eight SNPs from four individuals forming aSNPs matrix which is typically used in the study of population genetics

如图,左边是genealogical tree,右边是SNP matrix[5]。SNP matrix是一种记录单个核苷酸在个人以及整个population中的不同的方法,可以比较方便地拿来当神经网络的input. SNP matrix可以被左边的genealogical tree生成,而genealogical tree可以被上文提到的传统的生成模型生成,只不过需要选择参数。
因此,我们可以用一个GAN,generator生成的不是population genetics data而是参数,这些参数会被喂进一个传统的simulator里面从而生成population genetics,然后discriminator来判断一下这个生成的是真是假[6]。


所以这事其实和生物关系没那么大了(?)因为问题就是我怎么生成参数,然后这些参数丢进一个已知的生物学家们搞的模型里面后生成的数据和真实的一样。可以尝试用不同的geneator来看效果,图上这篇工作里面的parameter是选定的只是值在变,也可以尝试允许geneator自己选参数。如果要用上生物知识的话也不是不可以,因为SNP包含方方面面的信息,如果局部特征提取然后再处理可能也有意想不到的效果。总之,在把DNA数据变成matrix之后事情就可以变得比较侧重ML了(。。。
回复 支持 反对

使用道具 举报

发表于 2025-1-10 08:02 | 显示全部楼层
无非学习两个方面的知识:

  • 机器学习本身的方法学,这个反正跑不了,从公式到代码都整明白
  • 应用场景,这里是生物信息,其实更清楚点,应该是生命科学领域的数据分析。
最常说的就是基因组数据,一般是测序仪产生的,大致可以分为现在主流的短读长和发展迅速的长读长。
做比对(alignment)不太用机器学习。但用深度学习检测突变逐渐成为主流方法,起始点可以参考Google的DeepVariant,主要是短读长的。长度长的数据也有自己的特点,所以有专门的算法,比如港大罗锐邦做的Clair和王凯的NanoCaller。
还有群体基因组学领域的PRS,用于基于基因组数据预测生物性状,这其实是个典型的机器学习预测问题了。大量使用从逻辑回归到深度学习的各种方法。
蛋白质组学数据,典型的就是DeepMind的AlphaFold预测蛋白质结构。
睡了一半醒来,随便列几个。机器学习是解决很多有大量数据积累的生命科学问题的主流方法了,也是生物信息学工具箱中的强力工具。
工作方面,还是赶不上互联网,但硕士干了点实事的话,到IVD公司或者AI药物研发企业找个工作还是不难的。
回复 支持 反对

使用道具 举报

发表回复

您需要登录后才可以回帖 登录 | 立即注册 微信登录 手机动态码快速登录

本版积分规则

关闭

官方推荐 上一条 /3 下一条

快速回复 返回列表 客服中心 搜索 官方QQ群 洽谈合作
快速回复返回顶部 返回列表