生物信息学会随着此轮ai的发展有比较大的进步吗?

空白派 · 发表于 2025-1-5 17:45

登陆有奖并可浏览互动！

您需要登录才可以下载或查看，没有账号？立即注册

×

生物信息学是否会因为gpt4，gpt5等人工智能的进步，而有较大的技术进步?为了就业前景如何?(本人大四在读，研究生方向的选择有人工交互/生物信息方向，感觉生物信息学未来很有前景，想问问大家意见该不该跨入生物信息学)

原文地址：https://www.zhihu.com/question/591559438

清风寡欲 · 发表于 2025-1-5 17:46

这一次的AI范式跃迁会影响到所有与IT相关的领域，包括生物信息学/计算生物学。从去年年底起我们组已经开始转型了，任何一个不能够拥抱此轮新技术变革的团队都可能会被淘汰。（不过现在LLM领域的进展日新月异，几乎每天都有holy shit moment，我和团队确实都有点儿疲劳。）
首先，其实AI对生物信息学领域的影响是持续而深刻的，从深度学习的突破开始就有了，其中AlphaFold是诸多milestone中最耀眼的一个。对产业界的影响也是很显而易见的，君不见AI制药万亿规模的估值和此起彼伏的创业公司。
其次，LLM对本领域的影响只是一个开始，但最重要的工作应该会出现在创业公司/大公司，而非研究所。LLM对于大算力的依赖基本断绝了大多数小作坊/实验室参与的可能性。但是依托好的平台进行某一个垂类的应用会有大的爆发。
最后，对于从业者影响不大。我一直跟我组里的同学讲，计算生物学的基础是计算机和算法，AI只是tool box中诸多工具之一。大多数的基础工作，是先于建模的，而从现在开始的5-10年内，这些基础性工作被替代的肯能性不大（特别是在中国，美国不好说）。任何一个只会建模而不擅长计算机的同学，在我这儿都几乎拿不到面试（我组的特色而已，是否具有普适性不知道）。千万不要只学了一堆屠龙之术而忽略了最基本的东西，比如怎么写高质量的代码，git和docker的用法，关于操作系统的基本知识etc.
但关于是不是应该从业，我之前在别的地方答过了。你的选择要遵从内心兴趣，不要追热点。不要做下一个别人，要做第一个自己
以上

感恩由您 · 发表于 2025-1-5 17:46

以我个人的理解，我觉得真正能够推动生物信息学进步的，一定是新的物理层面的信息。
比如说，一种新的测序技术，像单细胞转录组和空间转录组的出现，大大的推动了我们对于肿瘤以及发育生物学等方面的生物学问题的认知，新的算法也自然迎运而生。或者说新的大队列数据，比如ukb队列，拓展了我们对于基因型与表型之间关联的认识，GTEX的多组织转录组数据，现在依然是非常宝贵的资源。
任何算法其实都是有边界的，而实际的物理信息就是算法所能够达到的边界。现在AI在生物信息学方面的应用其实非常广泛，但在我个人看来，我觉得其中真正对于科学发现有帮助的不足1%（或者说，其实大部分是冗余的，99%是可以没有的）。就是说，其实现在算法可以很快的接近物理层面信息上限的那个边界，剩下的就都是在卷那一点点的改进，许多就是有一种为了做算法而做算法的感觉（当然很多时候确实是不得已而为之吧）。
所以对于科学本身来说，真正限制创新空间的是什么，是测序技术，是队列的，是怎么样促进数据的共享，打破数据壁垒和垄断，降低测序技术的成本，推动干湿医研的结合与合作，而并不是说炒作一些人工智能之类的概念，从本科生到博后上手就要搞个神经网络。
以上我个人的一些想法，可能也是因为我本人还是更关注实际的生物学问题和生物意义吧，但是生物信息学归根到底还是服务于科学，这其实才是本质，不是吗？

大力水手 · 发表于 2025-1-5 17:47

会不会有比较大的进步我不确定，但大模型辅助生物信息学研究或许会成为一个新方向（这会带来很多的机会，但究竟影响有多大目前来说还是个见仁见智的事情）？
bioRxiv现在（2023-04-21）已经有29篇ChatGPT相关文章了。当然除了只是在背景里出现一下之外，目前的研究更集中于测试，例如：1）Can ChatGPT pass Glycobiology?（10.1101/2023.04.13.536705） 2) GeneTuring tests GPT models in genomics(10.1101/2023.03.11.532238) ；也有教学（Empowering Beginners in Bioinformatics with ChatGPT（10.1101/2023.03.07.531414））和科学研究（A Comprehensive Benchmark Study on Biomedical Text Generation and Mining with ChatGPT（10.1101/2023.04.19.537463））的应用探索。

from bioRxiv

<hr/>2023-05-28更新
今天又到bioRxiv检索了一下，chatGPT关键词相关的文章已经达到40篇（图05-28-1），考虑到这个数字可能会遗漏一部分用GPT4大模型分析基因组学数据的研究，因此又以GPT为关键词检索了2022年12月1号之后的文章，共计134篇（图05-28-2），当然这个数据会偏高，因为这样以gpt delta mice为关键研究对象的文章也会被包含在内。为确定这一数量的意义，特地选了几个生物信息学研究中的其他关键词作为对照比较（同样检索2022-12-01后的文章），基因组选择（图05-28-3）对应118项研究、scATAC对应126项研究（图05-28-4）、scRNA对应1163项研究（图05-28-5）、基因组组装对应1465项研究（图05-28-6）。
综上，大模型辅助生物信息学研究应当已经可以视为一个不可忽视的新方向，且发展前景广阔。

图05-28-1

图05-28-2

图05-28-3

图05-28-4

图05-28-5

图05-28-6

大力水手 · 发表于 2025-1-5 17:48

会发展，但是不解决实际问题。
制约生物信息学发展的是算法、模型等生物信息学方法的问题吗？
当然不是。
制约生物信息学发展的，是数据的实际意义并不完全明确，是生物学实验跟不上数据产生的量。解析数据我们有办法，但是其背后的生物学意义，得靠生物学研究人员一个一个实验证明出来。
除非AI能帮我们做实验，否则我认为，并不解决最关键的问题。

感恩由您 · 发表于 2025-1-5 17:49

生信+AI背景路过，最近看的一些传统的生信交叉岗位来说的话，像是传统的测序，蛋白组学，基因组学那些我认为没有什么大的发展了，当然也许是我不懂哈。但是所有科技发展的终极目标仍然是人类的健康，寿命，或者存活的时间内，减少疾病的困扰。那么无论多久，生物医学工程一定会与机器学习，深度学习结合，目的是使曾经没有研究透彻的疾病以及人体变得被我们熟悉和攻略。现阶段的工作，有一类就是继续这些研究，例如拟合未知的病毒与各类药物，人体细胞通路的反应，这些过程过于复杂，也许是需要AI的帮助，给我的感觉就像是动画的渲染越来越好，精度越来越复杂一样。以上都是个人想法，不知道真实行情具体发展到什么样子了。只记得一年多还是两年多前，AlphaFold公布了100多万个物种的2.14亿个蛋白结构，这在当时对我的震撼也是不小的。
另一类工作就是对于现在的已经知道的疾病特征和可获得的数据去进行预防和警示。比如通过获取iwatch上的一些血氧数据，心跳数据，用训练好的基于时间序列的神经网络模型去分析，判断是否存在可能有心血管疾病的可能。未来也许还会链接到EHR系统，也就是每个人曾经的所有就诊记录，身体特征。各种指标，这些会越来越复杂，AI的模型会得到越来越清楚的属于你个人的身体特征，比你自己还要了解你，然后判断的疾病种类也越来越多，可能做出的建议和医疗疗程信息也越来越丰富，我想这也应该是精准医疗的发展方向吧。
以上全是自己的一些闲暇时间的无聊思考，同样作为生信+Nlper，不知道这个领域的具体发展，如果有大佬看到，欢迎批评和指正。也给我点工作方向的建议，谢谢啦

图文播报

[分享] 生物信息学会随着此轮ai的发展有比较大的进步吗?

登陆有奖并可浏览互动！

发表回复

浏览过的版块

官方推荐 /3

个人中心