立即注册找回密码

QQ登录

只需一步,快速开始

微信登录

微信扫一扫,快速登录

手机动态码快速登录

手机号快速注册登录

搜索

图文播报

查看: 184|回复: 5

[分享] 机器学习跨领域到生物信息学怎么样?

[复制链接]
发表于 2025-3-9 21:20 | 显示全部楼层 |阅读模式

登陆有奖并可浏览互动!

您需要 登录 才可以下载或查看,没有账号?立即注册 微信登录 手机动态码快速登录

×
我知道“生物信息学”是个很大的领域,不过一些分支,像“Genome annotation”,“Genetics of Disease”,有一些机器学习的应用,且存在一个研究方向叫“计算生物学”(Computational Biology)。不知道“生物信息学”领域的研究者欢迎机器学习跨领域吗?
(比如像数学专业基本上是一个计算机领域欢迎的跨专业行当~~那生物信息学领域里有比较强的“欲望”需要“机器学习”背景的研究者吗?)
原文地址:https://www.zhihu.com/question/24828679
楼主热帖
回复

使用道具 举报

发表于 2025-3-9 21:20 | 显示全部楼层
我是cs phd 做生信的
就我个人来看,生信分两种
一种主要是依靠牛逼的数据,高强度的跑包,成不成功都是玄学,但是技术要求特别低,cs转过去 3个月基本上全部掌握。 如果没有牛逼的数据,那对不起,撑死也就是个frontier级别的期刊。
一种就是做方法开发,可以看看bioinformatics bib nc一类的
你突然会发现,我靠,我还是老老实实做nlp把,做个时间序列啊,做交通啊,做cv都行
蛋白质也很卷,医学图像也挺难
关键没顶会,就业不给力
再补充一下,湿实验是容易出高分论文,但是考虑到湿实验庞大的人数,这个比例也就那样吧,并且还需要分出共同作者给生信等等
湿实验,靠设备,靠材料,靠劳动,三者缺最后一个说不定能成功,缺前面的一定不成功。
相同的实验,贵的材料和便宜的,结果就是不一样
所有做生物一定要去一个靠谱的组,去不了靠谱的组,科研寿命应该也没了
回复 支持 反对

使用道具 举报

发表于 2025-3-9 21:21 | 显示全部楼层
只想浇盆冷水,别人已经深度学习、各种大模型轮番上阵,bioinformatics还在用CS背景用剩下的技术来找挖掘点…
合作一段时间后,一些纯生物背景的人(很可能还是控制funding的人)还在和你信誓旦旦的说,这东西计算机支撑不起来,最终还是得回归wetlab blah blah blah
作为一个计算机背景的毕业生,你所面临的同侪竞争压力一般来自那些和你背景类似的CS同学,而并不是绝大多数做bioinformatics的人。你的同学在毕业后,一部分去了互联网企业,数年之后也有一些开始创业(例如张一鸣),或者走到了管理岗位。留在学术界的人,无论是纯理论还是交叉方向,很多人都会找到自己喜欢的研究领域,数理功底会上一个台阶。例如非常有名的The PhD Grind,把这方面的体验写的入木三分。bioinformatics作为一个交叉领域,的确也有一部分人在做算法优化、深度学习、分布式计算等等这些东西。但是大部分组更偏向生物或者医学应用,因为交叉学科的关系,研究深度恐怕比不上纯CS的组。有些人肯定要怼,我在xx那里也做深度学习/云计算/数据库安全…,几个conference我都有被接收的文章。你说的对,但是这些组其实本质上做的是computer science的事情,他们招的人绝大多数也是纯CS背景的学生,和一般情况下的bioinformatics的组有区别。打个比方,统计学院的biostatistics其实做的还是统计方面的工作,和纯生物组的生物统计难度是不一样的,两者的publication目标也不同。
真的建议每个计算机转生信的人,好好看一下互联网企业对于人工智能的应用方向和相关技术。从deep learning, AlphaGo到ChatGPT,哪一个不是瞬间突破了很多人的固有思维?这才叫做技术突破。
底下有评论说,挺好发文章。的确是,挺好发文章毕业做博后拿教职。不过和计算机那些会议的成果比起来,到底有多少创新,对行业有多大推动,你自己心里的判断是什么?人类基因组计划二十年以来,生物信息领域有哪些大的突破可以和AlphaGo或者ChatGPT相提并论呢?AlphaFold出来以后,整个结构生物学有了多大变化?最好是先想好这些问题的答案再决定要不要消耗几年时间进入这个领域。AlphaFold和ChatGPT采用的技术,在AI领域甚至并不是最前沿的技术。
再补充一点:这个回答是在2023年初所写,所针对的也是计算机特别是机器学习背景、打算进入bioinformatic领域的人所说的观点,对其他各种背景转入生物信息或者AI的人可能并不正确。
回复 支持 反对

使用道具 举报

发表于 2025-3-9 21:22 | 显示全部楼层
AlphaFold的出现,倒逼着生物信息学进入 生命科学+人工智能 阶段,除了传统的生物信息学或者计算生物学,未来更多的要求是 人工智能+

  • 蛋白质折叠,如AlphaFold等
  • 单细胞分析
  • 时空组学分析
  • 肿瘤微环境分析
  • 免疫微环境分析
  • 人类细胞图谱计划
  • 人类肿瘤细胞网络计划
  • ...
这些前沿的技术更多依赖人工智能或者深度学习等,生命科学+人工智能是未来发展的方向。

<hr/>《生命科学与人工智能:动手学、动手建系列教程
我们正在通过动手学系列教程、动手建系列图谱,学习和巩固领域知识。希望和大家一起成长同时,也建立一系列有用的工具和数据库。
已开展的工作:
如果您有意愿参与,或者有什么建议和意见,请和我们联系或者给我们留言。
我们不断在更新,请持续关注
1. 《动手学深度学习

目录
第一章 介绍
第二章 基础
第三章 进阶
第四章 提升
第五章 自监督学习
第六章 自然语言处理
第七章 计算机视觉
第八章 强化学习
第八章 应用案例
2. 《动手学单细胞分析》

目录:
第一章 介绍
第二章 基础
第三章 进阶
第四章 提升
-- 待更新
3. 《动手建人类细胞图谱》

目录:
第一章 介绍
-- 待更新
4. 《动手学肿瘤免疫微环境分析》

-- 待更新
5. 《动手建人类肿瘤免疫微环境图谱

-- 待更新
谢谢您的支持!
联系我们


如果您有什么建议和意见,随时可以联系我们。
公众号: AI-for-Sci
回复 支持 反对

使用道具 举报

发表于 2025-3-9 21:22 | 显示全部楼层
科研领域发文章应该还不错,如果机器学习+生物信息投入临床使用,并得到行业认可还需要很长时间。
举个例子,


2017年的时候,谷歌团队发布了开源版本的DeepVariant,是一种将深度学习Convolutional neural networks (CNNs)和高通量测序NGS (Next generation sequencing technology)结合用于germline variant-calling的工具,当时可谓轰动一时。



主要技术原理

然后,和各种通用软件一顿比,
首先,出场的是GATK,在indels和snps方面,


然后,和gatk、strelka、greebayes等比较,DeepVariant获得更少的基因型错配(FP.gt)和等位基因错配(FP.al),多达50%


DeepVariant性能不受参考基因组版本影响,


跨物种


适用不同测序平台




几年之间github也被标星2.5k


而明星gatk也才1.2k


是不是很牛逼的样子~


<hr/>但是,除了在文献中看到有被使用,真正在检测流程中,有几家在用?(有使用的,欢迎点赞 )
个人感觉还是归功于CNN的黑盒、可解释性差吧~
推荐阅读

pythonic生物人:一图胜千言,超形象图解NumPy教程!
pythonic生物人:谁是Python/R中最强Dashboard APP开发工具?
pythonic生物人:pandas、spark、DataFrames.jl、polars、dask、data.table、datatable谁才是最快数据处理武器??
pythonic生物人:赞赞赞❤️❤️N个神经网络可视化工具❤️❤️❤️
pythonic生物人:yellowbrick牛逼,机器学习“炼丹师”、“调参侠”们有福了
pythonic生物人:丰富的Python可视化“武器库”:从PyViz到Matplotlib
pythonic生物人:从哪些方面着手提高Python?Python社区“老司机们”的这本书讲清楚了!
pythonic生物人:13个高清图助快速上手Python: NumPy/Pandas/SciPy/Matplotlib?
❤️更多好文,欢迎关注 @pythonic生物人
回复 支持 反对

使用道具 举报

发表于 2025-3-9 21:23 | 显示全部楼层
我是CS PhD,focusing on computational biology,或者叫Bioinformatics,反正我们系里也没有各个分支的明确界限。
computational biology大部分情况下指的的computer Science的一个分支,Bioinformatics在美国大部分指的是生物学的一个分支。这里不细分了,统称生物信息。
生物信息本来就是用计算的手段来解决生物问题的,机器学习自然是现在来说,最最热门的计算上的手段了。生物信息和机器学习,分别是目的和手段,从纯学术来讲,是没有什么矛盾的。
从个人角度来看,因为和生物背景的人合作很多,大家的思路是不一样。生物系搞生物信息的,一般情况下,问题基本是定好的,比如我要预测某某某东西,我想分析A与B的相关性,问题定好了之后,在去找方法,统计分析,机器学习都试试,看看有什么结果。学计算机的搞这个生物信息,一般都是从方法出发,一般需要读文献的时候,从一个比较广的角度去看,看到某个方法很新颖很有效,就想想有没有什么问题可以用这个方法解决。
而经常遇到的困难,对从点了生物树技能的来说,就是经常因为编程或者方法上的问题,本来应该很快得到结论的,拖了很久才能有结果。对升了CS技能童鞋俩说,最常见的问题就是,解决的问题,没有生物学意义,属于屠龙之术。
从个人前途来讲,哪怕发了一样的paper,走CS路线的,不管找工业界工作,还是postdoc,包括教职,都好于从走生物路线的。从我们学校来看,排名100以后,CS PhD首先就被各大公司的校招general hire招走一大批,美国人很多留在本地,不想全国性搬家,剩下找postdoc的基本就是真的对学术感兴趣的,并且基本也都能找到大学霸的课题组
回复 支持 反对

使用道具 举报

发表回复

您需要登录后才可以回帖 登录 | 立即注册 微信登录 手机动态码快速登录

本版积分规则

关闭

官方推荐 上一条 /3 下一条

快速回复 返回列表 客服中心 搜索 官方QQ群 洽谈合作
快速回复返回顶部 返回列表