立即注册找回密码

QQ登录

只需一步,快速开始

微信登录

微信扫一扫,快速登录

手机动态码快速登录

手机号快速注册登录

搜索

图文播报

查看: 117|回复: 5

[分享] 生物信息学在未来几年的发展是否变得更加重要?

[复制链接]
发表于 2024-9-25 11:06 | 显示全部楼层 |阅读模式
回复

使用道具 举报

发表于 2024-9-25 11:06 | 显示全部楼层
重要的不是工具,是使用工具得到结果。生物信息是工具,你用生物信息能分析出的东西才是结果。重不重要只看你的结果如何,不看你用什么好看的工具。所以哪怕你上了深度学习,分析的结果是垃圾,那你的成果就是垃圾,还连累深度学习一起变臭。如果你分析的结果是黄金,即便你就只做了一个回归分析,你的成果也是黄金,回归分析都跟高大上起来。所以先是生物,然后才是生物信息。只要你做的东西重要,你所用的所有工具不论先进与否,发不发展,都很重要。
回复 支持 反对

使用道具 举报

发表于 2024-9-25 11:07 | 显示全部楼层
生物信息学或者计算生物学,未来几年发展将会加快。
1 数据产生的速度

我们来看一组数据:

  • GSE1000,Public on Jan 28, 2004
  • GSE5100,Public on Jun 20, 2006。GSE5000查不到
  • GSE10000,Public on Dec 16, 2008。
一年增加1000个数据左右

  • GSE20000, Public on Jan 26, 2010
  • GSE30000, Public on Jun 16, 2011
  • GSE50000, Public on Feb 15, 2014
一年增加1万个数据集左右

  • GSE100000,Public on Apr 25, 2018
  • GSE125000,Public on Jan 12, 2019
  • GSE150000,Public on Jul 09, 2021
一年增加1.5万个数据左右

  • GSE150000,Public on Jul 09, 2021
  • GSE175000,Public on May 23, 2021
  • GSE200100,Public on Apr 09, 2022
一年增加3万个数据左右
我们可以看看,数据生成的速度在不断加快。
2 技术的变化

多组学:组装相关的算法、统计分析相关的算法、变异分析算法(CNN、Transformer)等
单细胞:PCA降维 -> VAE(变分自动编码器) -> 一维Transformer(注意力机制)等
蛋白质结构预测:三维Transformer(注意力机制,AlphaFold)等
肿瘤微环境:图论、知识发现、因果推理等
3 应用与挑战

3.1 单细胞多组学的挑战
Single-cell transcriptomics in cancer: computational challenges and opportunities
3.2 临床应用的挑战
From bench to bedside: Single-cell analysis for cancer immunotherapy
3.3 免疫治疗的挑战
Technological advances in cancer immunity: from immunogenomics to single-cell analysis and artificial intelligence
3.4 药物发现
Artificial intelligence in drug discovery and development
<hr/>生物信息学或者计算生物学在未来将有非常多的机会与挑战,如果需要加一个新名词,那就是AI for Life Science,生命科学+人工智能,将在未来发挥重要的作用。
<hr/>我们正在准备动手学系列教程、动手建系列图谱,希望和大家一起成长同时,也建立一系列有用的工具和数据库。
已开展的工作:
我们不断在更新,请持续关注
<hr/>1. 《动手学深度学习

目录
第一章 介绍
第二章 基础
第三章 进阶
第四章 提升
第五章 自监督学习
第六章 自然语言处理
第七章 计算机视觉
第八章 应用案例

2. 《动手学单细胞分析》

目录:
第一章 介绍
第二章 基础
第三章 进阶
第四章 提升
-- 待更新

3. 《动手建人类细胞图谱》

目录:
第一章 介绍
-- 待更新
4. 《动手学肿瘤免疫微环境分析》

-- 待更新
5. 《动手建人类肿瘤免疫微环境图谱

-- 待更新
谢谢您的支持!

## 联系我们 ##

如果您有任何意见和建议,或者技术服务需求,请随时联系我们。
公众号: AI-for-Sci
回复 支持 反对

使用道具 举报

发表于 2024-9-25 11:07 | 显示全部楼层
我想答案是肯定的。
生物信息学是一个计算科学领域,与生物分子序列的分析有关。通常指比较有机体内或生物体之间蛋白质和其他序列之间的进化关系,以及利用DNA和蛋白质序列中存在的模式来确定它们的功能。我们可以把生物信息学看作是遗传学的语言学部分。也就是说,语言学家正在研究语言中的模式,而这正是生物信息学人员所做的——在 DNA 或蛋白质序列中寻找模式。
为什么生物信息学必不可少?

在过去的几年里,私营和公共部门对生物信息学的投资不断增加,以及跨行业应用的不断增长,导致了显著的市场增长。涵盖学术、产业和服务领域的生物信息学市场在2019年价值108.8亿美元,数据桥市场研究预测生物信息学市场将获得21.09%的市场增长,预计到2027年底将达到454亿美元,这无疑是巨大的。
美国劳工部预计2016年至2026年间,仅在美国,生物信息学的就业岗位将增长5%到9%。生物信息学也已成为一种高收入的职业选择,2017年平均年薪在76690美元左右。2018年,生物信息学科学家的薪酬增长了约3.8%,大致相当于每年79590美元。
生物信息学为什么会爆发?你认为生物信息学领域最大的突破是什么?
据Berend Snel说:“最大的转变是基因组测序的可能性。是否拥有基因组是革命性发展的关键,如实现个性化药物和定向育种,例如在几代之内实现新的植物品种。也许在技术层面上更重要的是,近期所有其他生命科学数据的爆炸,如基因分型、转录组学或蛋白质组学,因此基因组的可用性才成为可能。这些新技术可以帮助我们解开我们在细胞系统中看不到的东西。因此,我们可以收集新的数据,并致力于更创新的技术。基本原理保持不变,但数据与相互跟进的技术紧密联系,并将很快被更新的技术取代。我有时确实觉得自己老了。”
生物信息学几个值得注意的应用


  • 气候变化研究中的生物信息学
二氧化碳排放水平的增加是气候变化的重要原因之一。通过研究微生物的基因组,生物信息学可以为减少二氧化碳排放提供新的途径。得益于生物信息学,美国已经开始探索以二氧化碳为唯一碳源的微生物基因组。

  • 基因治疗是人类的未来
在大多数情况下,通过基因研究提取的信息是庞大的。有了生物信息学,如此庞大的数据可以非常迅速地进行分析,并可用于基因治疗。基因治疗被认为是生物信息学的未来,因为这种方法可以通过改变一个人的基因来治愈、治疗甚至预防疾病。

  • 生物信息学和兽医学
在生物信息学的帮助下,农场动物的测序项目及其生物学研究变得非常容易;这将改善他们的健康状况,从而有益于人类营养。

  • 公平的数据共享
最近,机器学习和深度学习的发展在生物信息学领域发挥了重要作用,测序革命随之带来的将是数据财富。生物信息学的第一次突破来自Margaret Dayhoff的设想,那是在50年代,当时数据共享是一件麻烦事。她创建了第一个蛋白质和核酸序列的“在线”数据库系统,开发了用于查询该数据库的工具,并利用仍在使用的氨基酸单字母代码优化了文件大小。这是存储、共享和查询数据的智能系统的第一个例子。平等地共享数据是至关重要的。
关于生物信息学的应用实例可以参考这篇回答:
生物信息学有哪些经典的应用实例?达成的里程碑:系统生物学

今天,科学家将生物信息学的最新进展称为系统生物学,这是人类健康和环境可持续性科学中最关键的进展。这种独特的方法可以解决所有复杂的生物学问题,整合基因组学和蛋白质组学,以创建所有生物实体的系统视图。根据患者独特的基因图谱对患者的基因进行分层,并寻找药物和治疗方法。
未来的生物信息学

在宏基因组学中,生物信息学家谈论的暗物质约占70%。这是生物信息学领域最有趣的地方:我们还不知道的东西太多了!技术越多,可用的数据就越多,这是无穷无尽的,并指出我们必须改变我们的工作方式。应用的范围是巨大的,越多的人做更多有创意的事情,就会有更多的新结果。
总结

随着生物数据量的增加和消除假阳性的需要,生物信息学已成为所有基因组研究项目的重要组成部分。研究表明,在未来,生物信息学将成为理解生物过程和疾病的重要参与者,因为它全面降低了分析提取的生物数据的复杂性。
有了这些生物信息学的广泛可能性,我们可能永远也不知道未来什么时候科学家们会决定从他们的基因组数据中重造恐龙,把我们直接带入现实生活中的科幻电影。这一切将在哪里结束?生物信息学是会消失并成为生物学的一部分,还是会成为未来的生物学?

参考:
https://tcglobal.com/biology-in-a-digital-world-on-bioinformatics-genetics-and-future-trends/
https://ubc.uu.nl/50-years-bioinformatics-biology-of-the-future/

关注我可以了解更多人工智能/制药/生物/化学相关信息~
获得更多人工智能辅助药物设计的相关知识欢迎关注微信公众号:AIDD Pro
回复 支持 反对

使用道具 举报

发表于 2024-9-25 11:08 | 显示全部楼层
现在,在世界各地的实验室里,测序仪正在不停地对地球上数以万计生命的基因组进行测序。即使基因组测序的成本下降非常迅速,测序技术不断更新,我们也只是看到了一个细胞、组织、有机体或生态系统中,所包含的生物信息的一瞥。然而,即便是这“一瞥”中的一小部分,对于生物学家而言也已经算得上是海量数据。在人类历史上,我们对于生命复杂性的理解,从未如此依赖我们处理和分析数据的技能。




为什么是生物信息学?生物学不断增长的数据生物信息学家用专门的技能和工具从大量数据中获得生物理解。在生物学历史的早期,生物学家在上了统计学课程后,可以在电脑上使用Microsoft Excel来分析自己的数据。然而,随着测序数据集越来越大,分析这些数据需要不同的工具、新的技能和具有大量内存、处理能力和磁盘空间的计算机。

在相对较短的时间内,测序成本大幅下降,使科研人员能够利用测序数据,帮助回答重要的生物学问题。早期测序通量低,并且十分昂贵。人类全基因组测序成本约27亿美元。

自人类基因组发布以来,测序成本一直呈指数级下降,直到2008年左右,如图1-1所示。随着下一代测序技术的引入,测序一个大型基因组的成本下降得更快。这一时期以后,之前的大型项目,对所有研究人员来说都能负担得起的。到目前为止,新物种测序进行重头组装获得高质量参考基因组,已经变得异常容易,群体遗传学在研究科学问题中逐渐成为热点,生物大数据俨然成为21世纪最有前景的研究方向。




图1-1。测序成本的下降(注意y轴是在对数标度上);2008年前后的急剧下降是由于引入了下一代测序数据。(NIH)



这些新技术带来的测序成本下降的结果是什么?你可能已经猜到的,海量的数据。在指数增长之后,生物数据库中的数据已经膨胀。现在全世界的服务器上都有PB级的可共享数据。

生物数据库数据量的增长与测序成本的下降一样令人震惊。例如,SRA数据库,sequence read Archive(以前称为Short Read Archive),自2010年以来,它的数据量经历了指数型增长,见图1-2。



图1-2. Short Read Archive的指数增长;开放存取基础是向公众开放的SRA数据(NIH)
即便是纯“湿”的实验室中,也在通过测序获得通路上下游信息。甚至有的时候,全基因组测序会取代mapping,成为寻找突变的快捷手段,这都与测序成本降低密不可分。



为了更好的理解生物信息的增长速度,需要与“摩尔定律”做个类比。Gordon Moore(英特尔的联合创始人)观察到计算机芯片中晶体管的数量大约每两年翻一番。芯片中增多的晶体管转化为计算机处理器的更快速度,这将产生更强大的计算机。这种非凡的技术进步速度--每两年速度翻一番--可能是人类有史以来技术发展最快的一次。然而,自2011年以来,存储在Short Read Archive中的测序数据量甚至超过了这一令人难以置信的增长,数据量每年都翻了一番。

让事情变得更加复杂的是,用于分析生物数据的新工具正在不断地被创造出来,至今为止,已经出现上百个短读长比对软件。同样,我们的基因组组装方法在过去十年中也发生了巨大的变化。现在,随着三代长读长测序技术的出现,新的算法正在取代其他只有几年历史的算法,软件的更迭从未如此迅速。



令人悲伤的,这些多元且快速发展的生物信息学工具有严重的缺点。通常,生物信息学工具没有进行充分的基准测试,结果是,生物学家很难找到并选择最好的工具来分析他们的数据。让事情变得更加困难的是,一些生物信息学程序没有积极开发,因此它们不再适配新的数据,或携带对结果产生负面影响的bug。
基于以上原因,在你自己的研究中选择一个合适的生物信息学程序变得较为困难,特别是在处理新物种的数据时。更重要的是,必须批判性地评估自己使用的软件的输出结果。
关注微信公众号“生物城堡
生物圈教科书式必读公众号,探索生命科学研究方法论,生物信息学入门,实验与生信干湿结合
回复 支持 反对

使用道具 举报

发表于 2024-9-25 11:09 | 显示全部楼层
不请自来。作为一个从业将近6年的生信从业者表示。生物信息学两极分化的趋势会越来越严重。
第一极,是生物学或者医学意义极。也就是说生物信息学不在注重分析完成而是注重生物学或者临床医学解读,诸如,当我们发现一个信号通路pi3k,其中akt3这个基因表达他会激活什么因子,产生何种生物学表型影响什么细胞,下一步该如何实验。因为分析出结果越来越简单,在线平台,在线工具,自己看个教程就可以轻易完成,毕竟现阶段生物信息学的代码人员的素养越来越高,包括dockerhub的高手开发了很多镜像,版本控制问题也不难。所以在这个时代,实际上是谁知道数据如何使用谁强。毕竟生物学医学都是实验科学。
第二极,是数学,算法学这块。随着单细胞single cell技术的发展一个组织样本动不动100万细胞,数据量20—30tb的原始数据,生物信息学的转向是计算机存储和运算算法以及机器学习算法这块。建模高手永远吃香。在我近年的工作中,明显感到了自己数学瓶颈和计算机算法瓶颈。如何快速读取和运算一个数百万列数万行的文件?数据如何存储和压缩?如何设计一个最佳的模型?比较困扰现阶段的我。
而纯操作或者会几行代码的必然在未来开始陷入被动。自动化流程越发清晰的今天,你说你会两行代码管用么?不管用谢谢。
说到底,终究是工具科学。
回复 支持 反对

使用道具 举报

发表回复

您需要登录后才可以回帖 登录 | 立即注册 微信登录 手机动态码快速登录

本版积分规则

关闭

官方推荐 上一条 /3 下一条

快速回复 返回列表 客服中心 搜索 官方QQ群 洽谈合作
快速回复返回顶部 返回列表