立即注册找回密码

QQ登录

只需一步,快速开始

微信登录

微信扫一扫,快速登录

手机动态码快速登录

手机号快速注册登录

搜索

图文播报

查看: 838|回复: 4

[分享] 生物信息学怎么学?

[复制链接]
发表于 2025-1-5 17:37 | 显示全部楼层 |阅读模式
回复

使用道具 举报

发表于 2025-1-5 17:38 | 显示全部楼层
生信技能树,做生物信息不可不知的公众号。非常全的技能学习公众号,同时有大量的线上资源整理上传,从基础知识、入门技巧、进阶教程非常贴心的阶段性教程,同时资源免费分享在论坛和B站账号(100小时全套生信工程师教学视频)上,也有免费的讲座和交流会。(付费的课程和学习班大家就量力而行哈)。
生信技能树从生信基础、生信入门、生信进阶等方面进行了阶段性的板块学习分布的同时,也整理了生信的学习资源、可视化软件及数据库应用等等。适合菜鸟也适合进阶。
在B站上分享了100个小时的全套100个小时的免费生信工程师教学视频,涵盖了多种组学数据(WES, RNA-seq,ChIP-seq, ATAC-seq, 单细胞,甲基化芯片,lncRNA,miRNA)等等。让我们对Jimmy曾健明先生的无私贡献起立鼓掌  。
主要在三个平台活动:Wechat、Bilibili、论坛。
B站(100小时全套生信工程师教学视频)

【生信技能树】生信人应该这样安装软件_哔哩哔哩_bilibili
【生信技能树】生信服务器配置全攻略_哔哩哔哩_bilibili
生信分析入门环境搭建 【生信技能树】生信分析入门环境搭建_哔哩哔哩_bilibili
生信人应该这样学linux  【生信技能树】生信人应该这样学linux(更新至第14集)_哔哩哔哩_bilibili
生信小技巧系列课程  【重制版】生信小技巧系列课程(第一季已完更!~)_哔哩哔哩_bilibili
生信小技巧系列2 【生信技能树】生信小技巧第二季(更新至第6集)_哔哩哔哩_bilibili
R语言系列【生信技能树】生信人应该这样学R语言_哔哩哔哩_bilibili
公共数据库挖掘实例 【生信技能树】公共数据库挖掘实例(基于R语言)_哔哩哔哩_bilibili
NGS数据分析实战 NGS数据分析实战之表观调控_哔哩哔哩_bilibili
基于基因集的生存分析 【生信技能树】基于基因集的生存分析_哔哩哔哩_bilibili
DNA甲基化系列 【生信技能树】DNA甲基化芯片分析_哔哩哔哩_bilibili
ATAC-seq数据分析实战  ATAC-seq数据分析实战_哔哩哔哩_bilibili
Chip-seq测序数据分析 【生信技能树】Chip-seq测序数据分析_哔哩哔哩_bilibili
GEO数据库挖掘  【生信技能树】GEO数据库挖掘_哔哩哔哩_bilibili
转录组数据分析 【生信技能树】转录组测序数据分析_哔哩哔哩_bilibili
单细胞转录组实战 #完整版视频上线!全!面!免!费!#全网第一的单细胞转录组实战演练_哔哩哔哩_bilibili
云服务器处理单细胞转录组数据 「生信技能树」云服务器处理单细胞转录组数据_哔哩哔哩_bilibili
「生信技能树」单细胞基因组数据拷贝数变异分析流程_哔哩哔哩_bilibili
「生信技能树」使用10X单细胞转录组数据探索免疫治疗_哔哩哔哩_bilibili
「生信技能树」使用Smart-seq2单细胞转录组数据探索小鼠性腺发育_哔哩哔哩_bilibili
「生信技能树」单细胞数据挖掘_哔哩哔哩_bilibili
「生信技能树」跟着百度李彦宏学习肿瘤基因测序数据分析_哔哩哔哩_bilibili
【生信技能树】全外显子测序数据分析_哔哩哔哩_bilibili
基于全外显子数据分析
【生信技能树】全外显子测序数据分析重制 11 可视化比对及变异结果_哔哩哔哩_bilibili
【生信技能树】全外显子测序数据分析重制 12 比对及找变异步骤的质控_哔哩哔哩_bilibili
【生信技能树】全外显子测序数据分析重制 13 不同找变异软件的比较_哔哩哔哩_bilibili
【生信技能树】全外显子测序数据分析重制 14 变异文件vcf的注释、过滤以及尾声_哔哩哔哩_bilibili
「生信技能树」LncRNA数据分析实战_哔哩哔哩_bilibili
「生信技能树」miRNA-Seq数据挖掘实战_哔哩哔哩_bilibili
Wechat:【生信技能树】


论坛-生信菜鸟团

生信菜鸟团    生信技能树历史推文目录-2019-01 | 生信菜鸟团



回复 支持 反对

使用道具 举报

发表于 2025-1-5 17:38 | 显示全部楼层
生物信息学入门需要掌握 一点编程、统计和生物学基础,我是14年从分子生物学转行到生信博士,我把整个学习过程录制成了视频,希望对大家有所帮助,视频有30多个,这里我贴了几个实战相关的,其余请大家移步我的主页。

我同时是知乎、公众号和bilibili博主:数据科学那些事,日常分享生命科学领域升学、科研和工作必备成长技能与经验,欢迎围观。
回复 支持 反对

使用道具 举报

发表于 2025-1-5 17:39 | 显示全部楼层
再次更新一下:主要更新部分为R语言和Linux学习部分(再次提醒重视R语言)
本科自己所学的专业就是生物信息学,同样是从一个小白开始,经过了相对系统的训练。更加能够体会生信学习如果没有领路人是非常困难的这一事实,因为要学习的东西确实很多,整个大一大二的时候课程几乎排满,但有幸的是现在入行生物信息学有很多优秀的项目以及很多经验可以参考,可以快速入门。我会把自己学习过程中踩过的帮大家毙掉,减少学习成本。
你真的知道什么是生物信息学吗?
生物信息学和应用生物信息学不知道大家有没有分清,现在生信炒的很热,说的大多也都是基于测序技术的发展,目前来看,大多数人理解的生信都是应用生物信息学
什么意思呢?就是以生物信息学作为工具,诸如此类,入门相对容易,也并不需要太扎实恶的数理基础和计算机编程能力,而更严谨的生物信息学目前更多的是基于全组学的软件和算法的开发,这个前景是非常广阔的,也是需要很多优秀的生信人为之努力的,在这一块的关键核心技术是掌握在国外的,有点可惜,但是国内的生信时间还不长,相关产业还么有那么高端,未来还有很大的进步空间,相信未来可期。
聊一聊应用生物信息学
很多人是生物学出身,生信的一些大牛也曾说过不用过分迷恋生信,如果你能够把这个工具学好,更好的去解决生物学问题,那是极好的。
还是建议编程基础不强的的尽量不要做硬生信,就是软件开发和算法,这真的需要时间的积累,希望不要被很多人忽悠,做做项目,硬啃下几本书,一年半载就开发算法。这样的回答其实挺不负责任的,每个人的人生每一步都至关重要。如果有志于做这方面的,后期可以一起探究和学习,这里就不展开讲了。
如果做生信需要掌握什么?
1、首先是生物学知识,我的导师在面试我的时候考察了很多恰恰不是编程的知识,而是生物学的知识,她说很多博士对于基因结构的理解都不是很深刻。这里总结了导师讲的这方面的内容,希望有所帮助。
这可能是全网最详细的真核生物基因结构讲解
尤其是分子生物学,推荐【南京大学-杨荣武】分子生物学
书籍的话可以看配套教材
如果你觉得时间不够用,可以把这本书作为字典,用到的时候再进行查询。

2、测序原理
目前市面上测序技术层出不穷,二代三代技术交相辉映,眼花缭乱,认准一个全基因组测序或者转录组测序都可以,这些是基础,一通百通,初学者通一门比门门都懂,但是不精通要好的多。二代illumina测序十分经典,其中的原理一定要特别通透。
可以先看下视频:
Illumina测序原理​v.youku.com生信基础

3、项目经历
重复一篇数据好的转录组文章,这里可以给大家推荐一个,数据简单,适合新手
Transcriptome analysis of an apple (Malus × domestica) yellow fruit somatic mutation identifies a gene network module highly associated with anthocyanin and epigenetic regulation
我要自学生信之生信基础-转录组:分析流程大全解,看这一篇就够了
另外如果有机会一定要去实习:
比如华大、诺和这些,用来学习是可以的,大多数基因公司对实习的要求是不高的,勇敢向前拼
4、计算机基础
1)linux
基因数据分析,极度不推荐在Windows下完成,有很多的工具不支持,而且不利于学习,也不利于我们对数据的理解,不过,我们不需要成为运维专家,对于生物信息研究人员来说,只有了解Linux的一些常用命令即可。我也总结了常用的一些命令
分为几个部分
软件安装、文件操作、文本处理(awk、sed、grep等)、上传下载、目录(绝对路径、相对路径),基本熟悉这些就可以上手了,后续有需要的命令大家可以自己去找。我自己也总结了部分,还在继续整理中。
也推荐一个学习的网站。
Linux 教程 | 菜鸟教程​www.runoob.com2)编程语言
关于R语言学习路径:

基础技能入门:安装加载包、数据结构、变量类型(str)、数据导入/导出(read)、数据筛选数据(filter/select)、合(merge)、匹配(match)、追加(mutate)、长宽转换(reshape)、数据索引(index)、循环(while.for)、判断(if)、排序(sort/rank)、缺失值(is.na)、正则
这一部分我推荐你看一些书籍,直接对着书上面进行基本技能练习,在这个过程中head、str、help函数的使用频率>=1000次是极佳的。哪一本都可以,比如这一本的第二版前三章
这个时候你的基础已经初步具备了,下面咱们就要开始做数据分析了。R做数据分析有些人比较喜欢用r-base(基础版本),当然我个人比较倾向于tidyverse(可以理解为加长升级版本)。使用前需要先安装然后加载他(安装就像你买了回来,加载表示你要用他了)。你以为这些就可以直接画图了吗?各种脏数据扑面而来,60%的时候就花费在了数据预处理上,我们看一下数据处理的流程。


第一步:数据预处理:
下面就开始第一步了,这里推荐完成 R语言数据处理120题 一定不要复制粘贴,一个一个敲起来。优秀的预处理能力是你的数据分析中的锋利的宝剑。尤其是在缺失值、异常值离群点、冗余数据的处理技巧上。
第二步:数据可视化
做数据可视化的过程中会涉及一些统计的知识,那么下面的一些统计基础就派上了用场。
如果是医学生,恰好有一本深得人心的医学统计书籍。
我自己也在着手更新:
其实什么类型的数据画什么图都是很有讲究的


至于画图的细节每一种类型的图都需要详细进行讲解,我的ggplot2科研绘图篇也即将开始更新了,可以和小柯一起学画图。先来张看一看效果~


赶着学习的可以多看看书,专门挑ggplot2画图这一节即可,理解底层画图逻辑(像PS的图层)。看视频虽然也讲的很清晰,但是最好还是查漏补缺用。我这里也更新了一些:

第三步:数据建模
许多的数据可视化后不用建模就可以得出一定的结论,有些复杂的数据需要通过分类、聚类等不同的方式进行分析。可以分为探索性分析和预测性分析。这一部分我会单独在我的专栏进行讲解,这里就不展开了。至于深度学习的部分还是推荐用python。

关于R语言学习的一些疑虑
1、没有编程基础怎么办
R是我学习的第一门正式学习的编程语言,零基础也可以学会,达成目的即可,有时候只是为了画图而已,坚持一切编程都是纸老虎(怕就永远都不会)。
2、前面的学习路径还是不是很清晰,能不能简单再顺一下

  • R语言实战前三章
  • 数据处理120题
  • 基本图形+统计学了解
  • ggplot2科研绘图
3、学习路径太慢,可不可以直接开始科研绘图
亦可,边学边整理数据处理和统计相关知识,但是前面的基础技能还是需要看完,后期需要大量项目来进行补足,题海战术在语言学习中依然适用。你是不是想和我说没有办法实战怎么办?我……好人做到底,论文中的图片哪里来,R绘图来,数据哪里来,论文里面来(拿起论文-下载数据-开始画图

关于Python语言:
关于python学习,我不推荐一开始就看太难的书籍,编程语言也很容易劝退,也不希望你只是在单纯的记忆理论,因为那样并没有太大的效果,我个人觉得还是从实战出发:
推荐一本入门的书籍:
理解这本书大约半个月左右的时间,并不会太耽误你的时间。看这本书实战的同时我还希望你做一些很通用的小项目,先在实验楼上进行学习,可以验证你的答案是否正确,这在初期是非常重要的,你一定要能够明确知道你做的是否正确:
精选项目课程_IT热门课程_蓝桥课程 - 蓝桥​www.lanqiao.cn​www.lanqiao.cn有一定的基础之后,也许你已经摩肩擦掌准备迎战了,这个时候的你需要有一个大神带带你,一个人闷头苦干虽然很英雄,但我并不认为这样的英雄主义可以提高你的效率,开始入手github吧,如果你对github不算很熟悉,我恰恰写了一篇github的文章:自学生信之番外篇:一键解锁github 希望能够有所帮助
github上面的python100天的项目我本人极为推崇。它可能不是最好的,但是对于初学者是比较适合的,有人带你学习是一件非常幸福的事情。先放一下github的链接


也许你会觉得有点难,突然觉得自己好婆妈,没有关系,作者把前面入门的15天重新做了一个50天练习的项目。


我希望你能够着重注意一下正则表达式的应用(生信中你将经常用到他们): 正则表达式30分钟入门教程
这里我特意提及Numpy、Pandas、Matplotlib这三个库,着实是因为他们很重要。
Numpy:利用Python科学计算的基础包,对Numpy的掌握将会帮助你有效地使用Pandas等
Pandas:结构和操作工具,能够使Python数据分析更加快速和容易
Matplotlib和seaborn:Python可视化库。散点图、箱线图、小提琴图等都是手到擒来。
自学生信-机器学习python数据可视化:一节课入门seaborn
如果你能坚持走几年生物信息的道路,我想未来在生物信息学领域的深度学习会大量运用的,这几个库的熟练应用会给你一些助力,如若有机会你自己也可以尝试实现一些数据挖掘的算法,解锁一些你对于python的期待:数据挖掘18大算法实现以及其他相关经典DM算法
一点建议:我不是很希望你看大部头的视频,我希望那些是你在遇到一些问题无法解决时用来查漏补缺的,我看过很多的pyhon学习视频,大多大而全,即便可以坚持,却容易陷入耗时久远而无法解决问题的困境,没错,我在这样的循环中用了一年多才醒悟。走错的路不希望其他人重走自己的路,仅此而已
3)编程原理
当你有了一些基础后,可以开始写一点点代码了,那就要考虑代码的效率问题了,以及如果能够写出优美而省时的代码。这就要依靠数据结构和算法来实现了。
推荐入门书籍:
数据结构与算法篇:
这个一脉相承,是用python写的,有学C的强推大话数据结构
关于计算机这块可以看下之前我的回答,比较详细
生物信息学要求的计算机水平等级如何?​www.zhihu.com5、统计学+算法
生物信息离不开统计学,假设检验,贝叶斯推断、随机森林,SVM,回归分析,PCA等等等等,R语言高级绘图的部分和这一块紧密相连。
关于贝叶斯这篇文章写的自认可以(不要脸的自夸)
https://zhuanlan.zhihu.com/p/250777098统计基础(在R语言的部分已经讲)
再加一本入门书籍推荐(除了医学统计学):
6、机器学习
西瓜书+南瓜书,周志华的西瓜书确为机器学习入门的经典教材,但是其中很多公式的推导初学时真的看不懂啊。南瓜书就解决了这一点,带你的数学水平提到周老师眼中大二下的水平。
南瓜书的电子版恰好准备了电子版,想要的来领取吧。
这个部分有点难度,B站吴老师的机器学习可以作为参考。
[中英字幕]吴恩达机器学习系列课程_哔哩哔哩 (゜-゜)つロ 干杯~-bilibili​www.bilibili.com7、批判性思维
重要性就不言而喻了,如果你面临一个事件或者一个项目提不出一个问题,或者思维混乱,那么你很难在这条路上走的很远。很多人可能觉得不甚重要,但要是按照重要性来排,我一定把它排在第二位。批判性思维的训练是需要长期进行的,是后天形成的。
推荐学习书籍:
8、好奇心+终身学习
多阅读相关领域顶刊的文章,持续下去,不出半年,定有所成,很多人都想一口气吃成个胖子,但学习往往不是一蹴而就的,树立终身学习的理念,站在巨人的肩膀上起点会高很多。

最后送给大家一句话:人要忠于年轻时候的梦想!
我在知乎学生信专栏、我要自学生物信息学系列持续更新中,一起和众多初学者度过新手区。
回复 支持 反对

使用道具 举报

发表于 2025-1-5 17:39 | 显示全部楼层
9年生信从业经验,带教了多少个师弟师妹没有细数,大概二三十个吧。我都用一种方法整体来说,几乎没有失败,不过主要还是小师弟师妹们自己用功。我分享出来,希望更多的人能受用。这个方法只是入门,熟练与精通要靠自己了。
分为4个部分:linux基本操作,学习编程,练习项目,补充复习必要的生物学基础课程(分子生物学和遗传学)。
第一,linux基本操作,这个不用很多时间,去网上找一个别人整理好的linux基本操作的reference card,看一遍,理解清楚,记不记得住无所谓。在学习编程阶段,会使用linux,遇到linux操作的问题知道在reference card的哪里找,或者知道google搜索哪个关键词。
第二,学习编程。选择一门编程语言,目前大概率大家会推荐python,但是不一定,如果你已经会一门其他需要,其实没必要非要再学一个python。学习方法跟学linux操作类似:看一遍书,理解清楚(如果不做练习都能理解就没必要做),记不记得住无所谓。在练习项目阶段,遇到linux操作和编程的问题知道在书本的哪里找,或者知道google搜索哪个关键词,找到解决办法。
第三,联系项目。这个是我觉得最重要的,也是最看中的,实践是检验真理的唯一标准。这个过程主要有4个目的:强化记忆(之前看到书本知识)、培养学习能力(通过检索找到解决问题的能力)、熟悉各种数据库-测序原理-标准格式(这是是日后生信常用到的)以及获得经验(debug多了经验就多了)。所以关键就是有一套能实现这些目的的项目。
第四,补充复习必要的生物学基础课程,主要是分子生物学和遗传学,可以在第三部分期间进行,也可以早点进行。
大概的周期Cycle如下:
第一:----
第二:------------
第三:          ---------------------------------------
第四:(-------)------------------------
回复 支持 反对

使用道具 举报

发表回复

您需要登录后才可以回帖 登录 | 立即注册 微信登录 手机动态码快速登录

本版积分规则

关闭

官方推荐 上一条 /3 下一条

快速回复 返回列表 客服中心 搜索 官方QQ群 洽谈合作
快速回复返回顶部 返回列表