立即注册找回密码

QQ登录

只需一步,快速开始

微信登录

微信扫一扫,快速登录

手机动态码快速登录

手机号快速注册登录

搜索

图文播报

查看: 541|回复: 5

[分享] 生物信息学入门需要具备什么能力?

[复制链接]
发表于 2024-11-11 22:03 | 显示全部楼层 |阅读模式
回复

使用道具 举报

发表于 2024-11-11 22:03 | 显示全部楼层
首先,生信入门很简单,别被网上那些人说的吓到!
其次,个人认为,生信不比其他生物行业有多大优势。
下面简单说一说,生物信息学如何入门
嫌Matplotlib繁琐?试试Seaborn!10W字《Python可视化教程1.0》来了!10W字《R ggplot2可视化教程1.0》来了!
了解一般的生物信息在干嘛
开局一张图,生物信息,生物开头,就是告诉您生物信息的终极目的还是在搞生物,是要解决生物问题,所以先要知道生物信息要用到哪些技术解决哪些问题,一个生信流程又是咋样的。


围绕上图DNA-RNA-蛋白的转录、翻译的生物过程,可浅显的理解生物信息是由DNA组、RNA组、蛋白组、代谢组等等各种组学组成。
<hr/>
了解DNA/RNA等组学
基本上擅长一种就可以去找到工作了。
RNA组学:可细分为mRNA|miRNA|lncRNA|circRNA等组学技术
还是一张图,可以一览各个RNAseq之间联系,


常规RNAseq分析都分析个啥?


前几年小编水过几篇文章,可以大致看看都在干什么:
<hr/>DNA层面:也可简单细分为WGS(Low-pass NIPT/NIPTPLUS/CNVseq、标准WGS)/WES/panel等技术。



panel/wes/wgs技术异同



panel/wes/wgs使用场景异同



常见的分析方法

也可简单看看都在分析个啥?
<hr/>上面简单介绍了各组学技术后,为了更好的分析,需要了解一下各个组学数据是怎么测序来的,知其然,才不会沦为“pipeliner”  
了解测序原理
市面上大部分组学数据还是由欧美国家边合成边测序的仪器测序而来,可简单参考几篇水文:
为目的DNA两边添加接头,以便与测序芯片flowcell结合,


将上一步的文库与flowcell结合,扩增放大信号的过程,


以特殊处理的dNTP(处理后一次只能连接/合成上一个ATGC、发一种特定的光/测序)为材料,通过sbs测序,是一个化学信号--光信号-测序碱基的过程,


<hr/>
生信常见的数据格式
顺便看看生信常见的数据格式:


<hr/>
了解linux
生信分析计算量很大,测序数据一般都是N个G,必须上服务器,而这些服务器一般都是基予linux系统,要在上面操作,需要熟练常用的linux命令(就那么几个)
一定要看书的话,不用买:鸟哥的Linux私房菜简体首页
ln -s
less -NS
cat
tar
gunzip
awk/sed/grep三兄弟
cp
mv
rm -rf不要随便用
scp
wget/curl
cut
sort
uniq
find
top
xargs
等等。。。。
有小伙伴说我自己没服务器咋办,如果是mac的话,可以终端直接练习;
如果是windows可以捣鼓一下vmware,或者power shell。
<hr/>
了解生信软件安装
用conda啊、docker啊、或者源码安装等等,按照软件的官网来就好了,记住遇到软件安装,上官网看文档就对了,和你安装qq没啥区别,只是放到linux系统里一样。
conda有详细介绍过
利用Anaconda在Windows及Linux下搭建Python环境【手把手版】
<hr/>
遇到问题咋办吗?
微软 Bing 搜索 - 国内版
搜狗微信搜索_订阅号及文章内容独家收录,一搜即达
google
Bioinformatics Answers
等等,实在不行了某度上搜也可以~
学完上面几步基本可以把生信软件串起来了,可以尝试拿开源数据试试了~
一定要开始做,光看没用
<hr/>
学门编程语言吧
python/perl/R生信常用。
上面拿到了软件输出的东西,如果要进一步为所欲为的处理(筛、删、统计啊、可视化展示等等),靠linux是不行的,必须学一个语言,老一辈用perl处理文本,用c写算法,现在好多都转python了(选什么看你的喜好和你所处的团队吧,团队一致即可);可视化,个人感觉生信领域R最强。
怎么学python
如果是一点都不会编程的话看,
《A Byte of Python》快速入门
中文版,LenKiMo/byte-of-python
英文版,swaroopch/byte-of-python
有点基础了,再看《Python编程:从入门到实践》,看前面几章就可以了


想精进:
Fluent Python
Python Cookbook 3rd Edition Documentation
《Effective Python:编写高质量Python代码的59个有效方法》
也可一看看小编的python学习笔记,参考书籍都在文末
详解Python数值、字符串处理
详解Python列表推导式|迭代器|生成器|匿名函数
详解pandas DataFrame, Series常用方法
详解Python模块、包、库
详解Python CONDA
详解Python字典、集合
详解Python模块化编程-自定义函数
详解Python好用的内置函
pythonic生物人:Python可视化笔记43篇合集(建议收藏)小编的python可视化学习笔记


怎么学perl
Perl学习11之perl模块详解(二)
Perl学习15之perl读excel表格
Perl学习16之读文件,存入哈希,输出到文件
Perl学习19之生信简单运用(三)
等等。。。。
怎么学R?
你是如何自学R语言的?
生物信息初学者该如何系统性的掌握 R语言?
R语言基础(一)
R语言基础(2)-向量|矩阵|数组|数据框|数据IO|实用函数
R语言基础(3)-变量|运算符|变量简单操作
小编的R可视化学习笔记


<hr/>
灵活的构建分析流程
Snakemake - Snakemake 6.4.0 documentation
Nextflow’s documentation!
<hr/>
不得不学的统计学
作为统计的博士生,你都读过哪些对你影响深远的统计书籍?《中国卫生统计》
《生物医学研究的统计方法(第二版)》
<hr/>
想更精进生信
盘大牛生信软件的底层原理吧
多参加行业会议
多交流
多阅读前沿文献
<hr/>推荐阅读

pythonic生物人:Python可视化笔记43篇合集(建议收藏)
pythonic生物人:从哪些方面着手提高Python?Python社区“老司机们”的这本书讲清楚了!
Python 从入门到精通推荐看哪些书籍呢?
你所读的统计学方向,有哪些不错的讲义(Notes)?
你是如何自学R语言的?
pythonic生物人:13个高清图助快速上手Python: NumPy/Pandas/SciPy/Matplotlib?
有哪些你看了以后大呼过瘾的数据分析书?
pythonic生物人:丰富的Python可视化“武器库”:从PyViz到Matplotlib
GitHub上都有哪些值得关注学习的R开源项目?
机器学习、数据科学 如何进阶成为大神?
作为一个研究生,有哪些你直呼好用的科研神器?
作为统计的博士生,你都读过哪些对你影响深远的统计书籍?
欢迎关注❤️:pythonic生物人
回复 支持 反对

使用道具 举报

发表于 2024-11-11 22:04 | 显示全部楼层
先说结论
通用能力:R语言、linux、高通量测序
进阶能力:python、数据挖掘算法
高阶能力:java或者C++,机器学习
从一般性的工作角度来讲,通用能力+进阶能力即可。
那么关键来了,该如何提高相关的能力呢?
复制我在如何学习生物信息学下的回答
你真的知道什么是生物信息学吗?
生物信息学和应用生物信息学不知道大家有没有分清,现在生信炒的很热,说的大多也都是基于测序技术的发展,目前来看,大多数人理解的生信都是应用生物信息学,题主是临床医学,那么可以断定是应用生物信息学了。
什么意思呢?就是以生物信息学作为工具,诸如此类,入门相对容易,也并不需要太扎实恶的数理基础和计算机编程能力,而更严谨的生物信息学目前更多的是基于全组学的软件和算法的开发,这个前景是非常广阔的,也是需要很多优秀的生信人为之努力的,在这一块的关键核心技术是掌握在国外的,有点可惜,但是国内的生信时间还不长,相关产业还么有那么高端,未来还有很大的进步空间,相信未来可期。
聊一聊应用生物信息学
很多人是生物学出身,生信的一些大牛也曾说过不用过分迷恋生信,如果你能够把这个工具学好,更好的去解决生物学问题,那是极好的。
还是建议编程基础不强的的尽量不要做硬生信,就是软件开发和算法,这真的需要时间的积累,希望不要被很多人忽悠,做做项目,硬啃下几本书,一年半载就开发算法。这样的回答其实挺不负责任的,每个人的人生每一步都至关重要。如果有志于做这方面的,后期可以一起探究和学习,这里就不展开讲了。
如果做生信需要掌握什么?
1、首先是生物学知识,我的导师在面试我的时候考察了很多恰恰不是编程的知识,而是生物学的知识,她说很多博士对于基因结构的理解都不是很深刻。这里总结了导师讲的这方面的内容,希望有所帮助。
这可能是全网最详细的真核生物基因结构讲解
这一次对于生物学的知识我更加建议是根据自己所在领域的文献查漏补缺,大量阅读本领域的文献,了解自己所需要的基础知识。
2、测序原理
目前市面上测序技术层出不穷,二代三代技术交相辉映,眼花缭乱,认准一个全基因组测序或者转录组测序都可以,这些是基础,一通百通,初学者通一门比门门都懂,但是不精通要好的多。二代illumina测序十分经典,其中的原理一定要特别通透。
可以先看下视频:
Illumina测序原理​v.youku.com​v.youku.com生信基础
这一部分我进行了整理归类,也是按照学习路径来分的~
总论
转录组
表观遗传

3、项目经历
重复一篇数据好的转录组文章,这里可以给大家推荐一个,数据简单,适合新手
Transcriptome analysis of an apple (Malus × domestica) yellow fruit somatic mutation identifies a gene network module highly associated with anthocyanin and epigenetic regulation
我要自学生信之生信基础-转录组:分析流程大全解,看这一篇就够了
另外如果有机会一定要去实习:
比如华大、诺和这些,用来学习是可以的,大多数基因公司对实习的要求是不高的,勇敢向前拼
4、计算机基础
1)linux
基因数据分析,极度不推荐在Windows下完成,有很多的工具不支持,而且不利于学习,也不利于我们对数据的理解,不过,我们不需要成为运维专家,对于生物信息研究人员来说,只有了解Linux的一些常用命令即可。我也总结了常用的一些命令
分为几个部分
软件安装、文件操作、文本处理(awk、sed、grep等)、上传下载、目录(绝对路径、相对路径),基本熟悉这些就可以上手了,后续有需要的命令大家可以自己去找。我自己也总结了部分,还在继续整理中。
也推荐一个学习的网站。
Linux 教程 | 菜鸟教程​www.runoob.com​www.runoob.com2)编程语言
关于R语言学习路径:

基础技能入门:安装加载包、数据结构、变量类型(str)、数据导入/导出(read)、数据筛选数据(filter/select)、合(merge)、匹配(match)、追加(mutate)、长宽转换(reshape)、数据索引(index)、循环(while.for)、判断(if)、排序(sort/rank)、缺失值(is.na)、正则
这一部分我推荐你看一些书籍,直接对着书上面进行基本技能练习,在这个过程中head、str、help函数的使用频率>=1000次是极佳的。哪一本都可以,比如这一本的第二版前三章
这个时候你的基础已经初步具备了,下面咱们就要开始做数据分析了。R做数据分析有些人比较喜欢用r-base(基础版本),当然我个人比较倾向于tidyverse(可以理解为加长升级版本)。使用前需要先安装然后加载他(安装就像你买了回来,加载表示你要用他了)。你以为这些就可以直接画图了吗?各种脏数据扑面而来,60%的时候就花费在了数据预处理上,我们看一下数据处理的流程。


第一步:数据预处理:
下面就开始第一步了,这里推荐完成 R语言数据处理120题 一定不要复制粘贴,一个一个敲起来。优秀的预处理能力是你的数据分析中的锋利的宝剑。尤其是在缺失值、异常值离群点、冗余数据的处理技巧上。
第二步:数据可视化
做数据可视化的过程中会涉及一些统计的知识,那么下面的一些统计基础就派上了用场。
如果是医学生,恰好有一本深得人心的医学统计书籍。
我自己也在着手更新:
其实什么类型的数据画什么图都是很有讲究的


至于画图的细节每一种类型的图都需要详细进行讲解,我的ggplot2科研绘图篇也即将开始更新了,可以和小柯一起学画图。先来张看一看效果~


赶着学习的可以多看看书,专门挑ggplot2画图这一节即可,理解底层画图逻辑(像PS的图层)。看视频虽然也讲的很清晰,但是最好还是查漏补缺用。我这里也更新了一些:

第三步:数据建模
许多的数据可视化后不用建模就可以得出一定的结论,有些复杂的数据需要通过分类、聚类等不同的方式进行分析。可以分为探索性分析和预测性分析。这一部分我会单独在我的专栏进行讲解,这里就不展开了。至于深度学习的部分还是推荐用python。
在分析过程中,不同的小伙伴基础各有不同,有基础的同学可以直接上手,拿项目练习,如果没有太多的基础,是一个小白初学者,可以考虑看一些免费的小课程来达到对于数据分析整体把握的程度,重点是要筑基,理解数据分析的基础概念同步进行简单的操作,欲速则不达。
关于R语言学习的一些疑虑
1、没有编程基础怎么办
R是我学习的第一门正式学习的编程语言,零基础也可以学会,达成目的即可,有时候只是为了画图而已,坚持一切编程都是纸老虎(怕就永远都不会)。
2、前面的学习路径还是不是很清晰,能不能简单再顺一下

  • R语言实战前三章
  • 数据处理120题
  • 基本图形+统计学了解
  • ggplot2科研绘图
3、学习路径太慢,可不可以直接开始科研绘图
亦可,边学边整理数据处理和统计相关知识,但是前面的基础技能还是需要看完,后期需要大量项目来进行补足,题海战术在语言学习中依然适用。你是不是想和我说没有办法实战怎么办?我……好人做到底,论文中的图片哪里来,R绘图来,数据哪里来,论文里面来(拿起论文-下载数据-开始画图
R语言的学习教程我已经开始陆续更新,更加贴近实际引用,解决问题:
R总论
R绘图
R语言与统计

关于Python语言:
关于python学习,我不推荐一开始就看太难的书籍,编程语言也很容易劝退,也不希望你只是在单纯的记忆理论,因为那样并没有太大的效果,我个人觉得还是从实战出发:
推荐一本入门的书籍:
理解这本书大约半个月左右的时间,并不会太耽误你的时间。看这本书实战的同时我还希望你做一些很通用的小项目,先在实验楼上进行学习,可以验证你的答案是否正确,这在初期是非常重要的,你一定要能够明确知道你做的是否正确:
精选项目课程_IT热门课程_蓝桥课程 - 蓝桥​www.lanqiao.cn​www.lanqiao.cn​www.lanqiao.cn与此同时,我常常遇到一些完全零基础的初学者,一看到晦涩难懂的代码就直接放弃,还有一部分人学习的过程中不注意代码规范,写出来的代码可读性很差,可以推荐大家看下百词斩的夜曲编程,这个软件最好的一点是规范性,会把细节的问题做成题目加深理解,比如代码缩进,同时支持在线编程,利于因为软件安装劝退的人


另外很多同学都处于一个比较忙的状态,这个程序可以在微信公众号学也可以网页学,公众号直接关注夜曲编程,网页直接搜索就可以,还是比较方便的。很多初学的编程者路径不正确,对于很对概念理解都非常不清晰,这对于后续的学习是非常不利的,基础不牢,地动山摇,这个软件里的概念卡可以帮助⼤家理解和记忆编程概念,最后的思维导图也可加强记忆。这一点对于初学者还是非常重要的。




有一定的基础之后,也许你已经摩肩擦掌准备迎战了,这个时候的你需要有一个大神带带你,一个人闷头苦干虽然很英雄,但我并不认为这样的英雄主义可以提高你的效率,开始入手github吧,如果你对github不算很熟悉,我恰恰写了一篇github的文章:自学生信之番外篇:一键解锁github 希望能够有所帮助
github上面的python100天的项目我本人极为推崇。它可能不是最好的,但是对于初学者是比较适合的,有人带你学习是一件非常幸福的事情。先放一下github的链接


也许你会觉得有点难,突然觉得自己好婆妈,没有关系,作者把前面入门的15天重新做了一个50天练习的项目。


我希望你能够着重注意一下正则表达式的应用(生信中你将经常用到他们): 正则表达式30分钟入门教程
这里我特意提及Numpy、Pandas、Matplotlib这三个库,着实是因为他们很重要。
Numpy:利用Python科学计算的基础包,对Numpy的掌握将会帮助你有效地使用Pandas等
Pandas:结构和操作工具,能够使Python数据分析更加快速和容易
Matplotlib和seaborn:Python可视化库。散点图、箱线图、小提琴图等都是手到擒来。
自学生信-机器学习python数据可视化:一节课入门seaborn
如果你能坚持走几年生物信息的道路,我想未来在生物信息学领域的深度学习会大量运用的,这几个库的熟练应用会给你一些助力,如若有机会你自己也可以尝试实现一些数据挖掘的算法,解锁一些你对于python的期待:数据挖掘18大算法实现以及其他相关经典DM算法
一点建议:我不是很希望你看大部头的视频,我希望那些是你在遇到一些问题无法解决时用来查漏补缺的,我看过很多的pyhon学习视频,大多大而全,即便可以坚持,却容易陷入耗时久远而无法解决问题的困境,没错,我在这样的循环中用了一年多才醒悟。走错的路不希望其他人重走自己的路,仅此而已
3)编程原理
当你有了一些基础后,可以开始写一点点代码了,那就要考虑代码的效率问题了,以及如果能够写出优美而省时的代码。这就要依靠数据结构和算法来实现了。
推荐入门书籍:
数据结构与算法篇:
这个一脉相承,是用python写的,有学C的强推大话数据结构
关于计算机这块可以看下之前我的回答,比较详细
生物信息学要求的计算机水平等级如何?​www.zhihu.com​www.zhihu.com5、统计学+算法
生物信息离不开统计学,假设检验,贝叶斯推断、随机森林,SVM,回归分析,PCA等等等等,R语言高级绘图的部分和这一块紧密相连。
关于贝叶斯这篇文章写的自认可以(不要脸的自夸)
我要自学生信之数据挖掘:朴素贝叶斯统计基础(在R语言的部分已经讲)
再加一本入门书籍推荐(除了医学统计学):
6、机器学习
西瓜书+南瓜书,周志华的西瓜书确为机器学习入门的经典教材,但是其中很多公式的推导初学时真的看不懂啊。南瓜书就解决了这一点,带你的数学水平提到周老师眼中大二下的水平。
南瓜书的电子版恰好准备了电子版,想要的来领取吧。
这个部分有点难度,B站吴老师的机器学习可以作为参考。
[中英字幕]吴恩达机器学习系列课程_哔哩哔哩 (゜-゜)つロ 干杯~-bilibili​www.bilibili.com​www.bilibili.com专栏内也收录了一些经典的算法:
7、批判性思维
重要性就不言而喻了,如果你面临一个事件或者一个项目提不出一个问题,或者思维混乱,那么你很难在这条路上走的很远。很多人可能觉得不甚重要,但要是按照重要性来排,我一定把它排在第二位。批判性思维的训练是需要长期进行的,是后天形成的。
推荐学习书籍:
8、好奇心+终身学习
多阅读相关领域顶刊的文章,持续下去,不出半年,定有所成,很多人都想一口气吃成个胖子,但学习往往不是一蹴而就的,树立终身学习的理念,站在巨人的肩膀上起点会高很多。
回复 支持 反对

使用道具 举报

发表于 2024-11-11 22:05 | 显示全部楼层
生信的作用越来越大,想学的人越来越多,不管是为了以后发展,还是为了解决眼下的问题。但生信学习不是一朝一夕就可以完成的事情,也许你可以很短时间学会一个交互式软件的操作,却不能看完程序教学视频后就直接写程序。也许你可以跟着一个测序分析流程完成操作,但不懂得背后的原理,不知道什么参数需要修改,结果可以出来,却把我不住对还是错。
学习生信从来就不是一个简单的事,需要做好持久战的心理准备。
在学习时,我们都希望由浅入深的逐步深入,不断地练习和实践,这就是为什么我们需要一本书,因为书很系统。但生信发展的历史短于计算机编程的历史,如果想要一门程序设计的入门数据,每种语言都可以找到几本。但想要一个囊括生信的书,就有些难了。本身生信跨领域,需要多学科的知识,而其内部又有不少分子,都囊括了太大,包括的少又有些隔靴搔痒的感觉。
我们当时都是零基础下自学Linux,  
自学Python,自学R,自学高通量测序;这些学习经历,之前都零星地记录在博客里。现在回头去看几年前自己记录的东西,觉得好简单,而当时却费了很大的力气。这些零星的随手记,当时也只是为了自己看,到现在确实只有自己能看得懂,不便惠及更多的人。
因此我们创建了生信宝典,希望从不同的角度传播知识。这个不同有三点含义,一是形式上的不同,摒弃之前主编们单人作战想写啥就写啥,而是有组织有计划的内容聚合,提供一系列的教程,由入门到提高。二是内容的不同,不去用网上现有教程的通用数据做例子,而是拿实际生物数据,讲述如何解释生信中普遍碰到的问题,讲述如何处理自己的数据。三是立足点不同。在写作时,我们回到了当年,在回忆中用整个阶段的学习去指导当初的那个小白,从那些会了的人觉得微不足道而不会的人又迈不过的坎入手,直击痛点。知识点的收录依据不是是否炫酷,是否难,而是是否必要。如果必要,再简单,也要提及;如果不必要,再炫酷,也暂不纳入。
通过大量的生信例子、关键的注释和浓缩的语句形成下面的一系列学习教程。每一篇内容都不多,可以当做小说阅读,也可以跟着去练,反复几遍,每读一次都会有不同的收获和体会。
系列教程


NGS分析工具评估


宏基因组教程


ChIP-seq专题


系列宣传


生信生物知识


文献精读


Linux


CIRCOS系列


R统计和作图


扩增子三步曲


宏基因组分析专题


NGS基础


癌症数据库


Python


NGS软件


Cytoscape网络图


分子对接


生信宝典之傻瓜式


生信人写程序


小技巧系列


永久链接


回复 支持 反对

使用道具 举报

发表于 2024-11-11 22:06 | 显示全部楼层
其实你并非是从零开始学生物信息学,生信是一门交叉学科,甚至可以说就是一门比较复杂的技能,你本硕期间累积的各种生物学基础都是有效的,对计算机学科人士来说也是如此,你们在掌握生信技能的道路上将会殊途同归。
就好像木雕匠人这个职业雕刻木头工艺品的这个技能来说,假如某厨师已经熟练掌握各种各样的刀的使用技巧,握刀的姿势,砍/切/削 等,那么他需要的是熟练掌握各种雕刻原材料,树根,枯枝的特性。同理对于了解原材料的其他木匠来说,只需要学会雕刻的刀功即可。那么,是不是这两种人就可以成为木雕匠人呢,当然不是,更重要的是雕刻什么东西,掌握需要雕刻的物品的神形,获得只可意会不可言传的感觉。
【匠人】中国那些真正的木雕大师
生物信息学也是如此,完整的掌握了生物学基础,或者计算机基础,都是只是一个最基本的要求罢了。真正社会上做生物信息学数据分析, 往往更偏向于实战,是有套路的,有流程的,能做到这个就需要一两年的学习了。更麻烦的是,跟木雕匠人一样,你往往不局限于雕刻一类物品,生信数据处理也是如此,一般人熟知的就有WES,WGS,RNA-seq,ChIP-seq等,上游分析很简单了,都流程化了,但是下游分析五花八门,主要是消耗员工的时间和精力,其中还得是熟手。所谓的大健康方向,其实也是数据分析的个性化,并没有什么特殊之处。
所以对目前的你来说,如果还没工作就很好,可以苦学3个月,装模作样的入门足够你找到工作。如果已经毕业,那么就麻烦了,只能先不计报酬的做实习生,在项目中抓住机会学习了。
好了,扯了这么多鸡汤,下面是干货
生信完全入门线路图及资源大全

成为一个合格的生信工程师必经之路
6大基础知识的掌握

首先你需要了解一些测序基础知识,生物学基础知识,这个主要靠自己看,还有平时多积累。
在生信技能树论坛上面我列了一下,需要自行花时间自学,遇到不懂的名词多搜索,多熟记。对应我们生信技能树的论坛版块是: 生信技能树»生信技能树生信基础测序原理-数据格式-数据库
然后你需要掌握一门编程语言,可以从http://www.biotrainee.com/forum-90-1.html 里面的题目开始,当然你需要先来一些简单,你先看这个,http://www.biotrainee.com/thread-834-1-1.html 编程学会怎么着也得两三个月了。对应我们生信技能树的论坛版块是:生信技能树互动作业脚本能力实践生信人必练的200个数据处理任务
如果是linux,不妨看看实验楼的练习:
也可以跟着视频来练习,如果你实在是需要,这里推荐业界马哥的视频教程,链接: https://pan.baidu.com/s/1slukNwT 密码: xyq9
这些基础掌握的七七八八了,就可以开始NGS组学之旅了。
NGS组学技术的掌握

首先看 5 篇综述并翻译,涵盖主流的5个NGS组学技术:WES/RNA-seq/CHIP-seq/miRNA-seq/lncRNA-seq
对应这些组学的PPT也需要自行搜索后浏览,掌握概念,原理。
然后看5篇测序数据分析例子
然后看5篇芯片数据分析例子:lncRNA : http://pubmedcentralcanada.ca/pmcc/articles/PMC3691033/ ,我就不继续罗列了。
转录组流程

https://f1000research.com/articles/4-1070/v1
https://f1000research.com/articles/5-1438/v1
https://www.bioconductor.org/help/workflows/rnaseqGene/
当然,实践这些项目你肯定是需要流程,代码,在我的github里面已经有了,但是你需要掌握了linux,软件安装等等,才能看懂。我的github地址是: https://github.com/jmzeng1314/NGS-pipeline
等你实践经验足够了,你会发现它们本质上都只是数据处理而已,你可以看我以前录制好的总结视频:有参组学(全基因组,全外显子组学,转录组学,表观)的几个NGS测序数据分析的表现形式的异同点,视频在链接:http://pan.baidu.com/s/1jIQFGSA 密码:48uj
当然,我的视频还有很多,如果你感兴趣,可以自行按需下载:
[我做博客3年来录制的所有免费视频: https://pan.baidu.com/s/1pKkA4Q3  密码:8xxd
我还在论坛上面收集整理了很多NGS组学实践项目,欢迎大家前去练习,http://www.biotrainee.com/forum-108-1.html , 这个取决于你的悟性了。
但是如果要真正步入生信的殿堂,编程其实是少不了的,请继续学下去。
关于R语言

知道什么是R语言,了解基本语法,Rstudio编辑器,读写文件,跟Excel的区别,绘图等可视化,生物信息学相关的bioconductor系列包。
首先下载R语言打印版的 cheatsheet, 链接:http://pan.baidu.com/s/1nv5Oulb  密码:4tsn 放在办公桌,或者枕头边上,随时浏览记忆。然后这里有一个网络视频教程,链接:https://pan.baidu.com/s/1slbPogX 密码:ga9x   是数据分析与R语言视频教程+课件 请务必抽时间听完,一步步跟着操作学习,可以保证你R语言能入门。
尤为注意的是,初学者千万不要钻牛角尖,而是要广泛涉猎,牢记基础,应用加实践,其背后的计算机逻辑算法等可以后期再补,而且要时刻记住,学习R语言是为了分析生物信息学数据。
一般不建议初学者直接下载 史上最全R语言资料汇总,链接: https://pan.baidu.com/s/1qYt6RXM 密码: fj42 里面的资料实在是太多了,初学者很容易迷失在里面。但我还是给大家,毕竟入门之后的提高,还是用得着的。
关于python

同样的,接下来你应该要开始实践:
生信技能树»生信技能树互动作业脚本能力实践生信编程实战5个月传送门~~~  
需要自己跟着一套视频来一步步练习,这里推荐 炼数成金的python课程 链接: https://pan.baidu.com/s/1bo9WmvX 密码: di8q
小成境界
回复 支持 反对

使用道具 举报

发表于 2024-11-11 22:06 | 显示全部楼层
谢邀(捂脸///)生信直博在读,并没有找生信工作的经验。那就从学生信的角度说一点点我的理解吧~
1.编程
Linux:会用Editor(e.g. VIM) 和 Shell Script (e.g. bash);推荐《鸟哥的Linux私房菜-基础学习篇》
Python/Perl:《Python编程入门(第3版)》,Perl推荐小骆驼
R:《R语言实战(R in action)》
如果做数据库或者server,推荐再学PHP,MySQL,JavaScript
2.课程
Bioinformatics: 生物信息导论和方法(北大高歌老师的课程,讲解逻辑清晰,由浅入深),MOOC。
因为生信有好多分支,如对基因组、蛋白质组学数据分析并给出生物学解释;在研究算法方面,如利用机器学习的各种原理来解决生物学问题(对基因序列原件的注释,如对TSS,splicing sites,promoters,enhancers,positioned nucleosomes等功能区域的注释;通过对RNA-seq,microarray,ChIP-seq等数据的分析,区分不同的疾病类型或疾病的分子标志物(biomarkers);对基因功能的注释,如Gene Ontology term;以及基因间互作调控网络的分析);比如运用统计学知识改进已有的生信软件的算法,等等。可以根据将来要做什么继续补充知识,比如看一下斯坦福大学的Andrew Ng在coursera的机器课程呀 ,看一下统计学原理呀之类的。
3.文献和实战练习
如果是做基因组学的生信公司
3.1 RNA数据分析流程
RNA-seq:可以重复一下文章中的分析Differential gene and transcript expression analysis of RNA-seq experiments with TopHat and Cufflinks[1]
当然入门之后可以更多了解相关软件啦,比如STAR,feature counts, Gfold, EdgeR, DESeq2,
DESeq等。
找lncRNA:Recurrently deregulated lncRNAs in hepatocellular carcinoma [2]. 这篇文章中有如何找新lncRNA的流程,可以根据文章提供的方法重复一下。
3.2 DNA数据分析流程
GATK那一套流程检测
同时variant与疾病、eQTL等关联分析的话,可以了解一下STATA
3.3
结合机器学习和基因组学的话,可以看一下以下文献:
DeepVariant:由谷歌Deep mind公司研发,利用卷积神经网络(convolutional neural network, CNN)检测基因组上单碱基突变(SNP)和小的插入缺失(Indel),比现有的GATK软件有更高的精确度 [3]。
DeepWAS:根据功能单元选择出一组SNP的集合,与现有的基因组关联分析(GWAS)检测基因组上一个SNP与疾病的关系相比,DeepWAS能够更综合地分析致病基因突变,在寻找调控区域的基因突变也更为直接[4]。
DeepSEA:预测人类基因组非编码区有功能的变异 [5]。
DeepBind:预测DNA,RNA结合蛋白的序列特征,并能识别有害的基因突变 [6]。
DeepCpG:在表观遗传学层面上,应用深度神经网络算法,研发了通过单细胞测序的DNA序列和不完整的甲基化修饰数据的,用来预测细胞细胞层面是否会发生甲基化,其效果优于现有软件[7]。
暂时就想起来这么多啦~

1. Trapnell, C., et al., Differential gene and transcript expression analysis of RNA-seq experiments with TopHat and Cufflinks. Nat Protoc, 2012. 7(3): p. 562-78.
2. Yang, Y., et al., Recurrently deregulated lncRNAs in hepatocellular carcinoma. Nat Commun, 2017. 8: p. 14421.
3. Poplin, R., et al., Creating a universal SNP and small indel variant caller with deep neural networks. bioRxiv, 2016: p.092890.
4. Eraslan,G., et al., DeepWAS: Directly integrating regulatory information into GWAS using deep learning supports master regulator MEF2C as risk factor for major depressive disorder. bioRxiv, 2016: p.069096.
5. Zhou, J. and O.G. Troyanskaya, Predicting effects of noncoding variants with deep learning-based sequence model. Nature methods, 2015. 12(10): p.931-934.
6. Alipanahi, B., et al., Predicting the sequence specificities of DNA-and RNA-binding proteins by deep learning. Nature biotechnology, 2015. 33(8): p.831-838.
7. Angermueller, C., et al., Accurate prediction of single-cell DNA methylation states using deep learning. bioRxiv, 2016: p.055715.
回复 支持 反对

使用道具 举报

发表回复

您需要登录后才可以回帖 登录 | 立即注册 微信登录 手机动态码快速登录

本版积分规则

关闭

官方推荐 上一条 /3 下一条

快速回复 返回列表 客服中心 搜索 官方QQ群 洽谈合作
快速回复返回顶部 返回列表