立即注册找回密码

QQ登录

只需一步,快速开始

微信登录

微信扫一扫,快速登录

手机动态码快速登录

手机号快速注册登录

搜索

图文播报

查看: 147|回复: 5

[分享] 对于有生物学基础,但无生物信息学背景的人,转行到生信难不难?

[复制链接]
发表于 2025-1-5 16:50 | 显示全部楼层 |阅读模式
回复

使用道具 举报

发表于 2025-1-5 16:51 | 显示全部楼层
@pythonic生物人 认为挺简单的,可以从科研服务上手!
1、学点linux命令行(cat、less、more、head、tail、paste、cut、awk、sed等);
2、学点编程,科研服务喜欢搞一些花里胡哨的图,R语言绝对首选(熟悉base R语法、ggplot2绘图包),可参考:你是如何自学R语言的?;Python基础语法要熟悉一下的,可参考:如何快速学习python,学好python?;perl要看的懂的,一些祖传代码可能是perl,可参考:pythonic生物人:Perl基础笔记19篇合集
3、熟悉一种生物信息学经典分析流程,一般生物信息都是围绕中心法则展开,什么RNA-seq(细分为mrna、lncrna、small rna等)、DNA-seq(wes、panel、cnv-seq、nipt等)、蛋白组等等,熟悉一种,其它都差不多,可参考:如何自学生物信息学?
以上短则3个月、多则半年既能熟悉,下面找个工作,
4、找个科研服务生物信息工作,从开始跑流程开始,跑流程出报告过程中熟悉每一步生物原理,多读文献,遇到问题多看原始文献、原始github、远离别人的二手消化知识、别人有时候可能就是个半吊子会误导你,基本上一年半载就能很熟悉某一组学了。
5、可以考虑跳槽去更具有挑战的岗位了!
推荐阅读

pythonic生物人:Python可视化笔记43篇合集(建议收藏)
生物信息学入门需要具备什么能力?
如何自学生物信息学?
基因组测序技术有哪些?
pythonic生物人:从哪些方面着手提高Python?Python社区“老司机们”的这本书讲清楚了!
Python 从入门到精通推荐看哪些书籍呢?
你所读的统计学方向,有哪些不错的讲义(Notes)?
你是如何自学R语言的?
作为统计的博士生,你都读过哪些对你影响深远的统计书籍?
欢迎关注 @pythonic生物人
回复 支持 反对

使用道具 举报

发表于 2025-1-5 16:51 | 显示全部楼层
不难。听我掰开揉碎和你说。

首先,生信分析在讲什么?

医学类科研有三大知识体系,基础科研,生物信息,临床统计
基础科研从零基础到10分文章的套路规范,酸菜老师融合了12年教授基础科研的经验,历时两年半,三次改版,做了《36策》这门基础科研逻辑方法论的课。《36策》没更完之前,你们一直在催更,好像基础科研没学好,是老师课程没教全。酸菜老师之前很单纯,怀着对学员们发文章申基金负责的态度,兢兢业业加班加点地把《36策》更完。刚想松一口气,发现你们又有新的需求。“酸菜老师,解螺旋什么时候上生信分析和临床统计的课。”“酸菜老师,什么时候上分科室的教学。” 课呢,是永远教不完的。光靠酸菜和老谈两个老师,做课做到退休,熬夜熬到吐血,也做不完各种品类的课。毛主席有句名言,依靠群众的力量发动群众。好在我培养了几个给力的徒弟,种了一批分布于不同科室的驻场老师,汇集了一群解螺旋最优秀的先锋班群体。他们是跟着解螺旋的科研逻辑方法论学下来的学员,又领悟了《36策》的精髓,学之于社群,本身各有所长,教学相长,融会贯通之后,又反哺社群。2020年解螺旋生信板块、临床板块、分科室教学正式上线。这是一个健康的医学社群的生态,与这些优秀的学员打交道,也给了我做老师的成就感,很大程度上缓解了我做课的焦虑。
我认为医生应当聚焦临床优势,以科学的方法、高效的工具和取之不竭的实用资源,达成研究目的,让医生学科研做科研这事变得极致简单。现实总是无情打脸,难度一降再降,总有人学不会。就拿生信体系课来说,我们的初衷是解构生信分析的常见数据库的常见功能和操作、教学员用R代码复现常见的生信分析图表,再搭配着完整的生信全文的数据库/代码的多个套路的复现,共录制了接近70个小时的视频。结果发现,大多数人是学不下来这么多的小时数的,真正有耐心学下来的学员觉得真香,耐力不够的学员会觉得干货干的让人神伤,还是抓不住生信课题的精髓,三分之一的学员get不到如何进行生信课题设计,三分之一的人止步于生信分析中的软件/R包安装,bug修复。生信分析的问题呢,以后解螺旋会推出一站式分析网站,解决大家分析的难题,本来生信就是一种科研研究手段,不应该被技术的瓶颈所束缚。而生信板块,我对你们最低的要求是起码懂得生信设计的逻辑方法论,至于执行的层面,找人合作,让自己手下学生学,找公司分析,或者用生信工具,都可以解决。最重要的是思路
我们在解螺旋生信体系课的训练营中遇到了各种各样关于生信的问题。
比如说,做非肿瘤研究的,有没必要学习生信?生信文章的创新程度取决于哪些因素?做完生信分析,该怎么进行湿实验验证?某某生信分析套路,还有哪些分析思路?怎么用最短的时间入门生信?
酸菜老师就是有这个强迫症,遇到问题,解决问题;被学员问得多了,就忍不住要做课。这时候我脑海里总要浮现出和珅的那个画面,我怎么就管不住这手呢?和和大人不同的是,和大人管不住拿银票的手,酸菜老师是管不住要做PPT备课的手。同人不同命啊,酸菜老师注定要在为学员授业解惑的路上越走越远。解决学员们在生信学习过程中课题设计的难题,这也是我做这门生信逻辑二十策的原因,帮大家梳理生信领域的知识点和论证逻辑规律和数据表达套路,力求教会大家掌握生信知识体系的底层架构。
打个岔,在这里送大家一份免费的2376页新版生信文章复现手册:单细胞、肿瘤免疫、干湿结合、m6A甲基化…应有尽有,十分适合有生信学习需求的朋友。附赠我的8天领悟5分医学SCI训练营,点击免费获取






言归正传。
生物信息,bioinformatics,也称干实验,与基础科研的湿实验相对应。生物信息学是一门交叉学科,需要统计学学得好、又会码代码,还要懂生物学。说白了,生物信息就是借助计算机的运算研究各种组学的,包括可视化、算法构建、软件/数据库开发等等。
生物信息学有两大研究门派,一类是技术派,日常干的活包括算法构建,开发个数据库或者软件,写个R包。要干这类活,需要计算机背景或者数学背景出身,能熟练玩转代码底层结构,掌握多种编程语言,懂一些高深的统计学原理,数据库做的好,可以发到《Nucleic Acids Research》 杂志,R包写的实用,可以发到生信的顶刊《Bioinformatics》,这样的研究还很能带动文章的引用量,上千的引用量不是梦,作者的名气也都在业内流传,引发一波学术界追叔迷姐的追星热潮。但这样的流派,看上去很美,技术学习门槛太高,没有大几年的专业积累是学不会的,对医生做科研这样的选择肯定是不划算的。比较适合医生的就是另一类生信门派——应用派,需要应用公共数据库或者医院的临床样本做做高通量分析,挖掘在自己研究疾病里的潜在生物学和临床意义。要做这样的研究,只需要掌握几个常见的生信分析套路,进行合理的排列组合,也能设计出有一定创新性的生信课题;如果要自己动手分析,学会相应数据库的操作,会用R语言调节一下相应代码模块的参数,学习能力强的医生自学半年到一年的时间可以搞定;如果有自己测序样本,还愿意多付点费用给测序公司,或者有生信实验室进行合作,也能凑够一套发表级的高通量数据的工作量。
至于文章分数能发表多高,一个是看创新性,分析套路够不够新,测序技术是不是前沿;二是看测序样本,样本量多少,有无自己样本,样本测序质量好坏;三是看实验验证,有无进一步实验验证,论证维度够不够严谨多维;四是看写作水平,有没专业术语的表达错误,英文写作够不够native;五是看老天赏不上赏饭,老板的江湖地位如何,送到什么样的编辑手中,有没胆量和运气,都占一定因素。
之前在讲《36策》Assay的时候,我提到过医学基础科研可以分为组学、分子、细胞、动物四个实验体系组学(omics)属于生信研究的范畴,就是用高通量的方法产生大数据,主要分为筛选DNA的基因组学,筛选RNA的转录组学,筛选蛋白的蛋白组学,筛选代谢小分子的代谢组学四大方向分别对应生信研究的四大对象,DNA、RNA、蛋白质、化合物小分子。此外,还延伸出一些其他的组学分支,比如筛选外显子区域的DNA的外显子组学(Whole-exome sequencing,WES),筛选产生的特异性反应的生物标志物的免疫组学(Immunomics),筛选糖类物质的糖组学(glycomics ),筛选脂类化合物的脂质组学(Lipomics)。所有这些组学的本质就是用来筛选分子的实验方法,目的也都是在寻找更好的预测诊断、治疗、预后的分子标志物
我们今天就把用于筛选的omics说得再细致一点。从 DNA水平来筛选分子, 常用的方法是芯片和测序, 从 RNA 水平来筛选分子, 常用的方法还是芯片和测序, 检测 DNA 和 RNA 在原理基本是一样的。
芯片技术
称呼上, 检测 mRNA 的芯片叫表达谱芯片, 检测 miRNA 分子就叫 miRNA 芯片, 检测 lncRNA 叫 lncRNA 芯片, 按照分子类型来进一步分, 但其实原理上都一样, 可以归在一类。 用在高通量筛选里的测序, 一般特指二代测序, 又叫 NGS ,next-generation sequencing。
测序技术
测序是可以一次性检测, 同时挖掘出编码基因的 mRNA 和非编码 RNA 的, 所以一次全转录组测序可以获得 mRNA, miRNA、 lncRNA甚至 circRNA 的全面信息, 这在当下研究中是个流行趋势, 通过这些整合的数据你可以研究分子间的交互调控模式。
质谱技术
往下从蛋白水平筛选分子, 分离差异蛋白的方法有很多种, 到最后鉴定目标蛋白主要是质谱技术。代谢组学筛选分子, 鉴定的技术也是用质谱。
所以我们总结一下, 用于高通量筛选的方法很复杂, 但最常见的技术平台就三个:芯片, 测序和质谱,掌握了这三个平台的基础知识, 其他技术可以用到了再去查资料学习。关于芯片, 测序和质谱的常识我今天就教给大家。
芯片
基因芯片, genechip, 也叫生物芯片, 是国内比较早进入科研界的一项生物技术, 而且产业化程度相对比较成熟。在上世纪 90 年代末, 国内就有做芯片的公司了, 在 2000 年 2 月, 那时是朱镕基总理主政, 刚刚回国的程京院士在国务院办公厅科技讲座上给总理上了一课, 什么叫生物芯片, 前景多么广阔, 然后总理大笔一挥, 批示成立了一北一南两个国家级生物芯片工程研究中心。北方中心是博奥生物芯片, 现在已经发展成一家赫赫有名的体外诊断行业龙头企业, 程京院士是老大。博奥有一系列基于芯片技术的临床检验产品, 比较有市场影响力的是遗传性耳聋基因检测。南方中心就在上海张江高科技园区, 比北方中心晚一年成立的,北方中心先落地, 南方中心是响应号召后组织的盘子, 股东里面包含了中科院, 复旦, 交大这些上海最好的研究院校。2001 年 8 月宣布成立, 南方中心名字很霸气, 叫 Shanghai biochip,简称 SBC。在发展方向上, 北中心玩硬的, 做硬件, 南中心搞软的, 做技术服务。SBC 的芯片技术服务在业内也很有影响力。芯片需要大型设备, 一般不自己做, 都是找公司外包服务。
基因芯片检测的基本原理是杂交, 什么是杂交呢?碱基互补配对原则大家都知道, A 配 T,C 配 G, 两条核酸链如果序列能配上, 形成碱基互补配对, 分子生物学里面就称为杂交。芯片检测是通过一条已知序列的核酸探针, 与样品的 DNA 或者 RNA 去杂交, 配上了就释放一个荧光信号, 报告检测到了目的序列。人类基因组计划完成后, 人的基因序列都是已知的,所以可以设计许多特异性的核酸探针, 每个探针针对一个靶基因序列, 把这些探针制备在一张小的玻片上, 就可以实现一次性检出大量分子的表达数据。实际应用中, 为了防止漏检,一个基因会设计多个探针去检测, 这样需要很庞大的探针数量。芯片还有一个英文名叫Microarray, 微阵列, 就是因为一块拇指指甲盖那么大小的基片表面可以固定几万, 十几万甚至上百万个的探针, 像刷子上的毛一样, 非常密集, 这其中的科技含量还是挺高的。2000年的时候, 我记得自己还在用 BP 机, 诺基亚刚刚兴起, 智能手机还都没影, 这个时候这样的技术毫无疑问有一种来自未来的科技感。
在测序技术发展起来之前, 芯片是高通量检测核酸的主要技术手段, 芯片技术原理很简单,就是杂交, 但里面技术细节很复杂, 如怎么制备芯片、 怎么点样、 怎么保证检测的特异性等,都很有技术含量, 这些你不懂没有任何问题。医生做科研, 你只需要知道怎么准备样品, 怎么分好组, 然后送给公司检测、 付钱、 收报告就行了, 报告里面会告诉你这些分组间哪些基因表达是有差异的。芯片检测 DNA 和 RNA 是两个最常规的应用, 但是也有抗体芯片这样的技术, 用来检测蛋白。核酸相互识别是杂交, 蛋白相互识别是抗原-抗体反应, 所以包埋好一堆抗体也是可以实现高通量检测蛋白水平变化的。这些芯片都叫 Microarray, 用人肉眼都看不到的微量反应体系去高通量检测 DNA, RNA 或者蛋白, 都是基于同一种设计思想,仅仅是原理上的差异。蛋白芯片比基因芯片的应用场景要小一些, 毕竟直接用蛋白做筛选的课题应用少, 倒是在已经有分子做出了表型, 要往下游筛选调控的信号通路, 形成分子+通路的二元结构时, 用分析通路变化的蛋白芯片会更常见一些, 这个策略我们后面还会讲到。
测序
下面我们来了解下“测序” , 说到测序, 是有几种不同的技术的, 在高通量筛选里面的测序一般是指二代测序技术, 刚才说了叫 NGS, 有时候也叫 Deep sequencing, 深度测序。你必须熟练掌握这些专业词汇和缩写, 才能愉快地跟科学家们聊天。NGS 是高通量检测技术里面目前应用最广泛的技术, 你可以不懂芯片, 但你至少要了解 NGS, 芯片能干的活 NGS 基本都能干, 而且表现更加出色。测序既然有二代, 自然就有一代, 完成人类基因组计划第一个人的全基因组测序就是用的一代测序技术, 花了 13 年, 现在用二代测序同样工作量平均不到 1 天就完成了。平常我们做分子实验时, 构建好质粒之后说送个测序, 就是指一代测序。一代测序的原理叫双脱氧末端终止法, 知道这个名词除了装逼没有任何用, 因为一般人都叫Sanger 测序, 发明人是 Frederick Sanger, 一位拿了 2 次诺贝尔奖的大神。1958 年 Sanger 因为测定胰岛素分子结构获得诺贝尔化学奖, 1980 年, 又因为发明 Sanger 测序法再次拿奖,要多拿奖一定要身体好, Sanger 大师活了 95 岁, 2013 年驾鹤西游的。我查过拿了两次诺贝尔奖的一共就 4 位, 两次化学奖的就这么一位, 人称基因组学之父, 没有测序技术就没有基因组学的发展。Sanger 测序原理是 DNA 先扩增, 然后通过毛细管电泳再去识别序列, 费用相当便宜, 一个反应二十块钱, 能够读差不多 800 个碱基。一代测序基本是跟 PCR 一样是一个常规的分子生物学技术了, 不仅是科研领域, 现在临床检验中也有不少应用, 检验科基本都有测序仪设备。
一代测序是一个个碱基检测的, 二代的思路就颠覆性的进了一步。二代是真正的高通量测序,采用大规模平行测序的思想, 而且是边合成边测序, 在 DNA 合成过程中把序列信息得到。具体来说就是用不同颜色的荧光染料标记 4 种不同的核苷酸 ATCG, 这样当 DNA 聚合酶合成模板链的互补链时, 每添加一种核苷酸就会释放出与之对应的荧光信号, 捕获荧光信号再经过计算机处理就可以获得 DNA 的序列信息了。为了实现高通量, 所谓的大规模平行测序就是在处理样品的时候是把待测的 DNA 随机片段化成几百碱基甚至更小的片段, 这个过程叫“建库” , 同时要在序列两端加上接头, 这样同时测很多短序列, 然后把短序列再利用接头拼接起来, 多线程工作, 效率大大提高。大家注意, 就算是检测 RNA(转录组测序) ,也是把 RNA 反转录成 cDNA, 然后再片段化并加上接头。实际上测序测的还是 DNA, DNA比较稳定。
当然现在市场上还有叫三代, 甚至叫四代的测序技术, 别慌, 其实三代四代原理上类似, 在NGS 之后确实出现了一代颠覆性的技术, 2008 年就有了第一台商业化的产品, 叫单分子测序, Single molecule sequencing, 简称 SMS, 或者二代是 NGS, 三代,third, 那就叫 TGS,也可以。 前面一代, 二代都需要用 PCR 扩增的方法放大信号, 然后再检测。 而单分子测序不需要扩增, 就相当于用仪器实时观测 DNA 聚合酶复制 DNA 的过程, 并把碱基信息记录下来。 这样反应速度特别快, 一秒 10 个碱基, 而且一次反应能测非常长的序列, 精度也很高。 可能有同学会说, 这么颠覆性的技术怎么没把二代给干掉呢? 事实上, 二代也没把一代给干掉, 各有各的用法。三代的问题目前是贵, 虽然你准确率高, 贵的有道理, 但是你还是贵。杀鸡的时候牛刀暂时还用不上, 常规高通量测序需求, 优势体现不出来。二代的通量已经到了测序工厂的阶段, 就是富士康流水线模式, 三代还在科研实验室应用阶段, 成本没法比。现在市场上也有号称是四代的测序技术, 怎么回事?其实四代是一种不同原理的单分子测序, 叫纳米孔测序技术, 无非是把人家用光信号捕获的单分子测序变成电信号报告, 就这点原理上的差异。我个人认为这属于单分子测序的技术分支, 而不是一代全新的颠覆性技术。所以三代, 四代, 都是单分子测序的技术原理, 逐渐的在科研上也都有应用, 这些技术发展很快, 值得我们关注。
生信分析为什么越来越火?

最重要的愿因是性价比高。一方面,各种公开的免费生信数据库和生信可视化分析工具越来越多,即使没有课题经费,按差异表达、聚类分析、交互网络、临床意义四步走做一套生信分析,也能无中生有发一套生信文章。另一方面,随着高通量测序成本的不断下降,测序公司还打包了常规分析,基本上就能满足一篇文章的工作量,有越来越多的医生或者研究人员也慢慢也能做的起各种组学测序了。
还要一个原因是生信发章仍被各个医院/科研机构所认可,不少医生和医学生有动力选择用生信文章作为毕业和晋职称的敲门砖。发基础科研与生信分析类文章没有被差别对待,而且这两者之间也没有明显的界限。第一呢,生信文章是属于article而非review的,属于正二八经的实验类文章;第二点,生信文章和基础科研的界限很难完全界定,比如生信分析中加了免疫组化/WB的验证,也是可以归类于基础科研的文章;第三点是一个小心机了,生信文章的题目起的隐蔽一点,没有TCGA或者GEO这样的词汇,一般是很难区分是生信文章还是基础科研文章的,申请基金的时候,也能当作article列在代表作中的。
然后说到生信分析的作用与分析流程
在我看来,生信其实解决了四方面的筛选和预测,筛关键分子,筛关键机制,筛互作分子,预测临床意义,我把它概括为“挑圈联靠”四字口诀。生信分析的步骤也常按这四步走,其中某个模块省略或者四个模块的顺序略有调整和不同模块间进行组合也是可以的。
挑,是指的表达差异。正常样本与疾病样本之间的差异,疾病不同演进阶段的差异,癌旁组织与癌组织之间的差异,不同平台技术样本来源检测方法之间的差异。表达有差异,是研究有意义的前提。通过这一步挑,可以筛选出实验组与对照组之间差异表达的关键基因,或者缩小范围找Hub gene,预测潜在的biomarker。
圈,是指的聚类分析。聚类分析有两大作用,一个是对数据集样本质量的检验,就是检验所有研究的样本混在一起之后,不同分组之间的样本能否区别开,同一分组的样本能否很好聚在一起,是不是不同的数据集混在一起也能区分开不同的分组,有没把不同分组的样本标记混淆,以此来检验批间差的去除,或者数据集的样本的质量情况。一个是表达和功能的聚类,就是将获得的基因列表或者基因表达矩阵,把具有相似功能的基因放到一起,和生物学表型关联起来,对生物学功能/相关的通路机制进行预测分析。
联,是指的交互网络。交互网络有两大类。其一是化合物与分子的调控关系,可以预测药物小分子的作用靶点、耐药靶标;也可以反过来由靶标分子反向预测可能作用的药物小分子;一类是分子与分子之间的间接直接调控关系,可以预测蛋白-DNA转录因子的DNA结合位点,可以预测蛋白与蛋白之间的共表达网络、邻近基因网络、相互作用网络,可以预测RNA与RNA/DNA/蛋白的直接或者间接的相互作用。
靠,是指的临床意义。临床意义包括三表一图的统计性分析,也包括构建临床预测模型的预测性分析。三表一图包括,基线资料表、单因素、多因素、生存曲线图。临床预测分析主要是对于预后、诊断、复发三方面的预测分析。
生信分析有三个不唯一原则

分析结果不唯一
不同测序平台,是illumina还是华大,是不是同一台仪器上级测序;不同的样本来源,是来自组织、细胞还是血液,样本量的多少,是不是同一批次上机,甚至不同的季节都会对结果 有影响;不同数据库在线分析或者R包分析算法、设置不同阈值的筛选标准,都会导致分析结果的不唯一。比如差异表达分析,有三种R包可以分析,limma包,edgeR,Deseq2,还可以用在线分析数据库GEO2R或者Networkanalyzer进行分析,结果都并非一样。再比如筛选差异表达基因阈值的设置,阈值也并非固定不变,也要根据实际分析情况筛选到的基因数据再在合理范围内调整具体,只要文献中有报道的依据的阈值,就可以采用。这种情况,没有确定的答案。解决办法一是尽量剔除批间差batch effect,尽可能矫正不同数据集之间的偏倚;一个是数据分析前,认真阅读R包说明书或者数据库说明,根据样本量和测序平台情况,尽量选择最符合目前分析的R包或者数据库分析选项;一个是选择某一个高分文章普遍采用的认可度较高的分析方法,或者多个分析算法/多个数据集合并之后取交集结果。
实现路径不唯一
在生信分析中,解决一个生信分析的方法并不是唯一的,如果一条路有bug走不通,就试着选择其他的分析方法,要学会曲线救国。如果数据库的功能改版了,就尝试用别的替代数据库或者R语言分析;如果R包分析的报错解决不了,就尝试用分析软件;如果实在不会用R语言编程,在线分析数据库也能解决很大一部分生信分析问题。遇到生信分析的难题解决不了,不要在一处卡死,及时用其他替代方案解决。比如GSEA的软件分析有报错,可以尝试用富集分析的R包clusterProfiler进行分析;如果GO/KEGG富集分析不会用R语言,可以尝试用DAVID或者metascape数据库进行可视化分析。甚至cytoscape也有专门富集分析的插件ClueGO+CluePedia进行分析。可谓是条条大道通罗马。
呈现方式不唯一
同样的一个分析,用figure呈现或者用table呈现都是可以的,不过一图胜千言,能用图展示的尽量用图展示,表格可以适当用于补充图中没有呈现的信息。再比如临床相关性分析,我用点图行不行,我用箱式图、小提琴图、蜂窝图行不行,我用点+箱+小提琴图的组合行不行,答案都是可以的;再比如GO/KEGG富集分析,就有十余种可视化呈现方式。也有学员反映,生信体系课中,同一种分析,操作是达到同样的目的,为啥还要学各种步骤,是为了炫技还是搞高难度动作?其实呢,相同的目的,用不同的可视化形式来做,一个教大家看懂不同的可视化都解释,不然在文献里看都未必能看得懂;另一个,实现了相同的分析目的是教大家通过用不同的方式,通过数据库分析或者R包改参数实现可视化结果的变化,锻炼R语言的作图能力,加深对这个分析的理解。第三,是避免生信分析可视化形式的趋同,如果几万人学员大家都学的一模一样的分析,一样的审美,难道你们就不担心自己辛辛苦苦做出来的图表也像论文加工厂嘛?我们本着教内容要教透的原则,每种分析的可视化都教,大家根据自己的需要,选择自己能Hold住且符合自己taste的形式,选择适合你的路,避免大家的分析都千篇一律了。
生信学习分道和术的学习两方面

通过道的学习,构建生信知识体系的顶层架构。在模块化的逻辑方法指引下,参照文献案例来分辨出哪些数据分析模块再组合,怎么通过变量变化来形成套路化的文章。
道的学习,我会用这二十策的生信逻辑课给大家一一梳理,同时大家也可以参看我在《生信体系课》上篇的导学课(相同课程参见B站的生信知识体系逻辑思维课程《闭门十日,我研究破解了生信文章模块化的套路规律》)。
术的学习可以参考解螺旋生信体系课上下篇,上篇专注于解决数据库和软件学习的难题;下篇专注于教授应用R语言进行常见的生信分析。另外精品课里还配了《R语言基础:高效数据清洗》和《SCI论文绘图之道》两门课分别为大家的R语言数据清洗和可视化绘图的功底打基础。
通过术的学习,掌握生信分析的基本操作方法。生信分析的数据来源一般包括三部分,从文献里面的下载到了原始筛选数据,自己的测序数据,公共数据库。生信分析需要的技能包括数据库和软件、代码编程学习三部分。
公共数据库比较权威的有隶属于 NCBI 的 GEO,NCBI (National Center for Biotechnology Information) 是美国国立生物技术信息中心, 下属有很多好用的数据库和工具, 其中 Pubmed 是我们常用的论文数据库, GEO 是一个存高通量数据的仓库。里面像检索文章一样, 输入关键词就可以得到 GEO 里匹配的研究文章列表,找到你感兴趣的就可以下载这些文章里的筛选数据。GEO 数据库还提供了在线的分析工具GEO2R, 可以利用这个工具分析获得的差异基因列表。通过这些操作, 你已经跟前面自己做筛选的同学们站在了几乎同样的起跑线上。做肿瘤研究的同学们更加幸福, 还有专门的疾病样本数据库, 最权威的是 TCGA, 比较方便易用的是 Oncomine, 这些数据库使用我们有单元课配套, 大家在后面的课程里可以学习如何使用。肿瘤的数据库最丰富, 一些其他常见疾病也有相应的数据库提供高通量筛选结果, 我推荐一个数据库的索引网站, 叫bio.tools,收集了上万个生信数据库以及生信相关的R包, 大家可以在里面自己找。
大家学习数据库,一个是学习如何用现有的生信可视化网站,进行检索预测或者一站式出图。常见的数据库包括GEPIA, Cbioportal, Oncomine, KM-plotter,Timer等。还有一方面是学会如何在生信分析网站上,下载基因的测序数据、临床患者资料、预测分析的结果,再用软件或者编程语言进行二次分析。常见的数据库包括GEO, TGCA, ArrayExpress这类数据库。
学习软件,临床医生在软件部分主要学习Cytoscape和GSEA这两个软件。Cytoscape这个软件,是绘制互作网络的神器,有很多对网络进行优化的插件,比较出名的包括MCODE, cytoHubba,在进一步筛选hub gene(关键基因)方面几乎必用的软件,学生信必备技能。不过只要静下心来学习实操,最多半天就可以搞定。GSEA这个软件,顾名思义,可以搞定GSEA分析,不过如果R语言编程学的够溜,用R语言也可以解决。
编程部分有很多学习的选择,可以学习R语言,Perl, Python,JAVA, Linux 等。不过对于医学生来说,学好R语言就够用了,编程语言够简单,网上教程足够多,而且有很多关于生信研究的R包可以直接用,有很多代码也是现成的,自己根据自身情况学着改一改也能分析。拿到基因的表达矩阵和临床统计结果后,只要了解R语言基本语法,找好相应分析的代码,能根据实际情况调整参数,就妥妥可以解决。R语言学习能力强的,也可以试着自己写代码。对于部分有追求而且实验室有服务器的小伙伴来说,可以再额外学一下Linux。Linux可以解决测序之后从上游原始数据进行分析的难题。自己一条龙做下来。能做到这一步的,已经是医生群体中的佼佼者了。
R语言学习要解决四方面的难题
第一呢,要了解基本的R语言的语法规则;第二呢,学会根据自己实际情况,用R语言进行对现成的代码调整好参数;第三呢,学会用R语言进行简单的数据清洗、统计分析、可视化作图;第四点,学会用R语言解决生信中的具体问题,比如免疫浸润的相关分析,基因组中常见的TMB该怎么计算等。
R语言的学习,一个是推荐两本经典的R语言学习书,《R数据科学》和《R语言实战》,了解R语言的基本语法、常用R包。对着书一页页看下来,跟着实操敲代码,写笔记进行总结,往复2-3遍下来,基本上就能把R语言掌握的差不多了。如果觉得这样一步麻烦,也可以直接参考解螺旋的R语言教程,大大缩短了R语言学习时间;另一个,遇到一个常用的R包,要学会看R包的说明书,了解R包可实现的功能,以及每个参数的具体含义,根据自己的情况调整参数。
如何选择最有效的生信学习的学习路径呢?

任何的学习路径都有其相似之处,都是遵循了解学习-模仿复现-搜索交流-花样翻新四步走。
第一步:了解学习
可以通过学习解螺旋生信体系课,关注一些生信公号,阅读生信相关文字和视频教程,在脑海中对生信有一个初步的印象。了解生信是什么,怎么用,如何用,哪些对我有用,我想学习哪些生信技能,预计多长时间。同时大量输入学习生信。可以通过学习生信逻辑二十策,了解生信的基本分析套路和宏观逻辑框架,再配合阅读生信相关的文献,学习解螺旋相关的生信文章复现的文字和视频教程,再按图索骥,根据文章内容学习自己不会的生信分析。
第二步:模仿复现
根据已有的教程,按照从易到难,对生信文章进行复现分析,不求完整复现,但求能一步步按正确的方法操作下来。谁又知道是不是原文作者的操作失误,或者数据库更新改版呢?总之,没有必要追求完全一致,即使某个更新的数据库的功能去掉了,插件安装不上,也没必要就一直纠结在这里。生信分析的路径不唯一,总有其他的替代方案。如果你不是为了给死对头原文作者打假的话。如果抱着学习的目的,学习分析技巧为先。
第三步:探索交流
操作过程中肯定遇到很多bug或者自己不理解的地方。这时候要先学会搜索引擎检索,有遇到的报错或者难题大多数都是在百度中可以搜索到的,如果百度搜索不出来,换个浏览器也可以。搜索页的前五页,一般总能找到你需要的答案。如果最后还是检索不到问题的原因所在,这时候就要发挥网络平台和社群的力量了。而且解螺旋为所有购买过生信体系课的小伙伴都建立了琼林书院,有助教长期为大家答疑。总有一款总能帮你找到问题的解决方案。
第四步:花样创新
根据最新的研究热点,根据现有的模块逻辑和科研热点,进行新的迁移应用分析。比如最近的新冠疫情,不同场景的再应用,也催生了不少相关的生信文章。还有多组学分析、泛癌分析、m6A甲基化分析、可变剪切、SNP分析等等。都可以再排列组合地分析,只要言之成理,符合统计学原理和挑圈联靠的论证逻辑,自己能圆成一个完整的故事即可。
学习能力的差距:
生信高手有哪些学习习惯?
接下来,我们聊一个最基础的话题,生信高手是怎么炼成的?
换句话说,生信核心能力成长的底层逻辑是什么?
很多人可能觉得自己在生信这件事上投入的时间和精力够多了,就是因为“笨“或者没有这块学习代码的天赋。可事实真的是这样吗?
一提到生信学习,大家总是习惯性的想到这些事情:
多看文献,多看代码,多看教程,多听多看多问多做
只要多听,多看,多问,多做,就能迅速上手生信了吗?那到底生信学习的捷径在哪里呢?
【划重点 】直接说答案,生信高手的底层逻辑在于:刻意练习。


什么是刻意练习呢?
著名的心理学家埃里克森在”专业特长科学“潜心几十年,研究了一系列行业或领域中的专家任务:国际象棋大师、顶尖小提琴家、运动明星、记忆高手、拼字冠军、杰出医生等。他发现,不论在什么行业或领域,提高技能与能力的最有效方法全都遵循一系列普遍原则,他将这周通用方法命名为”刻意练习“。为此著作了这本书《刻意练习》。这本书的核心观念就总结了一句话:高手,都是练出来的。
刻意练习,是专门为了”提升能力“而设计出来的练习方法。刻意练习,有四个必须要素:套路,非舒适区、重复、反馈。
首先来说套路练习
套路就是门路,门在哪,路在哪,别人都摸索明白了,而你不知道,别人告诉你一套门路,你去学习了就能按图索骥,不进错门不走弯路,快速到达目的地。
专业人士在基础训练的时候,学的都是套路,比如围棋的定式,编程的算法,数学的公式,物理的定理,都是套路。
对于生信而言,套路主要讲课题设计。
生信的研究套路就是把生信类的文章大量拆解,拆解成各种模块化的要素,有哪些恒量有哪些变量,有哪些加加减减的排列组合,有哪些逻辑链接,掌握了这些,基本上可以完成一个生信课题的设计。
第二个关键要素:非舒适区
如果你想成长,在生信领域有所精进,需要跳出舒服的,自动做事的范畴,对标高手,不断挑战难题,才有机会成长。
在生信研究方面,比如同一类文章套路,你用零代码的方式发表过几篇文章,下一步就需要考虑研究复杂度的升级,不要老是沉迷于老套路,去追一些高分生信文章的课题设计方式和分析方法,争取发表影响因子更高的SCI文章,申请更高规格的课题。沉溺于过去的成功经验,并不能代表未来你能始终追赶上生信研究套路的新趋势。
第三个关键要素:大量重复
重复是无聊又是必须的,大量重复有利于你形成肌肉记忆的条件反射,以及对套路内核更深刻的理解。
在解螺旋生信部面试的时候,我们的技术主管总喜欢问面试者一句话,你一共写过多少行代码。这个问题的本质其实就是问代码的功底的最粗略的评估。
早年间,雪球在网上学生信的时候,也认识了几个生信大神。他们的生信入门之路都如出一辙,都是比着几本R语言书《R数据科学》《R语言实战》整本书的敲代码敲了几遍。如果想写好R语言代码,离不开对常见统计学分析、可视化图表的常见代码的反复练习。多敲R语言代码,练手感的重要性,就好像你在学习武功的时候,练习蹲马步一个道理。
第四个关键要素:反馈
你在做的过程,需要拿到反馈,告诉你下一步怎么调整。反馈就是起到教练的意义,能以旁观者的角度提供及时反馈。
不管在练习任何技能或提高能力,大部分人很容易陷入自我而不察觉。相对于球类运动、围棋,科研比较特殊,很难有专门这样的【高水平的教练】。
解螺旋正是通过大量的课程、生信讲席营,各种主题的训练营,都配有助教老师,就是为了帮助大家及时反馈。
我们希望大家用科学的方法去做科研,用更高投入产出比的正确姿势更快学好生信。
总结一下,生信高手都有个刻意练习的过程:套路、非舒适区、重复、反馈,缺一不可。
最后,别忘了领取免费的2376页新版生信文章复现手册:单细胞、肿瘤免疫、干湿结合、m6A甲基化…应有尽有,十分适合有生信学习需求的朋友。附赠我的8天领悟5分医学SCI训练营,点击免费获取

回复 支持 反对

使用道具 举报

发表于 2025-1-5 16:52 | 显示全部楼层
原回答2021/01/20
截至目前:
Perl没学
Linux没碰
上过的R语言课程只记得t、卡方、F检验
Python是工作半年来自学了两周却又丢下
一个组学分析项目都没做过
生物学知识也忘得差不多

生信工程师过来强答

哈哈哈,梳理了下我自己都笑了,我这怕是学了个假生物信息。
教育背景:本科生物技术,硕士生物信息。
现在呢,工作是在做生信智能化分析平台的开发,至于用什么软件,目测是Python,不过还在前期的项目规划阶段,代码不怎么敲。

说这些的意思是,很多时候不用想难不难的问题,想了解就去了解、想做就去做
你看我这都转生信三年了,生信专业的很多软件都没学、分析技术大多都不知道,对基因组学的认识可能也只剩下四个碱基和PCR技术,但也不影响当下我在一个生信岗位上。
没有谁规定生信这条路的学习就该是怎么样的、难度有几丈高,关键是你的选择会把你导向你会去的地方。

我硕士实验室,有很多像我这样生物跨考到生信的,毕业后就业,也没有都进入华大基因、诺禾致源等公司做“正统”的生信,直接转it的有,研究方向和医学能扯上关系,毕业进了医院的也有;学了皮毛分析的,疲惫于整日的分析项目,最后转了技术支持;还有一毕业就进了外贸行业的;当然当老师考事业编公务员的也不在少数。
都挺好,各从其欲,皆得所愿。就算是奔着生信行业薪资来的,那也多好,直接开学就好啦,能学到哪个程度就到哪个程度,万一有一天您找到另外发财的路嘞,那我要说一句:苟富贵,莫相忘。

<hr/>更新2023/01/04

距离上次回答过去两年了。
这两年,Linux、python都用起来了,生物医药知识也突飞猛进,对药物研发、医药市场也有了一定的认识。
要说有啥新体会。大概是,技术果然是最简单的(仅对普通人工作而言,而非去突破专业难题),几个月基本操作都能get。
工作是面向项目,对项目的理解和抽象同样也考验一个人的能力。技术是工具,从底层原理和应用角度去学习,才能不被大量语法、规则所累。
主旨思想还是和之前一样,转行就转行,太多百转千回或悲壮的情绪有损士气。
微小的勇气胜过丰厚的知识。
祝大家都有面对生活的勇气。
回复 支持 反对

使用道具 举报

发表于 2025-1-5 16:52 | 显示全部楼层
如果要做一个总结,难也不难。
不难是因为生信入门简单
我带过好几个零基础的学弟学妹,不会linux也没有接触过编程语言,带着他们做了一点项目,两三个月就可以算入门了。从时间上来看上手生信还是非常快的,也不要贪多,按照产品的MVP思维,先把最重要的学会。
那什么是生信中最基础最重要的呢?
小米加步枪,linux+R语言+统计+项目
linux(2-3天)
R语言(1个月入门)
统计(配合医学统计学2-3个月看完)
项目(看个人资质1-2个月)
前半个月把R语言语法、linux常见命令,二代测序原理拿下,然后做一个转录组项目,把技能线上最常用的点串联起来。在这个过程中精读R语言和统计学教材。
如此下来:两三个月入门生信
难是生信的上限很高
很多学弟学妹们在我带过以后确实很快就能够开始做一些生信组学相关的项目了,但要想更加精进,需要掌握的东西还非常多。尤其为了面对复杂多变的社会,只会一两种组学分析是远远不够的。
我建议是把一种组学分析作为看家本领,再向外拓宽。包括RNA-seq、Chip-seq、ATAC-seq和Hi-C等。
是不是说生信就是组学技术呢?那就太狭隘的看待生信了,生信要做的东西很多,大部分还是围绕生物学意义而来了,在医学、药物研发等方面也有重要应用。因此后续的学习更加依赖于实验室的研究方向。
比如是做计算机药物模拟还是做组学分析还是做软件算法开发都有可能。
无论哪一个方向深挖都是需要很强的数学基础和统计学基础的。而这些绝不是一朝一夕可以速成。李航的统计学习方法和周志华的西瓜书可以作为这个行业进阶的入门书籍。
如果你的大学数学不过关,那么至少要对线性代数和概率论有所涉猎。
与此同时,我还建议要多读文献,为了研究这个领域至少需要精读10篇以上,粗读50篇以上的文献。丰富的生物学知识是生信赖以生存的基础。
当然做生信尤其是作为研究生做生信不止是技术上的突破更多的是思维上的进步。不要舍本逐末
你需要有更加敏锐的目光去抓住前沿科技,你需要有极强的逻辑能力来精心设计你的实验。你需要有善于思考提出问题的能力……
这些软实力远远比技术更加重要,他们才能决定你走的远不远。
我在做科研期间最感谢两本课外书,对于我思维的训练居功至伟
训练思辨能力,质疑精神
训练结构性思维
这是一个长期的过程,需要你刻意去训练。
说这些并不是为了劝退,只是我想把前方的困难说的更加明白一些,需要训练的东西全部都告知于你。
这里我并没有做更加详细的如何学习的描述,详情可以参考我下面的回答:
张一柯:如何自学生物信息学?做生信希望有些人可以跳出来不仅仅只会初步的组学分析,更多的是熟悉他的数学原理。凡事刨根问底,没有坏处。如果做组学分析我自己整理了转录组宏基因组和代谢组的一些资料,持续更新中,可联系。
无论最终选择什么,无论是否能够在这条路上走的更远,希望能保持对于一个行业的热枕,持续前行。能够终身学习,人生是场马拉松,一直奔跑,前行的路不会远的,最多不过是大器晚成。
回复 支持 反对

使用道具 举报

发表于 2025-1-5 16:53 | 显示全部楼层
转型的话,要趁早,下苦功夫。否则随着各种云平台,ChatGPT的出现,基础的数据分析岗只会越来越少,科班的人都挤破头,留给转型的人机会就更少了。
可以看看UseGalaxy中国镜像站:
Galaxy | China随着这类生信云平台的出现,生信分析的门槛是越来越低了。
<hr/>
这个问题像是为我量身定做的,必须来答一波,希望给新人一点参考。
本人生物本科,后来考研转型生物信息学,毕业后在企业担任生信工程师,现在为北京一家创业公司的生信负责人。
转型总的来说,不容易。你必须要有兴趣。必须要热爱生命科学,才能长期坚持,有什么疑惑,可以咨询我。
就收入来说,生物实验 < 生物信息 < IT。当然指的是技术岗的普通技术人员。
高级技术人员和管理岗任何行业都有高收入。
21世纪是生物的世纪,这个口号喊了这么多年,但是普通生物专业的就业形式之差有目共睹。
而这个口号对于生物信息学来说,有那么一点像了。因为随着测序技术的发展和测序成本的下降,生物行业正在进入大数据时代。
为什么说生物信息学是真正的大数据专业?生物信息学,或者说是测序技术,目前主要应用于科研、临床以及司法鉴定等。
科研方面。虽然已经有很多物种的基因组已经破译,但相对于地球上庞大的物种数量来说,仍是九牛一毛,路还远得很。
临床方面。肿瘤基因检测、微生物基因检测、无创产前诊断、胚胎植入前诊断、基因遗传病诊断等都很热门。
上面大致讲了行业的现状。下面再来聊一聊难不难。
这个得看你对自己的要求,或者对收入的要求。是
初级,脱离实验岗,目标是地区平均工资。不难,掌握基础知识,会跑现成流程就可以了,做一个执行者。
中级,能带新人,目标是地区平均工资 2 倍。有点难,需要会写脚本、科研画图、掌握常用生物信息学软件和数据库的使用。
高级,进入中、上管理层。难,需要懂算法,能抓住市场的需求并通过代码去实现需求,并有一定的管理能力。
所以说难不难,跟个人是不是对技术有执著、或者家里有没有矿有关。
因为太多新人面临转型的困惑,我花了不少时间整理了生物信息学的学习路线图,你可以参考下。
如何自学生物信息学:从菜鸟到专家生物信息学需要的 Linux 知识,我也整理放在了这篇文章里。
生信人的自我修养:Linux命令速查手册我转型的经历以及心路历程。
一个生信人的自白:从生物转生信,我的学习与工作经历最后祝你学习进步!
回复 支持 反对

使用道具 举报

发表回复

您需要登录后才可以回帖 登录 | 立即注册 微信登录 手机动态码快速登录

本版积分规则

关闭

官方推荐 上一条 /3 下一条

快速回复 返回列表 客服中心 搜索 官方QQ群 洽谈合作
快速回复返回顶部 返回列表