金桔
金币
威望
贡献
回帖0
精华
在线时间 小时
|
干湿结合吧,生信也有鄙视链。跑流程是最底层。
最好数据库,html等都会。不光是会流程。
不想搞算法比如开发新的比对算法,工具这些。可以从上游配置linux服务器开始到下面制定个性化分析流程,生成个性化分析报告啥的都要会。湿实验也要会,最好是自己就有开展独立课题的能力,又会生信,这样才有比较强的竞争力,你光跑跑流程就是为了别人做实验服务的,自己没有开展独立课题的能力也不行。
完事开头难,linux,python,R都要学的坚实一点,数据类型,结构,环境变量,配置最好都搞搞清楚,啥都不懂直接跑流程稍微有点不对的自己就解决不了了,没有意义。基础好一点跑流程是最简单的,别认为会跑流程就会生信了,背后还有很多知识要学。光二代测序真正了解的在搞生信的里面90%也不清楚。
能学多快学多快吧,其实人学习速度真的很快的,别制定计划说是多久学会WES,多久学会R。你就按着一天把R基础学会这种速度为目标学就行了。最后的目的是为了用。有一定基础学会学习方法之后有什么新的技术出来就是现学现用了,学习不是目的,应用才是目的。
统计也尽量多明白明白,否则都不知道自己干啥,只知道P<0.05就显著,连P值矫正是干什么都不知道。
数学计算机基础好的,可以向算法工具开发方向发展。
再更一点吧,真想做生信一定的计算机基础肯定是需要的,只有在跑流程的过程中才会切身体会到数据是怎么一步一步提取到想要的信息的,前提是认真了解流程。但是这个学习一次明白了就可以了,明白这个并不能让你产生成果,最终要落实在解决生物问题上。比如R作图,现在很多网站都是很简单的一键出图,效果还比你自己画的好,还快。分析流程都是工具,工具的发展方向肯定是越来越易用的,最好是傻瓜式操作。
但是这个并不代表随着人工智能的发展生信就完了,没用了。对于半吊子只会跑流程的那确实可能不需要了,人家做实验的也能随便出个图。以后算力网速啥的比现在提升很多,说不定网站上直接能上传fastq文件一步分析了。环境都不用配置。现在跑个snake make起码还要配置配置环境。但是你如果真的懂数据是怎么被分析出结果的,结果不符合预期如何调整流程提取更多对你有用的信息。那你不用担心。
总之一般做生信的,建议生物更要懂,不能把生物问题放在次要位置,技术更方便对于做生信的也更方便了不是,你真正懂是不会担心被AI替代的。
总是开发工具、算法算一个方向,跑流程不能算一个单独的发展方向了,跑流程的必须学好生物,从解决生物问题出发。
其实就是两个职业,制造工具的和使用工具创造生产力的都有前途。但是仅仅是会使用工具是没有用的。
AI发展太快了,现在做科研不用AI我感觉就是落后的生产力,很多工具真的提高效率,github copilot,各种定制的GPTs,现在甚至可以做到个人定制一个GPTs上传数据表格后直接一句话生成最后的分析报告自动发送给客户邮箱。
新工具新方法只会原来越多,一定要有持续学习,拥抱新技术新方法的态度。
个人建议人工神经网络的训练流程每个人应该跑一遍明白一下。
使用AI提高生产力的前提是你真的懂核心问题,能够指导AI,而不是放弃思考让AI指导。
生信学习顺序简略概括:
linux conda 上游流程要用
R 下游数据分析,作图
python 数据分析,比如现在单细胞流程python可能会越来越流行,也是之后学习神经网络的基础
试着跑几个流程
RNAseq
WES
sc-RNAseq
自己写脚本,R,python, shell脚本。
流程工具snakemake WDL(主要是GATK的,可选)
docker 容器(可选)
机器学习常见算法
人工神经网络学一学,流程跑一遍,pytorch jupyter
统计学多学学,卡方,fissher,泊松,t检验,配对检验等。要理解本质,别只知道计算P值。
比如抽样是样本均值估计总体均值,抽样的均值的P值要在均值的分布里面计算,不是总体的分布。均值的分布和总体的分布区别就是t分布的自由度。
双样本t检验中什么影响显著性,信噪比,信噪比是什么,噪音计算公式是什么,噪音太大淹没了信号,就不显著(样本方差太大)
再比如fisher精确检验怎么就精确了,因为是相比于卡方检验从总体中抽样来说,fisher精确检验是基于超几何分布计算每种情况的概率,所以是精确。
基础知识,测序原理,否则你连vcf文件里面参数是什么意思都不知道。
有兴趣可以开发新工具,新的神经网络预测模型,算法。
生物学知识。
看官网文档,达到一定境界了,慢慢修炼吧
建议先把毕业要求达到,真热爱的话学习是一辈子的事情。 |
|