金桔
金币
威望
贡献
回帖0
精华
在线时间 小时
|
先上结论:生信乃至广义的CS产业,如果你想在技术(非管理)职业线上往高端走,博士生涯中具体项目的训练几乎是必须。建议读一个。
生信主要有两个方向,一个是偏数据分析方向,一般要求:
- Linux要入门乃至比较熟练
- 要么熟练使用Python(pandas,numpy,scipy,matplotlib/seaborn),要么熟练使用R
- 统计学要会比较简单的那部分(正态分布,学生t检验,方差,数学期望等)
第二个是数据挖掘/机器学习方向,除了以上的要求以外,还需要:
- 理解数据结构与算法核心内容(表,栈,队列,树,图,排序,哈希)
- 理解凸优化核心内容(凸集,保凸性,常用的优化算法,它们的收敛速度和准确率)
- 熟练掌握原理并运用传统的机器学习算法,主要是线性模型(线性、逻辑、FM、FFM)、树模型(单棵决策树、GBDT、RF、XGBoost)、距离模型(聚类、KNN)这三类。概率模型(朴素贝叶斯,隐马尔可夫等)和深度模型(各种神经网络)看情况。
- 概率统计基础必须要很牢固(极大似然估计、协方差、卡方检验、ANOVA等都要会)
- 熟练掌握数据挖掘基础(数据清洗和特征工程)
- 会用Sci-kit Learn
额外的加分项:
- 会C++
- 会SQL
- 会用TensorFlow、Pytorch、Caffe等框架之一
- 如果还会写网络爬虫那就是大加分项,如果会异步爬虫那就更好了
- 如果还会大数据(Hadoop/Spark,Java/Scala),大牛
- 如果再会点前端(HTML/CSS/JS),神牛
我本人是做第二个方向,所以谈得多一些。数据挖掘方向,一般会优先招博士,招硕士那也是很优秀的有项目有文章的。数据分析方向,硕士学历够,这方面的博士会强化生物学背景,主要是解读数据的能力,这个不经历一定的科研训练量做不到,所以如果你对生物学问题有兴趣的也可以深挖一下。不管哪个方向,博士都比硕士值钱不少。
生物学基础知识,取决于你做的是何种生信。生化分生一般肯定要学。做计算免疫的必须修一下免疫学,做计算神经的必须修一下神经,做植物基因组的,最好修一下分子植物学。开卷每每有益,有时间的话多修一点生物学的课不是坏事。 |
|