金桔
金币
威望
贡献
回帖0
精华
在线时间 小时
|
据我观察,生物信息与其他生物类方向的毕业生的差异,主要在于:
- 做生物信息的研究生,主要习得“生物信息分析”技能;
- 其他生物类方向,主要习得“分子生物学实验”技能。
为了回答这个问题,我专门去猎聘网注册了一个账号,使用这两个关键词来检索。由于得到的结果较多,我使用了两个条件来筛选:
两者均得到了100+个检索结果。
为了比较两者薪资的差异,我用python脚本提取了检索结果的前5页,统计两种岗位的薪酬平均值和标准误,得到的结果为:
- bioinfo: 10.96±0.41(单位:千元)
- molecular: 7.66±0.26(单位:千元)
结果表明,两者的岗位数相当,生信岗比分子生物岗的月薪多出约3k/月。
代码:
import re
import numpy as np
# 每个检索结果的前五页,手动另存为html文件。
# 生物信息:生信/{page}.html
# 分子生物学:分子生物学/【广州招聘信息_广州人才网招聘信息】-广州猎聘{page}.html
job_list = []
job_list2 = []
for page in '12345':
print('page', page)
a = open(f'生信/{page}.html', encoding="UTF-8").read()
jobs = re.findall(r&#39;<div class=&#34;job-info&#34;>.*?</div>&#39;, a, re.S)
for i in jobs:
position = re.search(r&#39;<h3 .*?<a .*?>(.*?)</a>.*?</h3>&#39;, i, re.S).group(1).strip()
try:
salary = re.search(r&#39;<p class=&#34;condition clearfix&#34; title=&#34;(\d+)-.*?&#34;>&#39;, i).group(1)
except(AttributeError):
print(i)
job_list.append((position, salary))
for page in [&#39;&#39;] + [f&#39;-第{i}页&#39; for i in range(2,6)]:
print(&#39;page&#39;, page)
a = open(f&#39;分子生物学/【广州招聘信息_广州人才网招聘信息】-广州猎聘{page}.html&#39;, encoding=&#34;UTF-8&#34;).read()
jobs = re.findall(r&#39;<div class=&#34;job-info&#34;>.*?</div>&#39;, a, re.S)
for i in jobs:
position = re.search(r&#39;<h3 .*?<a .*?>(.*?)</a>.*?</h3>&#39;, i, re.S).group(1).strip()
try:
salary = re.search(r&#39;<p class=&#34;condition clearfix&#34; title=&#34;(\d+)-.*?&#34;>&#39;, i).group(1)
except(AttributeError):
print(i)
job_list2.append((position, salary))
bioinfo = [int(i[1]) for i in job_list]
bioinfo_mean = np.mean(bioinfo)
bioinfo_stderr = np.std(bioinfo, ddof=1)/np.sqrt(len(bioinfo))
molecular = [int(i[1]) for i in job_list2]
molecular_mean = np.mean(molecular)
molecular_stderr = np.std(molecular, ddof=1)/np.sqrt(len(molecular))
print(f&#39;bioinfo: {bioinfo_mean:.2f}±{bioinfo_stderr:.2f}&#39;)
print(f&#39;molecular: {molecular_mean:.2f}±{molecular_stderr:.2f}&#39;) |
|