自从末端终止法测序技术发明以来,DNA 测序技术在短短三十余年内得到迅速发展,科学家们已经向着人类千元(1000 美元)基因组时代发起冲击。最初由于高昂测序成本的限制,全基因组测序涉及的领域受到限制,只有细菌等基因组很小的生物的全基因组被首先测定,线虫、果蝇、拟南芥等模式生物的基因组随后被测定,人类基因组计划的实施推动了基因组学在全世界的快速发展。这些测序工作都是采用Sanger法进行,项目实施耗时费力。随着新一代测序技术(Next-generation sequencing, NGS)的出现,越来越多的物种启动了全基因组测序计划。基因组研究机构也呈现了多极化发展趋势,中国成为国际基因组研究的重要一员。新一代测序技术基于新的测序原理,目前,单分子测测序方法日渐占据主导位置。 海洋生物是生物学研究的重要领域,美国自1997 年就开始计划投资开展罗非鱼、对虾和牡蛎等海洋生物基因组研究。多个海洋蓝藻基因组计划也相继启动。随着海胆基因组项目的完成,目前已有多个海洋生物基因组计划启动或部分完成,中国已经启动了扁藻、螺旋藻、牡蛎、对虾等基因组计划。一般而言,海洋生物基因组大、杂合度高、拼接难度大是研究海洋生物基因组的 最大困扰。 由美国Pacbio公司开发研制的单分子实时测序该通过光学方法直接记录单个聚合酶在不受干扰的情况下的连续合成,已经使许多极富挑战性的基因组学研究成为可能。这种以Pacbio技术为代表的模拟天然DNA复制过程的新型测序方法被称为第三代测序技术。该技术不仅融合了天然DNA复制高效准确的特点,而 且是可以在不影响聚合酶活性的前提下实时观测DNA合成,由于聚合酶的平均反应速度可达1bp/s以上,因为其测序速度比Sanger测序快了几万倍。目 前已有科学家将单分子实时测序技术用于海洋生物研究:
例证:极地海洋微生物
韩国极地研究所的 Park博士一直致力于极地微生物研究,为了揭示从南极乔治王子岛分离得到的Streptomyces菌株的基因组信息(7.6Mb),Park博士的研 究团队首先利用illumina Hiseq 2000平台对其基因组进行测序。Streptomyces 的基因组中GC含量高达71%,即使利用Hiseq2000平台进行了200×深度的测序,仍无法获得完整的基因组,组装时产生了185 个contigs,随后使用Sanger法仍然无法有效的填补gap。
Park博士表示,用其他的短序列测序技术仍然“不可能”填补这种高GC含量的基因组gap,所以他们转而利用PacBioRS平台对该基因组进行验证。由于PacBio RS测序技术具有单分子分辨率,不引入PCR过程,没有GC偏向性,研究人员利用该技术获得了高准确度的CCS数据和平均1.5kb的长片段进行基因组组 装,仅仅对基因组覆盖15×就能组装得到26个contig(减少了86%),大大降低了基因组组装的难度,而且gap也大为减小,使得他们首次获得了该细菌的完整基因组信息。 Park博士和他的团队认为PacBio的单分子实时测序技术“对高GC含量的基因组有着更好的测序能力,并且也是一项非常好的改善de novo测序和组装的新工具” Park博士受到该技术的鼓舞,决定继续利用PacBio技术破解其他极地微生物基因组的组装难题,挑战此前“不可能完成的任务”。 极地微生物是一个特殊的群体,它们生存在正常生物无法生存的环境中,对这些微生物进行研究能够揭示诸如全球气候变暖、生物进化等方面的问题。此外, 这些极地微生物有着迥异于正常环境微生物群体的代谢类型,能够帮助人们寻找更加有效的抗生素,有助于发现新型的药物应用于医学领域。
例证:北冰洋鳕鱼
挪威Oslo大学生态和进化合成中心(CEES)的科研人员用PacBio技术完成了北冰洋鳕鱼基因组的拼接工作。北冰洋鳕鱼是挪威和其他北欧渔业 国家非常重要的经济物种,挪威政府一直以来不断支持鳕鱼基因组的测序工作,期望能从中找到关键基因,以提高鳕鱼养殖业的抗病和高产能力。 鳕鱼基因组(830 Mb)测序项目启动于2008年,由CEES的科学家牵头,早期投入是在454平台上用shotgun和mate-pair测序以及基于BAC的 Sanger测序法,但早期组装结果非常不理想,Contig十万个以上,Scaffold上千个,平均每个Scaffold中35%都是Gap,这给 Annotation带来了极大挑战,科研人员不得不从棘鱼等其他鱼类的基因信息中获取参考,来重建鳕鱼基因组中丢失的部分,才算发表出了史上第一个北冰洋鳕鱼的基因组Draft。
CEES的科研工作者一直想找个法子优化并升级Draft,尤其是当他们对野生捕获的鳕鱼进行基因组测序并遭遇到杂合性问题时。相比较之前的Draft, 野生鳕鱼的基因组中除了SNP不同之外,还出现了大量的几百甚至几千bp的插入和缺失,而且还有大量不同的STR,很难跟Draft进行比对。如果不能拿 到Finishing Genome,之前花大量时间和精力拿到的Draft就等于形同虚设了,于是他们被迫选择了PacBio第三代测序。“当我们把PacBio数据导入到之 前的Draft中去后,大片段甚至是Kb以上级别的Gap就神奇地消失了,我们之前几年的辛苦在这里瞬间完成了,我们遇到的STR和杂合性问题也迎刃而解 了。我们之前从没见过如此之快的组装速度,全程才用了36小时。”参与项目的 Lex Nederbragt教授说道。目前他们正用PacBio数据逐步逐步修复之前靠棘鱼等基因数据拼凑的组装信息,然后全面展开鳕鱼基因组比较研究和抗病基 因筛选. 例证:仿刺参 由中国科学院海洋研究所杨红生研究员团队和相建海研究员团队共同完成,在天津生物芯片的技术支撑下,突破了刺参复杂基因组测序和组装技术瓶颈,采用新一代测序技术获得132Gb高质量DNA序列数据,覆盖全基因组160倍。科研人员利用针对高复杂度基因组组装的创新策略,在国际上首次成功完成了野生刺参的基因组组装,目前获得的框架图总长度达到765Mb,组装叠连群Contig N50达112Kb,该数值优于国际迄今已发表的多数水产动物基因组图谱的指标。初步检测表明,功能基因区覆盖达95%以上。该项研究得到了国家科技部973 、863计划,国家基金委,中国科学院和山东省科技厅、青岛市科技局的资助。 全基因组序列的成功破译作为对刺参认知创新的里程碑,将为刺参的繁殖发育、免疫调控、营养代谢、遗传解析提供重要理论支撑,有力推动刺参重要经济性状解析、分子标记辅助选育和全基因组遗传育种,以及揭示刺参的夏眠、再生、自溶等特殊生命现象的机理机制等相关研究,为我国刺参产业健康可持续发展提供有力科技支撑。
应用Pacbio平台2015年发表部分文章 1,Novel Exons and Splice Variants in the HumanAntibody Heavy Chain Identified by Single Cell and Single Molecule Sequencing 2,Next generation multilocus sequence typing(NGMLST) and the analytical software program MLSTEZ enable efficient,cost-effective, high-throughput, multilocus sequencing typing 3,Clonal distribution of BCR-ABL1 mutationsand splice isoforms by single-molecule long-read RNA sequencing 4,Completing bacterial genome assemblies:strategy and performance comparisons 5,PacBio-LITS: a large-insert targetedsequencing method for characterization of human disease-associated chromosomalstructural variations 6,Complete Genome Sequences of EightHelicobacter pylori Strains with Different Virulence Factor Genotypes andMethylation Profiles, Isolated from Patients with Diverse GastrointestinalDiseases on Okinawa Island, Japan, Determined Using PacBio Single-MoleculeReal-Time Technology 7,Long-Read Single Molecule Sequencing ToResolve Tandem Gene Copies: The Mst77Y Region on the Drosophila melanogaster YChromosome.
|