自近二十年前下一代测序技术问世以来,技术创新的步伐从未放缓。尽管算法努力按照重叠序列连接短片段,但许多基因组的长度和复杂性对生成完整序列构成了严重障碍,常常导至许多缺失部分和错误。这激发了各种长读测序策略的发展。两种最广泛使用的商业技术是太平洋生物科学公司(PacBio)的单分子实时(SMRT)测序(平均读取长度约20kb,HiFi读取准确率>99.9%)和牛津纳米孔技术公司(ONT)的纳米孔测序(超长读取平均读取长度~100kb,R10.4准确率约99%),而且这两种技术都在不断发展。 由于其重大的方法学进步和广泛的应用,Nature Methods编辑 Vivien Marx 在Nature Methods上刊登了题为“Method of the year: long-read sequencing”的文章,选择了长读测序作为2022年Method of the year。Vivien Marx强调了长读测序在各个领域开发和应用的示例,并发表了各个领域科学家对未来的看法和愿景。 图片来源:Nature Methods 一.长读测序 长读测序为学术圈的基因组学项目提供了强有力的支持。一些公司推动了这一进程,特别是太平洋生物科学公司(PacBio)和牛津纳米孔技术公司(ONT)。最近,其他提出长期研究方法的公司包括Element Biosciences、Illumina和MGI。Ultima Genomics和其他公司在这领域也有计划。 长读技术激发了各个实验室的众多发现。在大型项目中,著名的成就包括脊椎动物基因组项目(Vertebrate Genomes Project, VGP)和端粒到端粒联盟(Telomere-to-Telomere Consortium, T2T)。2022年3月31日,T2T发表了第一个完整的、无间隙的人类基因组序列,首次揭示了高度相同的节段重复基因组区域及其在人类基因组中的变异。《科学》杂志连发6篇论文报告这一成就。美国国家卫生研究院(NIH)国家人类基因组研究所(NHGRI)的研究员、T2T联合会的共同负责人亚当·菲利普(Adam Phillippy)表示,在T2T项目期间,他和同事们处理的最长读长有100万个碱基对。 二.长读测序实现的研究 洛克菲勒大学研究员Erich Jarvis也是霍华德·休斯医学研究所(Howard Hughes Medical Institute)的研究员,他说,长读测序已经导至基因组组装中的空白减少。这项技术对他的项目的生物学益处包括更准确地评估基因重复及其同源性,从而更好地理解基因家族进化。 来自不同人群的基因变异数据一直缺乏。正在进行的一个以不同人群和多样性为重点的项目涉及500人,来自10个不同的澳大利亚土著社区。根据这些个体的数据,代表每个土著社区的一个基因组将被组装成端粒到端粒。科学家利用PacBio和ONT测序仪的长读和Illumina短读技术进行全基因组测序。 长读测序使人们能够以以前不可能的方式测量染色体间的基因网络相互作用。长读技术可捕获富含G+C的区域,这些区域主要存在于基因调控区域。这产生了一个更完整的物种内部和跨物种的DNA启动子区域调控基因的图景。长读的使用捕获了许多先前基因组组装中的数千个错误,基于短读的组装中的错误得到了纠正。在那些更容易用长读来处理的基因组片段中,有人类基因组的多种重复元件:几百个碱基对的短串联重复;Alu元件,有大约300个碱基对;LINE1元素,长度可达6千碱基;数百kb长的片段重复区域;以及百万碱基长的重复序列,如着丝粒和核糖体DNA。这些都在其突变过程和调节作用方面有所不同。 Isidro Cortes Ciriano的癌症基因组学研究团队开发了计算工具,来评估癌症中的突变模式和基因组不稳定性。长读测序提供了研究重复和复杂基因组区域的方法,如着丝粒区域、长重复和复杂结构变体。通过纳米孔测序产生的长读结果,他们可以解决癌症中那些Illumina测序难以阐明的复杂基因组畸变。不仅如此,对于研究具有拷贝数异常和基因组不稳定的癌症(如食管癌和卵巢癌)的研究人员来说,长读方法通常更好地检测和表征许多癌症典型的复杂基因组重排和结构变异。 加州大学戴维斯分校的研究人员C.Titus Brown表示,在宏基因组学中,长读“还没有完全到来,可能还需要时间”。这是由于长分子DNA提取的挑战,以及复杂的微生物组尚无法在足够的深度进行测序。 Stephen Turner(左)是PacBio的首席技术官和创始人 Jonas Korlach(右)是PacBio的首席科学官 图片来源:Nature Methods 三.长读技术的将来 愿望清单之一:一站式测序 大多数基因组学项目应用多种技术来应对诸如序列重复、结构变异和缺乏参考基因组等多方面的问题。准确性是使用多种技术的原因之一。如果长读测序更准确,实验室将不再需要多种技术来进行验证。理想情况下,研究团队将在一个平台上而不是多个平台上获得所有内容。 一站式长读测序世界尚未到来,但已经有了设计好的技术配对。ONT和10x Genomics已经建立了使用ONT PromethION设备的协议,并为10x Genomics平台进行样品准备,以连接纳米孔测序和10x基因组的单细胞和空间分析。 实验室可能有一天会实现一站式测序,为科学家提供所需的所有数据,但这还需要一段时间。目前,越来越多的实验室扩大其项目的测序规模。甚至更小的实验室也可以成为大规模测序设施,因为准备和分析都变得比以前更容易。 愿望清单之二:降低成本 如果长读测序也能从低表达水平和少量样本的基因中捕获全长序列,那么长读测序的应用将大大提高。 ONT的Sanghera表示,ONT重视通过测序以低成本获取DNA和RNA数据。随着时间的推移,长读测序已经变得更高的通量和更容易使用,成本也降低了。在计算方面,由于处理器和GPU等组件的进步,计算变得更快。因此,长读测序将变得更快、更便宜、更容易使用,这是不可避免的。 对于实验室来说,成本和准确性都是重要的考虑因素。PacBio的HiFi平台提供高精度的长读,但它比ONT的平台更贵。Oxford Nanopore的小型设备可以很容易地陪伴科学家进入该领域。HiFi技术很棒,但大多数实验室都缺乏资金来资助使用它。HiFi测序被用于大规模研究,例如NHGRI资助的HPRC。但是,各个实验室通常没有足够大的资金来支持这项技术。 Gordon Sanghera,牛津纳米孔技术公司首席执行官。 图片来源:Nature Methods 愿望清单之三:更准确 ONT测序仪在不断提高准确率。当Patel和他的同事去年开始为一个项目收集数据时,ONT平台的准确率为92%,而现在基本水平接近99%。2010年前后,早期PacBio仪器的错误率约为15-20%,但这已经发生了巨大变化。HiFi读数已用于大规模研究工作,HiFi测序对之前的扫描进行纠错,准确度达到99%或更高。 研究者需要更长、更准确的核苷酸准确度,特别是长着丝粒区域。还需要扩大规模,每周为数千个物种生产完整无错误的基因组,以完成VGP和地球生物基因组计划的目标。目前全球参与的实验室平均每周可生产大约六个高质量的基因组。这是从DNA分离开始到最终提交到公共数据库的过程。在扩展长读取方面,还有很长的路要走。 愿望清单之四:节省时间 对于许多生物学家来说,生成一个“端粒到端粒”的无错误组装基因组是一个伟大的梦想。通过长读技术,基因组组装变得容易。长读测序还可以捕获包含所有选择性剪接的全套转录本。 然而,组装“T2T”基因组仍然耗时。例如,手动纠正可能已生成的人工结构变体。它在计算上也很昂贵。 四.想象未来 令生命科学领域的科学家们高兴的是,作为测序仪器输出的读长越来越长。以后的测序技术可能是DNA或RNA测序,有一天可能会以高通量和高准确率常规读取整个基因组、转录组和表观基因组,甚至可能是蛋白质的氨基酸序列。 在很长一段时间内,RNA测序意味着需要将RNA逆转录为cDNA来对其进行测序。ONT的技术是第一个实现直接RNA测序的技术。RNA表达数据具有巨大价值,因为它们可以捕捉细胞和组织类型之间的差异。除了RNA丰度,长读技术还可以用来评估表观转录组、RNA修饰和RNA结构。 与DNA不同,RNA没有扩增方法,RNA测序的样本大小是一个挑战。但随着技术的不断变化,对输入材料的要求也会随之变化。如果长读测序也能从低表达水平和少量样本的基因中捕获全长序列,那么长读测序的应用将大大提高。除了DNA和RNA序列之外,实验室还想捕捉许多其他方面:长距离和三维相互作用、不同长度的重复序列、转座子元件、表观遗传改变、组蛋白修饰。除此之外还寻求染色质可及性数据,以评估哪种转录因子在哪里结合。 科学总是以我们无法想象的方式发展。在许多科学家看来“Long-read sequencing is the future。” |