最近,瓶中基因组联盟发布了标准基因型的参考数据集,为人们提供了一组高度可信的单核苷酸多态性(SNP)、插入缺失和纯合子参考基因型的测序检测结果。Zook及其同事在近期的Nature Biotechnology杂志上发文对此进行了描述。 2013年12月,FDA批准了首个高通量DNA测序仪,这种仪器可以帮助人们快速有效的测序人类DNA,用于遗传学检测、医学诊断和个性化的药物治疗。在这一审批过程中,研究者们首次使用了一组人类标准基因型的参考数据集。这些标准基因型由美国国家标准技术研究所NIST和瓶中基因组联盟(Genome in a Bottle)共同建立。 “NIST在两年前发起了瓶中基因组联盟,该联盟包括来自产业界、学术界和政府部门的相关人员,旨在建立参考标准帮助人们评估测序仪器、试剂和数学算法的性能,推动人类基因组测序的临床应用,”NIST的生物医学工程师Justin Zook说。“我们的目标是为人们提供一个全基因组标准,作为衡量基因组研究的一把‘尺’,帮助实验人员评估其测序流程。” 现代DNA测序仪将样本中的长链DNA随机打断,再逐个确定小片段中的序列。随后,生物信息学家们利用复杂的数学算法,来确定这些片断来自于基因组的哪个部分。人们可以将这些片段与“参考序列”进行比对,鉴定特定基因中发生的突变。 目前人们采用了好几种不同的DNA测序技术和计算机算法,来完成上述复杂的分析工作。人们发现,对于任意给定的样本,这些方法给出的结果虽然相似但并不完全相同。测序流程中的内在偏好和“盲点”,导致结果分析时出现了许多不确定性或者误差。“结果是分析同一个人类基因组的不同测序技术和算法,产生了成千上万的差异,”Zook说。 最近,瓶中基因组联盟发布了标准基因型的参考数据集,为人们提供了一组高度可信的单核苷酸多态性(SNP)、插入缺失和纯合子参考基因型的测序检测结果。Zook及其同事在近期的Nature Biotechnology杂志上发文对此进行了描述。 研究人员使用的是NA12878样本,该样本来自具有犹他州CEPH血统的一位妇女,已被广泛用于多个发表的测序研究。他们对样本进行了广泛测序和多种技术的重测序,并在仔细的权衡和分析后将结果的可变性和误差降至最低。 “我们在五个不同测序平台上进行了14个测序实验,通过比较和整合这些数据,将测序方法带来的偏好降到最低, Zook说。 这篇文章的具体信息已经公布在瓶中基因组联盟的网站上。此外,GCAT网站(Genome Comparison and Analytic Testing)在这些结果的基础上,允许人们对DNA测序进行实时评估。 据介绍,NA12878 DNA样本将作为NIST的官方参考材料。而瓶中基因组联盟正在计划开发亚洲人和德系犹太人的全基因组参考材料。这两个参考数据集将包括父-母-子三人一组的测序基因,以便使用家庭成员之间的遗传联系。 原文摘要: Integrating human sequence data sets provides a resource of benchmark SNP and indel genotype calls Clinical adoption of human genome sequencing requires methods that output genotypes with known accuracy at millions or billions of positions across a genome. Because of substantial discordance among calls made by existing sequencing methods and algorithms, there is a need for a highly accurate set of genotypes across a genome that can be used as a benchmark. Here we present methods to make high-confidence, single-nucleotide polymorphism (SNP), indel and homozygous reference genotype calls for NA12878, the pilot genome for the Genome in a Bottle Consortium. We minimize bias toward any method by integrating and arbitrating between 14 data sets from five sequencing technologies, seven read mappers and three variant callers. We identify regions for which no confident genotype call could be made, and classify them into different categories based on reasons for uncertainty. Our genotype calls are publicly available on the Genome Comparison and Analytic Testing website to enable real-time benchmarking of any method. |