罕见病被定义为影响少数人的疾病 —— 在欧盟罕见病的发病率大约是不到2,000人中有1人,在美国,罕见病患者总人数不到200,000人(大约1,500人中有1人)。例如,Tay-Sachs病的发病率约为300,000分之一,而囊性纤维化更为常见,发病率约为10,000分之一。虽然每一种罕见病影响的人很少,但因为目前已经发现了超过7000种罕见病,所以罕见病患者并不罕见,它影响全球超过3亿人。 测序技术的发展提升了对罕见病的认知 由于超过70%的罕见疾病是遗传性的,世界各地的科学家已经广泛应用基因检测技术来确定罕见病的致病机制。识别遗传变异技术的不断改进提高了科学家了解罕见疾病的能力。 核型分析是第一个提供基因组视图的技术,揭示由染色体异常引起的疾病,如Turner综合征(只有1条X染色体,而不是通常女性所具有的2条X染色体)。后来,基因芯片提供了更高分辨率的视图,它能够识别大片段的拷贝数变异,如DiGeorge综合征(由22号染色体上约2.5Mb的片段缺失引起)。基于NGS测序的全外显子组或全基因组测序通过检测单核苷酸变异 (SNV)、插入和缺失以及一些更大的变异,取得了罕见病检测的更大进步。 但是,即使是基于NGS的全基因组测序,也只有不到一半的罕见病病例中能够发现了可能的致病原因,也就是说仍然约有一半罕见病病例的致病原因不明。这主要是因为基于NGS的全基因组测序也不能提供变异检测的全面视图。 PacBio HiFi测序是兼顾测序读长与准确率的测序技术,这使得HiFi测序可以对整个人类基因组上的每个碱基进行测序,从而可以检测到从SNV到大型结构变异 (SV) 的所有类型的变异。最终,通过检测更多变异,HiFi测序提供了更完整的基因组图和可能存在的任何异常。 短读长测序和长读长测序有什么区别? 顾名思义,短读长测序以短片段(100-350 个碱基对)的形式检测DNA,而长读长测序则测量DNA 的片段长度可以长达几万个碱基对。为什么这很重要?好吧,当试图表征具有两套单倍型基因组(一个来自父亲和一个来自母亲)的人类基因组时,每套单倍型基因组的长度为32亿个碱基对 —— 拥有更长的DNA片段意味着您: 需要更少的片段就能组成整个基因组的长度,并且没有未知序列的空白。可以更轻松地将测序reads映射到参考基因组上,从而更容易理解基因组上的一个区域如何连接到另一个区域。能够区分基因的单倍型,进而确定突变发生在来自父本或母本基因的哪个拷贝上。 短读长测序每条reads产生50-350个碱基对的读长,这会导至序列缺口和致病基因区域的不完整覆盖。长读长测序产生数万碱基长度的reads,提供跨基因组的高质量图谱,以进行全面的变异检测 事实证明,许多这些疾病背后的遗传变异正是短读长测序技术无法检测到的类型。从重复扩增到大的插入或缺失,致病性变异通常是大而复杂的结构元件,不能通过仅仅几百个碱基的短读长reads来跨越。准确地表征这些变异并捕获所有类型的变体需要更长的测序reads,以便在一条测序reads中能够覆盖整个变异。 HiFi测序 —— 检测罕见病所有变异类型的关键 与短读长测序平台产生的数据不同,高度准确的长读长测序(称为 HiFi 测序)可生成极长的读长(>25 kb),甚至涵盖最大的结构变异。HiFi测序提供了最全面的基因组变异视图,能够识别通过短读长测序遗漏的更大和更复杂的结构变异(SV),同时能够检测短读长测序能够检测的单碱基变异(SNVs)。 PacBio 高度准确的长读取提供了对所有变异类型的全面检测,从单核苷酸变异 (SNV) 到插入和缺失以及结构变异 HiFi测序的长读长和高准确度 (>99.9%) 特性提供了非常完整的基因组组装、具有单碱基分辨率的全面变异检测以及代表母本和父本单倍型的定相。 用HiFi测序解开罕见病的秘密 HiFi测序通过识别短读长测序和其他技术遗漏的变异,已经在罕见病研究中产生了重大影响。已经有很多科研机构和临床机构开始应用PacBio HiFi测序来解决之前通过短读长测序不能解决的罕见病诊断难题。 有关更多详细信息,请查看下面这些未确诊的罕见疾病及其潜在致病变异类型的研究。 罕见病研究中的结构变异识别 PacBio测序技术如何在罕见疾病研究中发挥作用的最早例子之一来自斯坦福大学心脏病学家Euan Ashley和一名心脏和腺体患有一系列肿瘤的年轻人。八年的基因分析并没有得出确切的答案。Ashley的团队使用PacBio全基因组测序的一种新方法在与卡尼综合征相关的基因中发现了一种新的结构变异,后来被证实为正确的突变和发现。 最近,HudsonAlpha 的一个小组在对一名智障、癫痫和言语迟缓的年轻女孩的研究中发现了新证据。通过HiFi测序,HudsonAlpha的科学家在他们认为可能致病的CDKL5 基因内含子中发现了近7,000个碱基的从头杂合插入,如下图所示。作者报告说,由于CDKL5与早期婴儿癫痫性脑病相关,研究人员优先考虑这一事件作为最有可能的候选变异。 在日本横滨大学医学院的案例中,研究人员应用了HiFi测序,以找出双胞胎12岁女孩出现未确诊综合征的原因。临床症状与Dravet 综合征相符,但没有可用的分子证据来证实这一发现。他们对双胞胎中的一个和父母双方进行了测序,在以前与影响女孩的相同症状相关的区域中发现了一个新的12 kb倒位。 三人家系的HiFi测序鉴定了破坏基因BRPF1的致病性杂合12 kb 从头倒位。SNV(标有“*”)表明倒位发生在母亲所携带的等位基因上 检测基因难测区域中的小变异 对于患有无脑畸形(大脑缺乏褶皱)、发育迟缓和癫痫发作的个体,堪萨斯城儿童慈善组织的科学家使用HiFi测序揭示了一个区域的致病性变异,该区域被证明难以用短读长测序来检测。HiFi测序提供了均匀的覆盖范围,而短读长测序通常会在这一区域出现覆盖率下降。 HiFi测序检测到被短读长测序漏检的CEP85L基因中的致病性变异,短读长测序通常会在该区域出现覆盖率下降 捕获重复扩增的全长序列 重复扩增先前已被证明会导至一系列疾病,并且很难用短读长测序工具准确表征。HiFi测序甚至可以通过很长的重复扩增。最近,来自阿德莱德医学院和罗宾逊研究所的科学家在家族性成人肌阵挛性癫痫检测到STARD7基因第一个内含子中的ATTTC重复序列的扩增。 家族性成人肌阵挛性癫痫的STARD7的第一个内含子中鉴定出 ATTTC 重复 跨等位基因对罕见病变异进行定相 定相涉及将每条染色体的母本和父本遗传拷贝分成单倍型,以获得遗传变异的完整图像。堪萨斯城儿童慈善中心的研究人员分析了一名肝脾肿大的四岁女孩的基因组,该女孩的父母基因组不可用。该患者被认为患有C型尼曼匹克病,但需要更多数据来支持该理论。HiFi测序显示位于相关基因不同等位基因上的两个关键变异;通过对变异进行定相,科学家们证实了最初的发现。 HiFi测序揭示NPC1基因中的复合杂合变异解释了女童的肝脾肿大 罕见病研究的未来将更加光明 世界各地的科学家都在努力改善受罕见疾病影响的人们的生活,将最新的研究方法和高质量的基因组数据转化为见解,从而能够开发出改进的罕见疾病诊断方法。随着HiFi测序继续揭示基因组的更多区域,它应该会对我们诊断、理解和最终改善罕见疾病社区治疗的能力产生深远的影响。 |