近年来,全外显子测序(WES)和全基因组测序(WGS)的发展使遗传病诊断率得以提高。但基于基因组的罕见遗传病诊断需要在约400万个良性变异中确定一个假定的致病变异,这如同大海捞针。 基因组注释过程包括变异筛选以及对候选致病变异的循证评估,必须由基因组分析员、遗传顾问等研究人员手动完成,每位患者需要评估约100个变异,这意味着研究人员需要耗费50-100个小时。虽然随着科技水平发展出现的各种算法加快了评估时间,但由于无法正确解读结构变异(SV),都不足以广泛应用于临床。SVs占遗传病的10%以上,找到对SVs进行优先解读的统一方法是对基因组注释进一步自动化的基本要求。 近日,Fabric Genomics Inc的Mark Yandell研究团队联合Martin G. Reese研究团队,开发了一种用于快速基因组注释的临床决策支持工具——Fabric GEM,并在Genome Medicine上发表了题为“Artificial intelligence enables comprehensive genome interpretation and nomination of candidate diagnoses for rare genetic diseases”的研究文章。GEM是一种新型的基于人工智能的临床决策支持工具。研究团队在回顾性队列中对GEM进行的基准测试显示,GEM能将90%以上的致病基因排在优先候选基因中,几乎囊括了所有变异类型。此外,结合深层表型分析发现,GEM可以实现快速、准确、全面地基于WGS和WES数据进行诊断,有效降低了成本并加快变异评估。 文章发表在Genome Medicine 为了对GEM进行了基准测试,研究团队招募了119名重症遗传病患儿和60名罕见病患者,分别组成基准队列以及验证队列。在基准队列中,GEM将97%的致病基因和变异排在前10个候选基因中(图1A)。相比之下,现有的先进算法Phevor在前10个候选基因中仅识别出73%的变异。在验证队列中,GEM的诊断性能几乎与基准队列中的相同(图1B)。上述研究数据表明,GEM的诊断性不依赖于疾病严重程度、发病年龄、基因组测序或变异检测方法。 图1. GEM 的诊断敏感性高于变异优先排序算法。来源:Genome Medicine 临床自然语言处理(CNLP)可以从病历记录中自动提取患者的临床特征。研究团队比较了CNLP提取的表型和人工提取的表型对GEM性能的影响。GEM分数是贝叶斯因子,与似然比检验类似,贝叶斯因子表示两个模型的后验概率之间的对数比。研究发现,CNLP表型的GEM分数高于人工表型(图2B),表明CNLP表型描述的GEM表现相较人工表型更具优势。 图2. 在基准队列中,人工提取和CNLP提取的表型对GEM性能的影响。来源:Genome Medicine 鉴于CNLP表型描述的特异性较差,研究团队将CNLP提取的表型进行随机排列,并在队列中按表型频率加权,以检测GEM对错误表型的敏感性。值得注意的是,即使使用随机排列的表型描述,GEM的性能仍然超过使用正确表型的Phevor和Exomiser,表明GEM对错误表型具有弹性。此外,研究团队还从关键临床数据库ClinVar中提取注释,评估了临床知识差距对GEM性能的影响。结果显示,ClinVar为GEM提供了有价值的信息。同时,即使没有ClinVar,GEM对变异的识别率(88%)仍然超过了Phevor(72%)和Exomiser(65%)(图3)。以上研究结果表明,在GEM中集成更多的数据类型可以提高诊断性能和稳定性。 图3. 缺失数据和错误表型对基准队列中GEM性能的影响。来源:Genome Medicine 为了解GEM在缺乏父母数据的情况下的表现,研究团队将基准队列中的63例父母子女组和单例先证者组重新进行分析。令人惊讶的是,研究团队观察到因果基因的平均等级(图4A)和GEM分数(图4B)之间的差异并不明显(图4C),表明即使缺乏父母基因型,GEM依然能保持良好性能,这有助于减少不必要的测序,减轻患者治疗负担。 图4. GEM对父母子女和单先证者的诊断性能相当。来源:Genome Medicine 研究团队还评估了不同GEM分数阈值对基准队列中识别率(真阳性率)和候选基因的影响(图5)。在基准队列中,GEM因果基因分数阈值≥ 0保留了10个候选基因,识别率达到99%;GEM因果基因分数阈值≥ 0.5时则保留了4个候选基因,识别率依然能达到97%。上述研究结果表明,使用GEM基因分数进行病例回顾的分层方法可以最大限度地减少候选基因的数量,从而减少手动注释工作。 图5. GEM性能优化于病例评估工作流程。来源:Genome Medicine 此外,研究团队还对GEM进行条件匹配(CM)评分,来量化患者中观察到的表型与候选基因相关孟德尔条件的预期表型的匹配程度。结果表明,将GEM CM评分和因果基因评分相结合,可以在多个候选基因中确定特定的遗传病诊断(图6)。同时,研究团队通过GEM基因评分阈值≥ 0.69来识别候选基因,相关CM得分可以将与候选基因相关的疾病进行排序(图6A)。由此可见,与人工提取的表型相比,CNLP提取的表型能更好地识别变异和诊断疾病。 综上所述,GEM通过自动提取最少的候选基因和候选疾病以供专家手动评估,帮助实现所有变异类型的快速诊断。此外,结合CNLP的深度表型分析,GEM实现了遗传疾病诊断的实质性自动化,降低了诊断成本并加快变异评估。 |