核酸检测的最新进展极大地丰富了传染病诊断和监测。在机器学习和优化能力日益增长,以及病毒基因组数据的爆炸性增长的背景下,在通过计算设计丰富诊断和监测方面,却进展有限。根据基因组数据设计病毒检测主要是手工完成的,没有明确的目标。 机器学习和优化方法将通过设计比现有方法更敏感的检测方法,有利于病毒检测。这些方法还可以为广泛有效地跨越病毒变异的分析提供主动资源,并提供新分析的快速设计。 近日,来自哈佛和普林斯顿的顶尖团队在Nature biotechnology杂志上发表了一篇题为“Designing sensitive viral diagnostics with machine learning”的文章,在这篇文章中,研究团队通过开发和实验验证一种将深度学习模型与组合优化相结合的方法来设计比现有方法更敏感的检测方法,有利于病毒检测。 研究团队提供了三个方面的进展:(1)预测诊断系统的酶活性;(2) 将病毒变异整合到诊断系统的设计中;(3)快速设计大规模诊断。 第一个挑战是在检测核酸靶点时预测检测结果。研究团队使用实验数据和机器学习从核苷酸序列预测酶活性。他们生成了最大的诊断性能数据集,主要集中在基于CRISPR的诊断上。训练了一个神经网络来预测CRISPR酶在检测过程中的活性,对应于诊断灵敏度。虽然此方法专注于基于CRISPR的病毒诊断,但同样适用于其他核酸技术和非病毒靶点。 第二个挑战是病毒变异。由于变异,带有逆转录(RT–qPCR)检测的甲型流感病毒(FLUAV)定量PCR的假阴性率通常超过10%(在某些菌株上接近100%),这一问题也同样存在于其他病毒。解决变异的诊断设计方法通常遵循两种范式之一。一种方法是识别保守的基因组区域,并设计一种针对它们的分析方法:但这其实是不够的,因为保守区域很少没有变异,针对它们可能无法提供最佳的敏感性和对抗病毒之间的特异性。第二种范式将分析的复杂性降至最低,仅限于检测足够程度的变异。研究团队将病毒的变异整合到一个目标函数中,并使用预测模型,最大限度地提高变异的敏感性。 第三个挑战是大规模运行。病毒基因组序列的数量呈指数增长,反映了病毒的进化和出现。FLUAV亚型分析随着时间的推移失去敏感性。在COVID-19冠状病毒疾病中,突变在早期基因组序列上积累,一些使广泛使用的诊断靶点中失去了作用。然而,当前的设计范式需要管理输入数据,这是很费力的。为了克服这个障碍,研究团队设计了ADAPT (https://adapt.run),一个使用公共数据库中最新病毒基因组实现机器学习的系统。ADAPT是全自动的,并可大规模运行。 团队应用ADAPT为已知感染脊椎动物的1933种病毒设计了最高灵敏度、物种特异性诊断。并且使用包含已知变异的合成靶标,对ADAPT在几种病毒上的设计进行了实验测试。 结果表明,ADAPT为设计提供了全面的检测和谱系水平特异性,并且ADAPT优于基于传统CRISPR诊断设计序列保守性的标准技术。 图片来源:Nature biotechnology 主要内容 预测基于CRISPR的诊断系统的活性。 第一个目标是在检测病毒靶点时预测诊断的酶活性(敏感性)。团队通过检测反应生成了荧光读数数据集。根据这个数据集,训练了一个机器学习模型来预测酶的活性。 研究团队主要关注CRISPR–Cas13a,其中Cas13a酶使用guide RNA定位靶标,切割荧光报告物的附带活性,导至诊断读数。团队设计了一个库,包含19209个独特的LwaCas13a guide-target对,使用CARMEN进行测试,CARMEN是一个基于液滴的平台,执行平行检测反应。该文库具有代表病毒多样性的序列组成,每个guide和target之间平均有2.9个错配,以及多种PFS等位基因。在每对反应过程中,完整的reporter由于Cas13a裂解而呈指数衰减,因此可以使用衰减的负数来模拟荧光随时间的变化并确定其生长速率。 利用数据集,研究团队开发了一个模型来预测Cas13a的活动。模型的具体开发历程详见文章正文,这里不多做介绍,因为笔者实在看不懂。 研究团队在两个独立的数据集上测试了模型。测试结果各自独立验证了模型的准确性(Spearman’s|ρ|=0.816和0.826),并证明其可推广到其他用途,如预测RNA敲除结果。 CRISPR–Cas13a检测活性的测量和建模 图片来源:Nature biotechnology 设计最佳变异检测方法。 第二个挑战是设计在检测病毒变异时最有效的检测方法。 解决变异的诊断设计方法通常遵循两种范式之一。一种方法是识别保守的基因组区域,并设计一种针对它们的分析方法:但这其实是不够的,因为保守区域很少没有变异,针对它们可能无法提供最佳的敏感性和对抗病毒之间的特异性。第二种范式将分析的复杂性降至最低,仅限于检测足够程度的变异。 通过一些高端的笔者看不懂的操作设计,研究团队设计出了一种可以设计最有效检测病毒变异检测方法模型。研究团队的模型比简单的策略更全面。它的设计可以检测到更多的变异,即使在整个基因组中只有一个探针,而且随着允许更多探针的使用,检测到的范围也会增加。对于多样性较低的物种,简单的策略表现良好,这表明我们的方法并不总是必要的。 病毒检测分析必须经常区分基因相似的物种或菌株。在患者诊断中,相关病毒可导至类似症状,高度特异性的检测有助于确定感染或排除可能性。 最大限度地提高基因组变异的检测敏感性 图片来源:Nature biotechnology 大规模的综合诊断设计 为了适应不断增长的病毒基因组数据,团队构建了ADAPT。ADAPT使用基于模型的优化方法调整设计分析选项,同时与病毒基因组数据库连接,以纳入最新可用数据。 ADAPT搜索病毒基因组以确定目标区域,并根据其扩增潜力和最佳探针集的活性对其进行评分。研究团队应用ADAPT设计了针对已知感染脊椎动物的1933种病毒的物种特异性分析,包括扩增引物和Cas13a guides。对于95%的物种,guides以高预测活性检测大多数的已知基因组。 研究团队致力于全面检测物种水平多样性,如此可以检测出嵌套在已知物种中的新病毒。模拟了检测SARS相关冠状病毒(SARS-related CoV)物种的分析设计,然后评估了他们对SARS-CoV-2的检测。如果淡化对SARS-CoV-1的考虑,ADAPT排名最高的五项分析中有四项预测能够很好地检测SARS-CoV-2。这种广泛有效的分析方法构成了一种主动的检测工具。 团队还检查了1933个物种设计分析的计算需求。ADAPT的端到端设计很快完成:80%的物种在2小时内完成,除了三个物种(人类巨细胞病毒、SARS相关冠状病毒和流感病毒)其余均在24小时内完成,所有物种在38小时内完成。 ADAPT大规模的诊断设计 图片来源:Nature biotechnology ADAPT设计的实验评估。 研究团队首先考虑了美国疾病控制和预防中心(US CDC)的SARS-CoV-2 RT-qPCR诊断扩增子,这是RT-qPCR和CRISPR检测的共同目标。根据研究团队方法设计的guides在低目标浓度下显示出比所有11个基线guides更多、更快的荧光增长,表明ADAPT针对已知目标序列设计比专注于PFS的经典方法具有更好的敏感性。 研究团队还通过SARS相关冠状病毒物种的分类群,验证了ADAPT所提供的全面性和特异性。利用ADAPT,研究团队生成了检测SARS-CoV-2的谱系特异性设计,实验证明的ADAPT生成的三个最佳设计选项(按预测活性排序)均检测到SARS-CoV-2,具有完全特异性:没有观察到相关谱系(蝙蝠或穿山甲SARS样冠状病毒,SARS-CoV-1和其他冠状病毒)的荧光信号。 研究团队还评估了广泛基因组变异的检测极限。应用ADAPT设计了肠病毒B(EVB)的物种特异性检测方法。ADAPT的三个排名靠前的设计根据需要检测具有EVB特异性的基因组变异谱。实验结果显示,相比较传统的设计方法,ADAPT在几乎所有代表性目标中都提供了更高的荧光信号,从而在其中大约一半的目标中实现了较低的检测限。 采用ADAPT的设计进行灵敏、特异的检测。 图片来源:Nature biotechnology 结论 灵敏度学习模型可以直接用来优化诊断有效性。研究团队筛选了19209个诊断-目标对,专注于基于CRISPR的诊断,并训练了一个深度神经网络来准确预测诊断读数。团队将该模型与组合优化结合起来,以最大限度地提高病毒基因组变异全谱的敏感性。团队还引入了ADAPT,这是一个用于自动化设计的系统,并使用它在2个小时内为1933种感染脊椎动物的病毒中的大部分进行诊断学设计,在24小时内为除了3种病毒之外的所有病毒进行诊断学设计。研究团队还对ADAPT设计进行了实验评估,实验结果表明,ADAPT的设计与标准设计技术的输出相比,对谱系水平敏感且具有特异性,在病毒变异中允许较低的检测限。
|