生物医学的核心任务之一“理解遗传疾病的发生机制并寻找潜在的药物靶点”,在上周Science上的一篇论文中提供的工具能完成“所有人类错义变体和氨基酸取代的预测”,即通过计算方法来预测一个基因变异是否会导至蛋白质功能的改变。本文介绍AlphaMissense,同时给出利用AlphaMissense进行罕见遗传病诊断、个体化治疗的效果评估以及遗传疾病的发生机制研究的大致流程。
由 DeepMind 和 Alphabet 资助开发的AlphaMissense,利用AlphaFold模型预测蛋白质结构,再结合无监督学习对7100万种基因错义突变进行预测,在多个数据集上的预测正确率达90%以上。论文地址:https://www.science.org/doi/10.1126/science.adg7492,预测错义变异效应的机器学习相关专利US nos. 63/415,117 and 63/479,653。 图源自DOI: 10.1126/science.adg7492
AlphaMissense,一个基于AlphaFold的AI模型,利用蛋白质结构和进化信息来预测错义变体的致病性。这个模型在多个临床基准数据集上表现出了优越的性能,而且提供了一个包含所有可能的人类错义变体预测的数据库。这对于IVD行业,尤其是基因检测有着重要的意义,比如: 帮助诊断罕见疾病,通过快速地筛选出可能导至疾病的变体,从而减少诊断时间和成本。 帮助发现新的药物靶点,通过分析变体对蛋白质功能的影响,从而找出一些可能对药物治疗有反应的变体。 帮助评估个体化治疗的效果,通过预测变体对蛋白质结构和稳定性的影响,从而判断某种药物是否适合某个患者。 帮助理解遗传疾病的发生机制,通过比较不同物种之间的变体保守性和进化压力,从而揭示一些重要的功能域和位点
基因组测序揭示了人类群体中广泛的遗传变异,错义变异是改变蛋白质氨基酸序列的遗传变异,致病性错义变异会破坏蛋白质功能并降低机体适应性,而良性错义变异的作用有限。对这些变异进行分类是人类遗传学中一个重要的持续挑战。在观察到的超过 400 万个错义变异中,估计只有 2% 被临床分类为致病性或良性,而其中绝大多数具有未知的临床意义,这限制了罕见疾病的诊断,以及针对潜在遗传原因的临床治疗的开发或应用。机器学习方法可以通过利用生物数据中的模式来预测未注释变异的致病性,从而缩小变异解释差距。具体来说,AlphaFold可以根据蛋白质序列准确预测蛋白质结构,可以作为预测蛋白质变异体致病性的基础。文章中的AlphaMissense 模型主要具有以下特点:(i)无监督语言模型,用于学习以序列上下文为条件的氨基酸分布;(ii) 通过使用 AlphaFold 衍生系统纳入结构背景;(iii) 对人口频率数据中的弱标签进行微调,从而避免人工注释带来的偏差。AlphaMissense 在临床注释、新发疾病变异和实验检测基准方面实现了最先进的错义致病性预测,而无需对此类数据进行明确的训练。同时提供了人类蛋白质组中所有可能的单一氨基酸取代的预测数据库,使用 ClinVar 数据集上的精确度为 90% 的截止值将所有错义变异中的 32% 分类为可能致病,将 57% 分类为可能良性,从而为大多数人类错义变异提供可靠的预测。
AlphaMissense是一个基于AlphaFold的AI模型,它可以利用蛋白质结构和进化信息来预测错义变体的致病性。 它可以覆盖所有可能的71百万个错义变体,而目前只有0.1%的变体被人类专家确认过。这意味着它可以提供更全面和更及时的信息,帮助研究者和医生发现一些罕见或未知的变体。 它可以在多个临床基准数据集上表现出了优越的性能,比现有的工具更准确地区分出可能导至疾病的变体和无害的变体。这意味着它可以提高基因检测的可靠性和信度,减少误诊和漏诊的风险。 它可以结合蛋白质结构和进化信息,提供更多的生物学解释,帮助理解变体对蛋白质功能的影响。这意味着它可以提高基因检测的深度和广度,增加对疾病发生机制和药物治疗效果的认识。
图源自DOI: 10.1126/science.adg7492
使用AlphaMissense进行错义变体分析的方法:
访问DeepMind的网站,下载他们提供的包含所有可能的人类错义变体预测的数据库,然后用自己的工具进行查询和分析。 使用VEP工具和AlphaMissense插件,输入感兴趣的变体或者基因组序列,然后得到AlphaMissense的预测结果和其他相关信息。 参考GitHub上的代码,了解AlphaMissense的模型实现和数据处理流程,然后用自己的数据进行训练和推理。但是请注意,DeepMind没有公开他们训练好的模型权重,所以需要自己训练模型。
首先,需要对患者进行基因组测序,得到他们的DNA序列。通过一些常用的测序技术,如全基因组测序(WGS)、全外显子测序(WES)或者靶向测序(TS)。 其次,需要对测序结果进行质量控制和变异检测,得到患者的变异列表。通过一些常用的软件工具,如BWA、GATK、SAMtools等。 第三,需要对变异列表进行过滤和注释,得到患者的错义变异列表。通过一些常用的数据库和工具,如dbSNP、ClinVar、VEP等。 第四,需要使用AlphaMissense对错义变异列表进行致病性预测,得到患者的致病变异列表。通过使用[VEP工具]和[AlphaMissense插件],输入错义变异列表或者基因组序列,然后得到AlphaMissense的预测结果和其他相关信息。 最后,需要对致病变异列表进行验证和解释,得到患者的诊断结果。通过一些实验方法,如Sanger测序、功能实验、家系分析等。
首先,需要知道患者的基因组序列和他们所携带的错义变体。通过基因检测或者基因组测序来获得。 其次,需要使用AlphaMissense对患者的错义变体进行致病性预测,得到患者的致病变体列表。通过使用VEP工具和AlphaMissense插件,输入错义变体列表或者基因组序列,然后得到AlphaMissense的预测结果和其他相关信息。 第三,需要根据患者的疾病类型和药物治疗方案,选择一些可能与药物作用相关的蛋白质或者基因。通过查询一些专业的数据库或者文献,如[DrugBank]、[PharmGKB]、[PubChem]等。 第四,需要使用AlphaFold对这些蛋白质或者基因的正常和突变形式进行结构预测,得到患者的蛋白质结构模型。通过访问AlphaFold网站,输入蛋白质或者基因的氨基酸序列,然后得到AlphaFold的预测结果和其他相关信息。 最后,需要对患者的蛋白质结构模型进行分析和比较,得到患者的药物反应评估。通过一些实验或者计算方法,如分子对接、动力学模拟、结合能计算等。参考一些专业的软件或者工具,如[AutoDock]、[GROMACS]、[PyMOL]等。
首先,需要选择一个感兴趣的遗传疾病,以及与之相关的蛋白质或者基因。通过查询一些专业的数据库或者文献,如[OMIM]、[GeneCards]、[PubMed]等。 其次,需要收集不同物种的蛋白质或者基因序列,以及它们的错义变体信息。通过一些常用的数据库和工具,如[NCBI]、[Ensembl]、[VEP]等。 第三,需要使用AlphaMissense对不同物种的错义变体进行致病性预测,得到不同物种的致病变体列表。通过使用VEP工具和AlphaMissense插件,输入错义变体列表或者基因组序列,然后得到AlphaMissense的预测结果和其他相关信息。 第四,需要对不同物种的致病变体列表进行统计和分析,得到不同物种的变体保守性和进化压力指标。通过一些常用的软件和工具,如[PolyPhen-2]、[SIFT]、[PhyloP]等。 最后,需要对不同物种的变体保守性和进化压力指标进行比较和解释,得到遗传疾病的发生机制推断。通过一些理论和方法,如中性理论、正向选择、平衡选择等。
|