立即注册找回密码

QQ登录

只需一步,快速开始

微信登录

微信扫一扫,快速登录

手机动态码快速登录

手机号快速注册登录

搜索

图文播报

查看: 395|回复: 5

[分享] 有没有什么软件或者网站之类的可以预测蛋白-蛋白相互作用的,急急急!!!?

[复制链接]
发表于 2024-9-9 07:16 | 显示全部楼层 |阅读模式
回复

使用道具 举报

发表于 2024-9-9 07:17 | 显示全部楼层

今天给大家讲一篇2024年西湖大学在AAAI 2024上发表的利用对比学习方法来预测化合物蛋白相互作用的文章。由于现有的深度学习方法只利用蛋白质序列或结构的单一模态进行建模,因此可能在复杂的现实场景中出现如模态缺失和域偏移使得性能显著下降。在本文中,作者提出了一种多尺度蛋白质序列结构对比学习框架(PSC-CPI),它通过模态内和跨模态的对比来捕获蛋白质序列和结构之间的依赖关系。此外,测试数据中化合物与蛋白都不在训练集的情况下依旧有较优的泛化性。因此,该方法的提出将更有助于揭示化合物与蛋白间的结合方式和理解生物学过程,加速新药的研发进程
化合物蛋白相互作用的研究背景

药物分子通过与人体内特定的蛋白质靶标相互作用,从而实现治疗疾病的效果。图1展示了二肽基肽酶-4(DPP-4)靶点与阿格列汀的分子药物之间的相互作用。化合物-蛋白质相互作用(CPI)的研究对于活性药物发现、药物重定位、发现药物的作用机制等都有深远的意义。预测的主要目的是通过预测CPI的相互作用模式(如接触图)和强度(如结合亲和力)来发现新的药物。然而现有的筛选方法在很大程度上依赖于蛋白质三维结构而且计算非常耗时。此外,大多数深度学习方法在训练集上表现较好,但很难泛化到更真实的测试数据。因此,如何将模型扩展到现实应用场景中仍然是CPI预测的一个重要问题



图 1 二肽基肽酶-4(DPP-4)蛋白靶点之间的互作方式

设计流程

2.1 PSC-CPI架构部分

PSC-CPI主要分为两个部分,其中化合物编码器旨在从给定的分子图中提取化合物表征。蛋白编码器旨在从给定的蛋白序列和结构中提取蛋白的表征。成对相互作用模式预测用于预测蛋白质残基和化合物原子之间的接触图,并学习化合物-蛋白质联合表示,然后通过预测蛋白质残基与化合物原子之间的接触图来学习化合物-蛋白的成对表征。此外,还引入了相互作用强度预测模块以预测化合物-蛋白结合亲和力(图2)。



图2 PSC-CPI模型设计流程

2.2 多模态对比学习方法

为了使得模型当仅知道蛋白序列或者仅有结构时,也可以很好地提取蛋白的表征,作者提出了一个多尺度序列结构对比学习方法。如图3所示,该方法首先对长度可变的蛋白序列进行数据增强,并进行模态之间的对比学习,以此来充分捕获了序列结构之间的信息。



图3 多模态对比学习方法

实验结果

3.1 多模态缺失下的推理评估

为了评估模型在缺失模态数据的条件下的性能,作者首先使用少量已知的序列-结构对来训练模型,然后在三种不同的推理模式下测试其泛化性。图4可以发现蛋白质序列和结构对于不同的任务有各自的优势,序列的表征更有利于二者结合强度预测,而结构的表征更有助于交互模式的预测。PSC预训练后的分类及回归任务的性能都优于未经过预训练的CPI模型。通过PSC进行预训练,单模态的推理性能甚至超过基于多模态提取特征的方法。此外,在序列及结构都未见过的条件下,预训练方法相较于原本的CPI模型性能有较大幅度提升



图4 PSC-CPI泛化性能比较

3.2 蛋白长度及原子数对于模型性能的影响

为了评估PSC-CPI与其他基准方法在不同蛋白质长度和原子数量下的性能,作者选择了三种具有代表性的方法(TransformerCPI, PerceiverCPI, Cross-Interaction)进行比较,图5可以看出随着蛋白质长度和原子数量的增加,相较于其他基准方法,PSC-CPI预测性能显著提升,这表明PSC-CPI在处理复杂蛋白质或化合物方面具有更大的优势



图5 蛋白长度及原子数对于模型性能的影响评估

3.3 消融实验及可视化分析

为了探究不同训练策略对于模型性能的影响,作者分别去掉了模态内的对比、跨模态的对比、采取对序列进行固定长度的增强三种方式进行消融实验分析,如图6所示,当使用模态内、跨模态的对比学习方法时,性能提升更多,这表明序列结构间的依赖是较为重要的。进一步,作者选择了两个化合物蛋白对,并对它们残基位点之间的接触图的标签和其他基准方法的预测结果进行可视化。由图7可知,PerceiverCPI和Cross-Interaction分类性能上优于TransformerCPI,但在定性可视化结果和AUC值上仍远逊色于PSC-CPI



图6消融实验分析比较



图7 接触图可视化展示

结论

作者提出了一种新的多尺度蛋白质序列结构对比学习方法PSC-CPI用于化合物蛋白互作预测。在缺失蛋白序列或者结构模态时,也可以对下游蛋白相关的数据进行推理。通过引入长度可变的数据增强方式和交叉模态对比学习方法,使得PSC-CPI能够捕获序列结构间的依赖性和多尺度信息。实验表明该方法在处理复杂的蛋白质或化合物方面具有更大的优势。尽管该方法的泛化性相较于其他基准模型有显著优势,但仍有局限性。如多尺度建模只涉及残基-蛋白质层面,未来可将其扩展到蛋白质的原子尺度上的建模。
参考文献

  • Hermosilla, P.; and Ropinski, T. 2022. Contrastive representation learning for 3d protein structures. arXiv preprint arXiv:2205.15675.
回复 支持 反对

使用道具 举报

发表于 2024-9-9 07:17 | 显示全部楼层
蛋白-蛋白活性中心预测:

1. CASTp

网址:http://sts.bioe.uic.edu/castp/
网站打开缓慢,可预测蛋白活性位点。
2. ConSurf

网站:https://consurf.tau.ac.il/consurf_index.php
有没有蛋白结构都可以,有序列也行,可预测蛋白蛋白保守位点和活性位点。


3. InterProSurf

网址:https://curie.utmb.edu/usercomplex.html
预测蛋白-蛋白复合物之间的可及表面积,氨基酸等。


4. SPPIDER
网址:http://sppider.cchmc.org/
可预测单个蛋白的活性位点,或蛋白-蛋白表面,或基于蛋白序列预测反应位点


蛋白-小分子活性中心预测:

1. DeepSite

网址:https://playmolecule.com/
网站打开缓慢
2. DoGSiteScorer

网址:https://proteins.plus/
是我常用的预测蛋白小分子活性中心的网站,将蛋白结构提交到这个网站后,点击Go,选择右边的DoGSiteScorer,再点击calculate,就可以得到7个软件预测的蛋白酶的结合口袋,下方红色download按钮可以下载预测口袋的信息打包文件,包括每个口袋区包含的氨基酸,pocket文件夹下的文件可以用chimera软件作图。


3. POCASA

网址:https://g6altair.sci.hokudai.ac.jp/g6/service/pocasa/

回复 支持 反对

使用道具 举报

发表于 2024-9-9 07:18 | 显示全部楼层
本文转载自“科研小助手(微信号:SciRes)
安利一个好用的分析分子间作用关系的网站,附多网站功能比较遗传相互作用(genetic interactions,GI)是所有生物体重要生物功能的基础。比如信号通路中,蛋白的相互作用,酶与底物间的相互反应,都属于这一类相互作用,他们对生物体的诸多功能有显著影响。
现在常用的分子间相互作用网站有很多,今天给大家推荐的MIST功能更为全面。
MIST(Molecular Interaction Search Tool)
https://fgrtools.hms.harvard.edu/MIST/


MIST是由哈佛大学医学院推出的一款可以进行分子间相互作用分析的网站,除了名校出品以外,网站目前还一直在更新,第五版的更新是在今年四月份推出的,相比其他长时间不更新的网站来说,这个网站的信息更为全面。


网站覆盖了多达10种生物的数据库资源,包括人、果蝇、小鼠、大鼠、斑马鱼、裂殖酵母、酿酒酵母、非洲爪蟾(Xenopus laevis和Xenopus tropicalis)。支持单基因和多基因检索,图片下方可以选择产生的网络图的类型,比如蛋白-蛋白相互作用(PPI)等。同时,根据自身需要选择筛选条件,进而产生需要的图片。


提交之后几秒钟,我们就能看到上图所示的网络图,所查基因或蛋白就位于中心,每一个椭圆就是相互作用的蛋白。椭圆的节点会标识出不同的颜色进行高亮,代表着不同的相互作用类型。右侧会呈现出该蛋白所在的信号通路和发挥的主要功能,点击不同的的生物学过程,就能看到在这个过程中目标蛋白与哪些蛋白产生了相互作用,并且会用不用颜色的圆圈高亮出来。
具体的相互作用信息会在网络图的下方以表格的形式呈现出来,点击后方链接可以得到更为具体的信息。不同的相互作用蛋白或分子会有一个打分,如果相互作用得到多种实验方法的支持和/或在多种出版物中得到证明,则定为High等级。如果不符合这些标准,但相互作用得到了另一个物种的数据支持,则被赋予moderate等级。对于interologs,如果相互作用是由多个物种的正交基因映射而来,也将其等级定为 "moderate"。


基因间的相互作用也是MIST的一个亮点,指的是一个基因突变的影响可以通过另一基因的突变来改变。这种遗传相互作用主要是从BioGrid,IntAct,DroID和FlyBase收集的。以HK2为例搜索,并没有看到相关的结果显示,这说明还没有数据显示哪个基因突变能够影响到HK2。


当我们更换为TP53基因的时候,我们可以看到EGFR、MDM2等相关基因对TP53的确产生了影响,有相关的文章可以查询。
网站检索简便,而且响应迅速,有寻找分子间相互作用关系的同学可以使用一下。
最后附上常用的分析分子间作用网站的主要功能,大家可以根据需要选择合适的网站。


相比之下,MIST除了在Functional prediction功能上逊色于STRING,其他方面都表现不错,值得一用。
本文由科研小助手(ID:SciRes)原创,转载请注明来源
回复 支持 反对

使用道具 举报

发表于 2024-9-9 07:18 | 显示全部楼层
Protein-Protein Interaction,以下简称PPI
此回答针对是预测PPI复合物结构的。只要序列不是太长(单体最长1-2k),且都是20种天然氨基酸,可用AlphaFold-Multimer:
paper[1]:
Protein complex prediction with AlphaFold-Multimersource code本地版:
https://github.com/deepmind/alphafoldColab在线版:
Google Colaboratory如果没有装AlphaFold-Multimer,加了chain_break[2]的AlphaFold2[3]也有一定PPI预测能力,也可以用,Sergey提供了Colab[4]在线版:
Google Colaboratory感谢钟博子韬的评价:
精度:
AlphaFold-Multimer >> AlphaFold-Linker~AlphaFold-Gap(ColabFold)(这两个都是AlphaFold2魔改版) >> ClusPro(此前的SOTA方法)



AlphaFold-Multimer文章里的原图[1]。DockQ评估PPI的预测质量,score位于[0,1],>0.8意为质量较高,<0.2基本为预测错误

适用范围:

  • 同源PPI:AlphaFold2(Gap和Linker魔改版) > AlphaFold-Multimer
  • 异源PPI:AlphaFold-Multimer >> AlphaFold2(Gap和Linker魔改版)



AlphaFold-Multimer文章里的原图[1]

由于AF-Multimer训练时更多的采用heteromer(异源多聚体)的complex data,在heteromer的PPI预测上比AlphaFold2(魔改版)更精确;但超参数明显没有tune好homomer(同源多聚体)上居然还开了倒车,相比AlphaFold2(魔改版)反向升级了,AlphaFold2(魔改版)训练集里存在homomer,本身就有这部分PPI预测能力。
使用建议:

  • 异源PPI用AlphaFold-Multimer(v2.1.1)
  • 同源PPI用AlphaFold2(v2.0.1)
  • 省钱白嫖,请用ColabFold里的AlphaFold_advanced
  • 批量预测,请用钟博子韬的ParaFold[5]:
About · ParaFoldReference
Evans, Richard, et al. "Protein complex prediction with AlphaFold-Multimer."bioRxiv(2021).
Minkyung Baek (@minkbaek). Twitter post: Adding a big enough number for residue_index feature is enough to model hetero-complex using AlphaFold (green&cyan: crystal structure / magenta: predicted model w/ residue_index modification). https://twitter.com/minkbaek/status/1417538291709071362. 2021-07-20.
John Jumper, Richard Evans, Alexander Pritzel, Tim Green, Michael Figurnov, Olaf Ronneberger, Kathryn Tunyasuvunakool, Russ Bates, Augustin Žídek, Anna Potapenko, et al. Highly accurate protein structure prediction with AlphaFold. Nature, 596(7873):583–589, 2021.
Sergey Ovchinnikov, Milot Mirdita, and Martin Steinegger. ColabFold-making protein folding accessible to all via google colab, 2021.
Zhong, Bozitao, et al. "ParaFold: Paralleling AlphaFold for Large-Scale Predictions."arXiv preprint arXiv:2111.06340(2021).
回复 支持 反对

使用道具 举报

发表于 2024-9-9 07:19 | 显示全部楼层
蛋白互作(Protein-protein interaction)大家肯定都不陌生,一般在探讨下游机制的时候常会被拿出来验证一把。蛋白互作的预测网站有很多,比如我们常用的String。这些网站通常只能预测正常的蛋白,而对融合蛋白(Fution proteins)互作却很少涉及,但是融合蛋白对肿瘤发展的重要性不言而喻,如下图所示。


融合蛋白由两个亲本基因翻译而来的肽组成,通过染色体重排或畸变在癌症中产生。表达的融合基因包含了两个亲本基因的外显子,同时保持了完整的蛋白域和域边界。研究者使用一种将相关蛋白域作为伙伴蛋白的特定域的结合位点的方法,对358种融合蛋白的伙伴蛋白进行了编写,形成了下面这个网站。


ChiPPI,即嵌合蛋白-蛋白相互作用(Chimericprotein-Protein-Interactions),它将融合蛋白中的蛋白域与亲本蛋白中存在的域进行比较,进而预测融合蛋白在哪些地方可能失去与母蛋白的伙伴蛋白的结合,同时绘制出融合蛋白对细胞蛋白-蛋白相互作用(PPI)网络的影响,以及对导致癌症发育和进展的一些重要途径的影响。
那么怎么用呢?


点击Analyze PPIs,在下方的输入框中输入融合蛋白的名字或者编号。


在Visble interactions点击all,点击Visualize Interactions,就可以得到下面的网络图。


可以通过左侧栏目中的选项,导出不同样式的图片,有多种图片类型可供选择。中部的网络图可以通过点击和拖动进行优化更改,一直到符合文章发表为止。


网状图下面就是各种基因的信息,以及网站对PPI的统计分析,可以直接导出。表格中的基因名称可以直接链接到他们自己的数据库以及NCBI。
看到这是不是觉得这个网站比较简便耐用了,最后把网址放送给大家。
ChiPPI:http://chippi.md.biu.ac.il/index.html
具体的分析原理和操作说明还可以参考下面这篇文章:


<hr/>最近小贝正在整理自己常用的生信网站、实验方法、国自然写作等,准备做一个大礼包,需要的童鞋可以来【小贝学长】找我领取!
如果觉得这篇文章对您有帮助的话,请顺手给买醉点个赞,您的支持是我输出内容的最大动力!
【我是小贝】
医学博士、上海三甲医院工作、新晋奶爸,每周更新科研和读书干货,希望通过自己的经验和教训帮到大家,我们一起成长!欢迎大家关注我!
回复 支持 反对

使用道具 举报

发表回复

您需要登录后才可以回帖 登录 | 立即注册 微信登录 手机动态码快速登录

本版积分规则

关闭

官方推荐 上一条 /3 下一条

快速回复 返回列表 客服中心 搜索 官方QQ群 洽谈合作
快速回复返回顶部 返回列表