如何利用生信预测两个蛋白是否互作？

John · 发表于 2024-10-25 22:12

登陆有奖并可浏览互动！

您需要登录才可以下载或查看，没有账号？立即注册

×

想从生信的方面，预测两个蛋白的结构，看两者是否有相互作用的可能性，但本人是生信小白，看了b站的生信视频，对计算机和数学还有一定的要求，哭了，哭了。有没有单纯的利用什么网站或者APP，然后就普通的blast，不用写程序的那种，谢谢大家☺️

原文地址：https://www.zhihu.com/question/376835573

感恩由您 · 发表于 2024-10-25 22:12

✨我相信大家都遇到了老板提出这个难题：你给我把这个gene的上下游给我调查清楚？
✨你是不是立马开始疯狂的查阅文献，查了一两个周发现自己查的迷迷糊糊的，不清不楚，组会时摸不着头脑，被老板批。
✨其实不是自己不够用心，是这件事确实工作量很庞大，自己靠人工查阅是很难查清楚的。
✨今天介绍的工具能够很好的解决上述的问题：
KnockTF 2.0（都升级了，更全更好用了，我是一直在用）是一款强大的生信在线分析工具，它提供全面的转录因子（TF）和转录共因子（TcoF）的敲除/敲低数据集资源。这个工具收集了多种物种（包括人类、小鼠、拟南芥和玉米）的1,468个手工策划的RNA-seq和微阵列数据集，涵盖612个TF和172个TcoF。KnockTF 2.0不仅提供详尽的基因表达信息，还包括上游通路信息、功能注释、以及广泛的（表观）遗传注释信息，如超级增强子、转录因子结合位点、共同SNP、风险SNP、LD SNP、eQTL、甲基化位点、DNase I高敏感位点、染色质相互作用和CRISPR/Cas9目标位点等。这工具有助于功能性TF和靶基因的识别，促进对它们在生理和病理过程中的作用的研究。

✨可以说，你遇到的基因调控问题，这个都能解决。
✨真心有用的才会推荐给大家，大家记得使用哦，能让你的科研事半功倍。作者花了那么大功夫整理的数据库，能不好用嘛
原文：KnockTF: a comprehensive human gene expression profile database with knockdown/knockout of transcription factors. Nucleic Acids Res.
#生信分析[话题]# #生信学习资料[话题]# #生信在线分析[话题]# #生信思路[话题]# #数据分析我在行[话题]# #生物信息学笔记[话题]# #生物信息学[话题]# #生信小白[话题]# #生信工具[话题]# #生信技能[话题]# #生信学习[话题]# #生信分析解疑[话题]# #生信分析小知识[话题]#
本账号专注于生信代码和实用小工具分享，如有其他感兴趣的，欢迎大家留言，感谢大家的喜欢和支持。

同花顺 · 发表于 2024-10-25 22:12

1、背景
在通过IP实验筛选到互作蛋白之后，可以通过敲除或过表达互作蛋白检测下游信号通路或相关表型的变化，分析蛋白互作的功能。还可以探索蛋白互作的机理，即分析蛋白互作是通过蛋白的哪些结构域实现的。目前常见的互作结构域分析流程一般是通过文献或已有的报道，选择诱饵蛋白和互作蛋白中可能发生互作的结构域，建立截短突变或点突变蛋白，分析蛋白互作的变化。对于没有相关文献和研究报道的互作蛋白，可以通过生物信息学工具预测蛋白相互作用的结构域。
2、蛋白互作结构域的预测分析
1）蛋白结构下载与预处理
要预测蛋白的互作结构域，首先需要获得蛋白的结构信息。可通过PDB数据库查询检索获得X射线单晶衍射、核磁共振、电子衍射等各种实验手段确定的蛋白质的三维结构。对于一些没有（完整）实验结构的蛋白可下载通过AlphaFold预测结构。
以已知的相互作用蛋白ENO1与GAPDH为例，从pdb数据库中下载他们的PDB结构，ID号分别为2psn与1u8f。使用Pymol对PDB结构进行预处理，以ENO1为例，其结构为四聚体，在Pymol中打开其结构文件，点击右下角S按钮显示其序列，拖动3处划钮选择A链之外的序列和O（水分子），右键选择remove，即可只保留ENO1单体（图1-2）。选择file-Export molecula将ENO1单体保存为新的PDB文件（图3）。以同样的方法处理GAPDH结构。

图 1 提取蛋白单体结构

图 2 提取蛋白单体结构

图 3 保存蛋白单体结构文件
2）ZDOCK蛋白-蛋白对接
进行蛋白质分子对接预测分析工具有很多，常用的包括RosettaDock、HADDOCK、ClusPro、SwamDock等。这里介绍其中一种Z-dock分子对接的使用方法。
ZDOCK网址：ZDOCK Server: An automatic protein docking server (http://umassmed.edu)

图 4 ZDOCK网页
在ZDOCK网页中上传PDB结构文件（图4），填写邮箱，提交任务。一般将较大的蛋白作为受体，提交为Protein1。等待几分钟时间后会在邮箱中收到的结果链接，下载Top10 predictions，解压获得10个相互作用的PDB结构文件（图5）。

图 5 分析结果下载
3）蛋白相互作用结构域分析
①基于PDBePISA的蛋白相互作用面分析：在PDBePISA网页（https://www.ebi.ac.uk/msd-srv/prot_int/cgi-bin/piserver）中上传上一步获得的任一互作PDB结构文件，提交分析任务（图6）。

图 6 PDBePISA的蛋白相互作用面分析
相互作用自由能ΔG<0的互作结构才是有意义的分析结果。查询结果详情。

图 7 相互作用分析

图 8 相互作用分析
左侧为受体蛋白，右侧为配体蛋白。每一行为一个氨基酸残基，黄色区域为预测结合的区域。HSDC为氢键预测，BSA为互作包埋面积，竖线越多，表明包埋程度越高，可认为互作越紧密（图8）。
②基于Pymol的蛋白相互作用可视化分析：
使用Pymol打开排名第一的相互作用结构。点击C-by chain将两条链（两个蛋白）标上不同的颜色（图9）。点击A-find-polar contacts-between chains展示两个蛋白间的极性相互作用，这里主要是氢键（图10）。

图 9 对接结构分析

图 10 蛋白相互作用分析
氢键上的数字为键两端原子间的距离（单位Å），点击H-labels可隐藏数字（方便观察），也可以点击S-labels重新展示（图11）。鼠标点击可选中氢键两端的氨基酸残基，点击S-lines可展示相互作用氨基酸残基的结构（图12-13）。

图 11 相互作用距离Lable展示与隐藏

图 12 寻找展示相互作用氨基酸残
点击L-residues可展示相互作用氨基酸的名称，同样此处也可以通过H-labels隐藏（图14）。

图 13 展示相互作用氨基酸残基线状结构

图 14 氨基酸名称展示与隐藏
以同样的步骤将所有的相互作用氨基酸残基都转换成线状形式后即可得到下图所示蛋白相互作用界面。可以观察到ENOA与GAPDH的相互作用依赖于其相互作用界面的氨基酸残基，总共涉及到ENOA蛋白上的十个氨基酸残基与GAPDH上的9个氨基酸残基间的相互作用（如GAPHD的45位酪氨酸（TYR45）与ENOA的399位精氨酸（ARG399）和401位谷氨酸相互作用）（图15）。点击Display-background可以设置背景颜色，点击右上角的Draw/Ray调整图片分辨率并导出图片。最终的效果如图16所示。

图 15 蛋白相互作用分析

图 16 蛋白互作结构可视化分析结果图
3、总结
可通过以下流程分析蛋白相互作用结构域：

获取蛋白单体结构；

② 通过Z-dock预测蛋白复合体结构；
③ 通过PDBePISA分析蛋白复合体中蛋白相互作用的区域，通过Pymol对蛋白相互作用结构域进行可视化分析。
其他问题
1）选择使用PDB数据库下载的蛋白结构还是AlphaFold结构？
如果有完整序列的PDB结构优先使用PDB结构，如果没有可以使用AlphaFold结构。因为PDB结构可能包含水分子或其他离子或配体，还有的是多聚体结构，因此在对接前需要对蛋白结构进行前处理。而AlphaFold结构是纯净的蛋白单体，可以直接使用。
2）蛋白相互作用结构域预测（蛋白对接）可信度如何？
相比而言，小分子-蛋白对接可靠性高，而蛋白-蛋白对接因为蛋白结构较大，而且会有结构柔性变化，因此较难预测。这里所使用ZDOCK是基于FFTs算法的刚性对接，使用较为广泛，对接结果可靠性较高。此外，感兴趣的老师可以关注一下CAPRI-全球蛋白复合物结构预测比赛，里面还会有一些在蛋白相互作用预测中表现好的软件工具。因为蛋白-蛋白对接计算量较大，推荐使用在线服务器平台。

卡卡 · 发表于 2024-10-25 22:13

蛋白质，作为细胞功能的执行者，主要依赖的是蛋白质之间的相互作用（Protein–protein interactions，PPI），即两种或两种以上的蛋白质结合的过程。
而研究蛋白相互作用，大家可能很容易想到的数据库是STRING（https://string-db.org/），STRING虽然知名度高，使用者广泛，但有几点却还是要吐槽一下：
1. 没有区分有实验证据的PPI和基于计算和预测的PPI；
2. 没有细化PPI的属性归类。例如有些PPI是在肌肉组织中检测到的，但数据库统计时则去掉了这一属性，将其推广到在该物种中存在相互作用，而其他组织中可能不存在这个互作关系。
那么为了解决以上问题，给大家介绍一款可用于填坑的研究蛋白互助的数据库IID（http://iid.ophid.utoronto.ca/iid/）

其实，数据库的强大与否，与数据量的关系很大，下图所展示的就是IID所整合的数据。显然，IID数据库涵盖了临床组织标本以及较为全面的动物实验模型的蛋白互助数据，对蛋白互作研究有很大帮助。

IID主要整合了3种PPI数据：1）通过整合其他9个数据库里有实验证据的PPI包括（BioGRID，IntAct，I2D，MINT，InnateDB，DIP，HPRD，BIND，BCI）；2）基于直系同源的PPI；3）从近期的研究里整合具有高可信度的计算预测结果。
IID的功能主要分两部分，一部分是搜索蛋白质的PPI，另一部分是直接检索PPI。下面介绍两部分的使用：
搜索蛋白质的PPI
这部分的使用，其实简单粗暴，就是把所有的基因名（注意基因名的格式哦）丢到框框里，然后粗暴的搜索，为了提高搜索结果的准确性，网站作者还提供了一些个性化的设置来帮助大家过滤筛选结果。
笔者再下图中介绍了各个过滤选项的意义，大家可以根据自己的研究目的来选择过滤选项。

直接检索PPI
这部分主要是检索框有差异，其余的部分跟上面的一样。查询差异表达的基因之间是否有相互作用，就可以将基因list丢到这个输入框里，看看这些基因之间是否存在interaction。

另外，当一个基因的功能明确，要寻找一些调控该基因的其他基因时也可以用这个搜索框帮助大家。然后按照酸菜老师关于基因-基因调控的一元变量研究套路模式代入，就可以找到一些灌水发文的idea啦。
而不论是以第一种搜索方式进行搜索，还是第二种搜索方式，导出的结果格式都是一样的。以TP53为例进行检索，网站会导出结果，格式如下：

用户可以根据表格的title对结果进行筛选，可以筛选物种、证据类型，证据类型包含了预测的互作证据和实验发现的互作证据。
下次当大家研究PPI的时候，就可以参考一下IID的数据啦，STRING作为一个“粗略、广泛”的搜索工具，笔者认为还是可以的，但是难免混入一些假阳性的结果，这时，IID就是你研究路上的另一个重要的科研辅助工具了。祝大家科研顺利！

原文：
研究蛋白互作，除了STRING还有它

同花顺 · 发表于 2024-10-25 22:14

你的问题是既不知道蛋白结构也不知道是否互作，更没做实验，属于三无问题。
在解决这个问题之前我很好奇这个问题是怎么提出来的。如果提出假设的基础就不扎实，那么还没开始就先输了一半了。
先下结论，不存在可以预测蛋白是否互作的预测方法，小分子和蛋白互作可以通过计算MM-PBSA结合自由能来预测，蛋白-蛋白是否互作需要借助实验手段如IP、等温滴定量热（ITC）或者表面等离子共振（SPR）。有了实验基础，可以通过模拟的方式预测蛋白的结合方式。
1. 假设你的假设是合理的，那么先解决第一个问题。蛋白的结构怎么确定，放心，以下不用写代码。

首先看你的蛋白是否已经被人做了晶体结构，去这个网站

https://www.rcsb.org/如果有你的蛋白，直接下载就是PDB结构文件，不过要考虑是不是完整的，

如果没人做过结晶，那就要做同源建模，去这里

https://swissmodel.expasy.org/

如果同源建模也不行，那就交给AlphaFold，去这里

www.alphafold.ebi.ac.uk2. 获得了两个蛋白结构，就可以做蛋白对接。注意，对接只是粗略的预测一下可能的结合姿态，不是能否结合的依据。如果你软件也不想装，直接去这里
An automatic protein docking server3. 下一步就是将对接后的蛋白复合物在生理环境下的模拟。可以用免费的Gromacs，这一步需要装软件，并且花的时间会比你做实验还长。去这里
Welcome to the GROMACS documentation!4. 模拟之后如果两个蛋白可形成稳定复合物，那么在模拟条件下会呈现稳定的结合姿态，可以观测其起作用的结构域和核心残基等等，也可以据此做氨基酸突变以验证结构生物学假设。图片和动态电影可通过Pymol展示
Pymol和VMD制作Gromacs分子动力学模拟后的轨迹动画（蛋白配体复合物)

继续前进 · 发表于 2024-10-25 22:14

ColabFold

https://github.com/sokrypton/ColabFold

2022年5月，来自韩国首尔国立大学生物科学学院的Martin Steinegger和哈佛大学FAS科学部的Sergey Ovchinnikov等人在Nat Methods杂志发表文章，介绍了一个快速和易于使用的蛋白质结构预测工具ColabFold。ColabFold将MMseqs2的快速同源搜索与AlphaFold2或RoseTTAFold相结合，提供了蛋白质结构和复合物的加速预测。ColabFold的搜索速度提高了40-60倍，并且优化了模型的利用，在一台有图形处理单元的服务器上每天可以预测近1000个结构。

ColabFold数据库是MMseqs2可扩展的图谱数据库，用于生成多种多序列比对以预测蛋白质结构。它们是我们ColabFold MMseqs2搜索的后端。在这里可以下载三个数据库：（1）UniRef30，（2）BFD / Mgnfiy和（3）ColabFold DB。

（1） UniRef30 是基于 UniRef100 的 30% 序列恒等集群数据库。

（2） BFD/Mgnfiy 是 BFD 和 Mgnfiy 的组合（2019_05）。我们通过根据BFD集群代表序列搜索Mgnify序列来合并这两个数据库。每个序列同一性高30%的Mgnify序列和覆盖至少90%长度的局部比对被分配给BFD簇。所有剩余的序列以30%的序列同一性和90%的覆盖率（--min-seq-id 0.3 --c 0.3 --cov-mode1 -s 3）聚类并与BFD簇合并，产生1.82亿个簇。对于每个聚类，我们只保留 10 个最多样化的序列（filterresult --diff 100）

（3） Colabfold DB 与 BFD/Mgnify 类似。它包含BFD / Mgnify，MetaEuk（Levy Karin等人），SMAG（Delmont等人），TOPAZ（Alexander等人），MGV（Nayfach等人），GPD（Camarillo-Guerrero等人）和MetaClust2。

下载地址：https://colabfold.mmseqs.com/

Equidock

麻省理工学院的研究人员创建了一个机器学习模型（Equidock），可以直接预测两种蛋白质结合在一起时将形成的复合物。他们的技术比当前最先进的软件方法快 80 到 500 倍，并且经常预测更接近实验观察到的实际结构的蛋白质结构。

下载地址：https://github.com/octavian-ganea/equidock_public

HADDOCK

https://www.bonvinlab.org/software/haddock2.4/

Alexandre Bonvin 和乌得勒支大学计算结构生物学组创建，基于蛋白质生化或生物物理信息的蛋白质-蛋白质分子对接方法，是欧盟H2020 BioExcel生物分子研究卓越中心的旗舰软件之一。

对应文献：
https://pubs.acs.org/doi/10.1021/ja026939x

HADDOCK与从头开始对接方法的区别在于，它以模糊的相互作用约束（AIR）编码来自已识别或预测的蛋白质界面的信息，以驱动对接过程。它还允许定义特定的明确距离约束（例如来自MS交联），并支持各种其他实验数据，包括NMR残余偶极耦合，伪接触位移和冷冻EM图。

与以上两种方法相比，我们可以通过在线预测或者下载自行计算蛋白质的相互作用模型。

在线预测方法介绍：
首先通过以下网站注册：https://wenmr.science.uu.nl/auth/register/。

注册成功后登陆账号并在此网站提交相应的蛋白结构https://wenmr.science.uu.nl/haddock2.4/submit/1，提交成功后大约一周左右即可收到结果。

图文播报

[分享] 如何利用生信预测两个蛋白是否互作？

登陆有奖并可浏览互动！

发表回复

官方推荐 /3

个人中心