立即注册找回密码

QQ登录

只需一步,快速开始

微信登录

微信扫一扫,快速登录

手机动态码快速登录

手机号快速注册登录

搜索

图文播报

查看: 175|回复: 3

[分享] 请问有大神用过maxquant解析蛋白质谱吗?

[复制链接]
发表于 2025-3-9 05:24 | 显示全部楼层 |阅读模式
回复

使用道具 举报

发表于 2025-3-9 05:25 | 显示全部楼层
使用MaxQuant解析蛋白质质谱的基本步骤如下:

1.数据预处理:收集原始的蛋白质质谱数据,如.raw格式文件,这通常来自质谱设备。需要关于样品的一些基本信息,如蛋白酶的类型(例如,胰蛋白酶)以及修饰。

2.设置参数:在MaxQuant中设置您的质谱实验的特定参数。在主界面的左侧,可以看到各种选项卡,如'群组','全局参数', '标准参数'等。在'全局参数'中,需要输入原始数据文件的路径,以及输出文件的路径。在'标准参数'选项卡中,可以设置特定的实验参数,如蛋白酶的类型,修饰等。

3.运行MaxQuant:点击主界面下方的"开始"按钮,MaxQuant会开始分析质谱数据。运行时间可能会有所不同,取决于您的数据的大小和复杂性。

4.结果解析:MaxQuant运行完成后,结果文件将存储在指定的输出文件夹中。主要的结果文件是proteinGroups.txt,它包含了每个蛋白质的量化信息。其他结果文件,如peptides.txt和evidence.txt,包含了更详细的信息,如肽段和PSM(Peptide Spectrum Matches)的信息。


相关技术文章分享:

蛋白质质谱鉴定
蛋白分子量测定
蛋白质结构鉴定

更多科研干货,实验资讯,欢迎关注“百泰派克蛋白质组学多组学”公众号
回复 支持 反对

使用道具 举报

发表于 2025-3-9 05:25 | 显示全部楼层
大神可以出一期数据处理吗
回复 支持 反对

使用道具 举报

发表于 2025-3-9 05:26 | 显示全部楼层
前言
Shotgun法分析蛋白质组一般包含四个步骤:①样本制备;②质谱检测;③数据库检索;④数据分析,步骤①、②已在往期文章中介绍过,本期文章重点讲解质谱检测得到的数据该如何进行搜库处理。
1. 搜库软件简介
在蛋白质组学中,搜库通常是指通过计算机软件对质谱采集的原始谱图数据进行解析,从而获得肽段及蛋白的鉴定和定量信息的过程。
目前常用的搜库软件中,有些是由商业公司开发的,如Proteome Discoverer、Spectronaut、ProteinPilot等,功能较全面,与对应质谱仪器适配程度高,使用较简单,但往往需要高额收费。有些搜库软件则是由从事蛋白质组学研究的课题组开发的,如X!Tandem、pFind、Comet等,通常可免费下载使用,其搜库算法各有特色,但在某些方面可能表现不佳,且有些软件使用方法也较为繁琐。其中,由德国马克思-普朗克研究所Jürgen Cox和Matthias Mann教授课题组开发和维护的MaxQuant,经过多年的发展升级,已成为目前蛋白质组学中使用最广泛的搜库软件之一。



(常用的蛋白质组学搜库软件)

MaxQuant(https://www.maxquant.org/)拥有自己的肽段搜索引擎——Andromeda,支持目前所有蛋白质组学质谱仪厂商产生的原始数据格式;支持标记定量和非标定量;拥有非线性质量校正和Match Between Runs功能,可以提高蛋白鉴定数量和定量准确性。MaxQuant主要部署在Windows系统,有较完整的结果查看和分析界面,使用方法较简单,并且有配套的结果后处理软件Perseus。此外,该课题组还多年组织暑期教学课程,拥有完善全面的MaxQuant使用教程。
因此,本期重点以MaxQuant为例,介绍蛋白质组学数据库检索的过程。
2. 数据库检索概述
①输入文件:
搜库是将质谱采集到的原始谱图数据和蛋白质组数据库进行比对解析的过程,因此大部分搜库软件都需要两类输入文件:蛋白质组数据库和谱图原始数据,MaxQuant也不例外。
与目前的大部分搜库软件相同,MaxQuant需要以Fasta格式输入蛋白质组数据库包含的序列信息,之后会通过模拟酶切和模拟碎裂,将蛋白质组序列信息转换为理论谱图数据。
②肽段与蛋白鉴定:
对于输入的谱图原始数据,MaxQuant会通过其内置的Andromeda算法,经过中心化、去同位素化、降噪等过程,提取各原始二级谱图的特征,并与蛋白序列数据库计算得到的理论谱图进行比对,匹配程度最高的理论二级谱图对应的肽段信息将作为检测二级谱图的鉴定结果。最后,根据蛋白的氨基酸序列,肽段的鉴定信息会被归结为蛋白的鉴定信息。由于不同蛋白可能存在一定的序列重复性,无法通过肽段序列区分开的蛋白会被归类到同一个蛋白组(ProteinGroup)。序列上可能同时归属于多个蛋白组的肽段会被分配给具有最多肽数量的蛋白组,而不作为其他蛋白组的鉴定证据。通过这种方式,MaxQuant很大程度上避免了蛋白质水平上的过度计数鉴定,并使鉴定和定量信息明确无误。
③蛋白定量:
参考二级谱图获得的肽段鉴定信息,MaxQuant可计算一级谱图中各个肽段对应的信号相对时间的累积强度,即各个肽段XIC谱图的峰面积,作为非标记定量的数据来源。蛋白的intensity为其包含的肽段intensity之和。基于MaxQuant内置的MaxLFQ算法,各个蛋白的intensity将基于不同样品间均鉴定到的肽段的定量信息进行校正,计算得到LFQ intensity,以尽量消除处理、上样、预分、仪器等造成的样本间误差,从而进行不同样品间相同蛋白的定量比较。而将蛋白的intensity除以各个蛋白的理论肽段数目,计算出的iBAQ数值,可粗略表征样品中不同的蛋白的摩尔比,用于对同一样品中的不同蛋白进行粗略比较。



(MaxQuant软件搜库算法流程The MaxQuant computational platform for mass spectrometry-based shotgun proteomics. Nat Protoc. 2016 Dec;11(12):2301-2319)

3. 数据库选择
蛋白质组数据库中包含的蛋白序列信息是否全面准确是影响搜库结果中蛋白鉴定和定量准确性的重要因素。理论上,在搜库中最合理的蛋白质组数据库应包含待测样品中所有可能存在的蛋白序列,同时尽量不包含样品中不存在的蛋白序列。但由于检测和搜库前无法获知待测样品的准确情况,在实际应用中,搜库时通常选择待测样品所属物种的全蛋白质组序列数据库。如果待测样品来源于多个物种,如病毒/细菌感染样品,则搜库所用数据库应尽量包含其中所有物种的蛋白序列。
受益于基因组和转录组测序的发展,Uniprot数据库(https://www.uniprot.org/)以及NCBI数据库(https://www.ncbi.nlm.nih.gov/)均已包含大量物种的蛋白质组序列信息。在蛋白质组学研究中,通常选择来源于Uniprot的蛋白质组序列数据。Uniprot是全球信息最全面、使用频率最高、冗余度最低的蛋白数据库,可免费获取高质量的蛋白序列和功能信息,数据库由Swiss-Prot(瑞士生物信息研究所)、TrEMBL(欧洲生物信息研究所)和PIR-PSD(蛋白信息资源)三大数据库的数据整合而成。其数据主要来自于基因组测序项目完成后获得的蛋白质序列,并包含了大量来自文献和人工注释的蛋白质的生物功能的信息。对于大部分已有研究的物种,Uniprot中已收录了其蛋白质组序列数据库,并给出了相近物种中较为全面和准确的参考蛋白质组序列数据库(Reference proteome)。
Uniprot数据库主要子数据库组成如下:



(Uniprot子数据库组成)

以上子数据库间的关系如下:Uniprot会收集EMBL、GenBank、DDBJ等公共数据库中的蛋白质序列及功能信息等原始数据,处理后存入UniParc的非冗余蛋白质序列数据库中;UniParc作为数据仓库,再分别给UniProtKB、Proteomes、UniRef 提供可靠的数据集,其中在UniProtKB数据库中Swiss-Prot是由TrEMBL经过手动注释后得到的高质量非冗余数据库,也是我们最常用的蛋白质数据库之一。



(Uniprot子数据库关系)

对于常见的模式物种,可通过选择数据库中已校验过的、注释信息更全更准确的蛋白条目(Reviewed/Swiss-Prot),以尽量缩减数据库规模,提高搜库速度和蛋白鉴定/定量的准确性。对于某些研究较少的物种,若数据库中其蛋白质组序列信息过少,可通过选择相近的、蛋白质组数据较全的物种的数据库进行替代参考;或通过选择其上级种属以扩大蛋白质组序列数据库规模。
4. MaxQuant设置和结果介绍
MaxQuant中具有大量的可调节参数,可以对搜库过程中的各个环节进行调整。在常规搜库中,大部分参数可沿用默认设置,仅需根据项目情况进行些许调整。大致过程如下:
首先,在“Raw data”界面,导入质谱采集的原始数据,并设置其样品名(experiment);对于来源于同一个样品分级分离得到的不同组分,还需要设置其组分信息(fraction)。



(原始数据导入和样品设置)

其次,在“Group-specific parameters”界面,可根据样本情况设置定量类型(Type)、翻译后修饰(Modification)和酶解类型(Digestion)。非标记定量的项目需要勾选“Label-free quantification”。



(定量、修饰和酶解设置)

然后,在“Global parameters”界面,需导入搜库所需的蛋白质组序列数据库Fasta文件(Sequences),同时,也可选择是否启用match between runs功能(Identification),以及是否计算iBAQ数值(Label free quantification)。



(数据库和其他设置)

搜库完成后,搜库结果可在“Visualization”界面进行查看,主要包括样品的总体扫描图谱(Map view)、鉴定和定量表格(Table view)、一级和二级谱图(MS features view)以及蛋白鉴定情况(Protein view)。



(结果可视化界面)

所有的鉴定及定量表格也会以txt格式保存于combine文件夹下属的txt文件夹中,其中proteinGroups.txt文件中关于蛋白的鉴定及定量信息是各类蛋白质组学研究中最常用最重要的数据。
总结
蛋白质组学研究中,数据库检索是通过搜库软件将谱图原始数据与已有数据库进行比对,从而解析谱图、获得肽段和蛋白鉴定信息的过程。因此要获得准确的蛋白鉴定和定量结果,需要选择合适的数据库和搜库软件。针对相同的数据,如果选择不同的数据库或不同的软件,得到的结果也会存在差异。目前,蛋白质组学研究中通常使用来源于Uniprot的物种蛋白质组序列数据库;而使用最广泛的蛋白质组学搜库软件之一则是MaxQuant,可满足大部分项目的分析需求,并提供业内认可的蛋白鉴定和定量数据。
回复 支持 反对

使用道具 举报

发表回复

您需要登录后才可以回帖 登录 | 立即注册 微信登录 手机动态码快速登录

本版积分规则

关闭

官方推荐 上一条 /3 下一条

快速回复 返回列表 客服中心 搜索 官方QQ群 洽谈合作
快速回复返回顶部 返回列表