立即注册找回密码

QQ登录

只需一步,快速开始

微信登录

微信扫一扫,快速登录

手机动态码快速登录

手机号快速注册登录

搜索

图文播报

查看: 358|回复: 5

[分享] 近年来,蛋白质组学好像越来越火,但研究蛋白质组学有何意义,一般用于什么领域呢?

[复制链接]
发表于 2025-3-11 15:24 | 显示全部楼层 |阅读模式
回复

使用道具 举报

发表于 2025-3-11 15:25 | 显示全部楼层

1、什么是蛋白质组?

蛋白质是由称为氨基酸的构建块组成的生物分子。蛋白质是生命所必需的,具有结构、代谢、运输、免疫、信号和调节等许多作用[1]。
术语“蛋白质组”是由澳大利亚博士生Marc Wilkins于1994年在意大利锡耶纳举行的研讨会上提出的[2]。它是一个概括性的术语,指的是一个生物体可以表达的所有蛋白质。每个物种都有自己的、独特的蛋白质组。
与基因组(每个生物体内的全套基因)不同,蛋白质组的组成随着时间和整个生物体的变化而不断变化[3]。因此,当科学家提到蛋白质组时,他们有时也是指某一特定时间点的蛋白质组(如胚胎与成熟生物体),或指生物体内某一特定细胞类型或组织的蛋白质组。


图1 | 人类基因组中大约有2万个基因,人类转录组中大约有10万个转录物,人类蛋白质组中超过100万个蛋白质形态
2、什么是蛋白质组学?

蛋白质组学是对蛋白质组的研究,研究不同的蛋白质之间如何相互作用以及它们在生物体内发挥的作用[4]。
虽然蛋白质的表达可以通过研究mRNA的表达来推断,mRNA是基因和蛋白质之间的中间人,但mRNA的表达水平并不总是与蛋白质的表达水平有很好的相关性[1,3]。此外,对mRNA的研究并不考虑蛋白质的翻译后修饰、裂解、复合物的形成和定位,或可以产生的许多变体mRNA转录本;所有这些都是蛋白质功能的关键。
1975年,随着二维蛋白电泳技术的发展,第一批符合“蛋白质组学”研究标签的实验开始进行[5]。
然而,只有在20多年后,随着质谱技术的发展,才有可能对每个样品的多个蛋白质进行真正的高通量鉴定[6]。
从那时起,质谱的灵敏度和准确性已经发展到可以可靠地检测到低至阿托摩尔范围的蛋白质(每10^18个分子中有1个目标蛋白分子)[7],而且其他各种蛋白质组学技术也得到了发展和优化。
3、蛋白质组学可以回答哪些关键问题?

广义上讲,蛋白质组学研究在蛋白质水平上为健康和疾病的细胞过程提供了一个全局的视角[3,4]。为此,每项蛋白质组学研究通常都会在目标生物体的蛋白质组中一次集中研究以下一个或多个方面,以慢慢建立现有的知识:
蛋白质鉴定哪些蛋白质在特定的细胞类型、组织或整个生物体中正常表达,或者哪些蛋白质的表达有差异?
蛋白质定量测量总的(“稳态”)蛋白质丰度,以及调查蛋白质的周转率(即,蛋白质在产生和降解之间的循环速度)。
蛋白质的定位蛋白质在哪里表达和/或积累与表达时间一样对蛋白质的功能至关重要,因为细胞定位控制着哪些分子相互作用的伙伴和目标可以使用。
翻译后修饰翻译后修饰可以影响蛋白质的激活、定位、稳定性、相互作用和信号转导以及其他蛋白质特征,从而增加了一个重要的生物复杂性层。
功能性蛋白质组学这一领域的蛋白质组学侧重于确定特定的单个蛋白质、一类蛋白质(如激酶)或整个蛋白质互动网络的生物功能。
结构蛋白质组学结构研究对蛋白质功能、药物发现的蛋白质目标的“可药性”和药物设计产生重要的洞察力。
蛋白质-蛋白质相互作用研究蛋白质之间如何相互作用,哪些蛋白质相互作用,以及何时何地相互作用。
4、蛋白质组学技术

4.1、低通量方法

4.1.1、基于抗体的方法
诸如ELISA(酶联免疫吸附试验)和Western blotting等技术依赖于针对特定蛋白质或表位的抗体的可用性,以识别蛋白质并量化其表达水平。
4.1.2、基于凝胶的方法
二维凝胶电泳(2DE或2D-PAGE)是最早开发的蛋白质组学技术,它使用电流根据蛋白质的电荷(第一维)和质量(第二维)在凝胶中分离。差分凝胶电泳(DIGE)是2DE的一种改良形式,使用不同的荧光染料,可以在同一凝胶上同时比较两到三个蛋白质样品。这些基于凝胶的方法被用来在进一步分析前分离蛋白质,例如质谱分析(MS),以及用于相对表达谱分析。
4.1.3、基于色谱的方法
基于色谱的方法可用于从复杂的生物混合物(如细胞裂解液)中分离和纯化蛋白质。例如,离子交换色谱法根据电荷分离蛋白质,尺寸排除色谱法根据分子大小分离蛋白质,亲和色谱法采用特定的亲和配体和其目标蛋白质之间的可逆相互作用(例如,使用凝集素纯化IgM和IgA分子)。这些方法可用于纯化和鉴定感兴趣的蛋白质,以及为进一步分析准备蛋白质,如下游的MS[8]。
4.2、高通量方法

4.2.1、分析微阵列、功能微阵列和反相微阵列
蛋白质微阵列将少量的样品应用于“芯片”进行分析(有时是以玻璃片的形式,表面经过化学修饰)。
特定的抗体可以被固定在芯片表面,用于捕获复杂样品中的目标蛋白。这被称为分析蛋白微阵列,这些类型的微阵列被用来测量样品中蛋白质的表达水平和结合亲和力。
功能蛋白微阵列被用来描述蛋白功能,如蛋白-RNA相互作用和酶-底物周转。在反相蛋白质芯片中,来自例如健康与病变组织或未处理与处理过的细胞的蛋白质被结合到芯片上,然后用针对目标蛋白质的抗体对芯片进行检测。


图2 | 正相和反相蛋白质芯片的区别
4.2.2、基于质谱的蛋白质组学
有几种“无凝胶”的方法来分离蛋白质,包括同位素编码亲和标签(ICAT)、细胞培养中的氨基酸稳定同位素标记(SILAC)和相对和绝对定量的同位素标签(iTRAQ)。这些方法既可以进行定量,也可以进行比较/鉴别蛋白质组学。
还有其他一些定量较少的技术,如多维蛋白质鉴定技术(MudPIT),其优点是更快和更简单。其他无凝胶的、用于蛋白质分离的色谱技术包括气相色谱法(GC)和液相色谱法(LC)[8,9]。
4.3、质谱分析工作流程

无论蛋白质样品是如何分离的,下游的质谱工作流程包括三个主要步骤:

  • 蛋白质/肽被质谱仪的离子源离子化;
  • 产生的离子根据其质量和电荷比被质量分析器分离;
  • 离子被检测。
当使用MS上游的无凝胶技术,如iTRAQ或SILAC,样品直接用于输入质谱仪。当使用基于凝胶的技术时,蛋白质点首先从凝胶中切出并被消化,然后用LC分离或直接用MS分析。
有两种主要的电离源,即:

  • 基质辅助激光解吸/离子化(MALDI);
  • 电喷雾离子化(ESI)。


图3 | 基于MS的蛋白质组学的两个主要电离源
其他不太常见的来源包括化学电离、电子冲击和辉光放电电离。
有四种主要的质量分析器:

  • 飞行时间(TOF);
  • 离子阱;
  • 四极杆傅立叶变换离子回旋加速器(FTIC);
  • 扇形电场和扇形磁场是另外两种不太常用的质量分析器。
5、什么是串联质谱?

肽可以进行多轮破碎和质量分析,这一过程被称为串联MS、MS/MS或MSn。通过将相同或不同的质量分析器串联起来,如四极杆-TOF(Q-TOF)或三极杆(QQQ)MS,可以利用不同质量分析器的优势,进一步提高整个蛋白质组分析的能力。
简单的质谱设置,如MALDI-TOF仅用于肽的质量测量,而串联质谱仪则用于确定肽的序列。
6、自上而下蛋白质组学与自下而上蛋白质组学

在自上而下蛋白质组学中,感兴趣的样品中的蛋白质首先被分离,然后再被单独表征[1,10]。
在自下而上蛋白质组学中,也被称为“鸟枪法”蛋白质组学,样品中的所有蛋白质首先被消化成复杂的多肽混合物,然后对这些多肽进行分析以确定样品中存在哪些蛋白质[1,10]。
名称说明方法
自上而下蛋白质组学在对感兴趣的样品中的蛋白质进行单独表征之前,首先要对其进行分离。蛋白质分离是根据质量和电荷进行的,如2DE、DIGE或MS。当使用二维电泳技术时,蛋白质首先在凝胶上被解析,然后被单独消化成肽,由质谱仪进行分析。当直接使用质谱时,含有整个蛋白质的未消化样品被注入质谱仪,蛋白质被分离,然后选择单个蛋白质进行消化,再对消化后的肽段进行一轮质谱分析。
自下而上蛋白质组学,或“鸟枪法蛋白质组学”样品中的所有蛋白质首先被消化成复杂的多肽混合物,然后对这些多肽进行分析以确定样品中存在哪些蛋白质。蛋白质首先被消化,消化后的多肽混合物被分馏并进行质谱分析,通常是在LC-MS/MS配置中。使用自动搜索算法将得到的肽序列与现有数据库进行比较。这些搜索引擎将实验获得的肽谱与硅基消化产生的蛋白质的预测谱相匹配(这被称为“肽谱匹配”)。可能有几种不同的自下而上的工作流程,包括依赖数据和不依赖数据的方法,以及这些方法的混合体。
自上而下和自下而上的方法都有各自的优点和缺点,以及各自更适合的应用[10,11]。例如,自上而下的质谱更适合于研究不同的PTMs和蛋白质的异构体。然而,它受到分离复杂的蛋白质混合物所固有的困难和MS对较大的蛋白质(特别是 > 50到70kDa)的敏感性下降的限制[1]。
相比之下,虽然自下而上的质谱中使用的肽(长度约为5到20个氨基酸)更容易分馏、离子化和片段化,但这种方法提供了对样品中最初存在的蛋白质的间接测量,并且严重依赖推断[1]。
一种混合的“自下而上”的方法已经被开发出来,它采用了比传统的自下而上蛋白质组学更大的肽段,从而有可能允许更多独特的肽段匹配。


图4 | 自上而下和自下而上蛋白质组学之间的差异。
7、蛋白质组学的数据分析

蛋白质组学研究,特别是采用高通量技术的研究,可以产生大量的数据[12]。除了产生的大量数据外,蛋白质组学的数据分析对于某些技术来说也是相对复杂的,如鸟枪法质谱[13]。更加复杂的是可用于蛋白质组分析的生物信息学工具的范围[14-17]。
蛋白质组研究人员在试图优化他们的蛋白质组数据的存储和分析方式时,面临着许多障碍[12]。
在计划蛋白质组实验时,科学家不仅需要考虑试剂和实验室设备的成本,还需要考虑数据存储和分析的成本,他们还必须评估所需的生物信息学技能和计算资源水平。
蛋白质组学研究往往需要多个数据处理和分析步骤,需要按照特定的顺序进行[12]。为了满足这一需求,研究人员越来越多地将所需的脚本、工具和软件组装成适合其特定研究问题的定制蛋白质组分析管道。
8、蛋白质组学的应用

蛋白质组学的应用多得令人难以置信,而且种类繁多。下表列出了其中一些应用:
蛋白质组学的应用描述和示例
个性化医疗根据每个病人的基因和表观遗传构成,为其量身定制疾病治疗,以提高疗效,减少不良反应。虽然到目前为止,基因组学和转录组学是此类研究的主要焦点,但蛋白质组学数据可能会进一步增加针对患者的管理维度。
生物标志物的发现鉴定蛋白质标记物,例如,胶质母细胞瘤的诊断和预后,以及评估患者对治疗干预的反应,如干细胞移植。
药物发现和开发识别潜在的药物靶点,检查选定的蛋白质靶点的可药性,开发针对候选治疗性蛋白质靶点的药物(例如,针对肝细胞癌)。
系统生物学对疾病途径和宿主-病原体相互作用的全系统调查,以确定潜在的生物标志物和治疗目标;对药物作用、毒性、抗性和疗效的全系统调查。
农业研究植物与病原体之间的相互作用,提高作物对洪水、干旱和其他环境压力的抵抗力的工程。
食品科学食品安全和质量控制,过敏原检测和提高食品的营养价值。
古蛋白组学研究古代蛋白质以进一步了解进化和考古。
天体生物学调查哺乳动物的免疫系统如何应对在太空中发现的外来微生物,以及研究在陨石上发现的前生物有机物质。
9、蛋白质组学的未来

目前,蛋白质组学工作流程在很大程度上依赖于质谱[1]。尽管这项技术已被证明是强大的,但研究人员现在正在展望蛋白质组学的未来,即“超越质谱”。尽管质谱的灵敏度很高,但样品中仍需要有数百万的目标分子才能被检测到。这意味着低浓度的目标分子(如血清生物标志物)在复杂的环境中(如人类血清)可能无法检测到,除非首先富集。
科学家们仍在寻找高通量蛋白质组技术的解决方案:

  • 在目标蛋白质组的动态范围内具有出色的灵敏度(例如,人类蛋白质组的灵敏度为10^7);
  • 可以直接读取整个蛋白质序列并识别其PTMs,以及;
  • 不需要从理论蛋白质匹配数据库中进行推断[1]。
有几种有前途的技术,虽然目前受到灵敏度、通量或成本的限制,但可能会在蛋白质组学领域占据主导地位[1]。这些技术包括新生的荧光指纹方法和尚未开发的用于蛋白质高通量单分子测序的亚纳米孔阵列。
随着蛋白质组学技术的发展,蛋白质组学数据分析的方法也将同样快速发展。例如,云计算、软件容器和工作流系统等数据技术的发展势头强劲,这些技术将使人们能够自由的获得用于蛋白质组数据分析的顶级计算资源,而不受研究人员的位置、IT基础设施或计算专长的影响[12,18,19]。
诊断科学编辑团队收集、整理和编撰,如需更多资讯,请关注公众号诊断科学(DiagnosticsScience)。
参考文献


  • Timp W, Timp G. Beyond mass spectrometry, the next step in proteomics. Sci Adv. 2020;6(2):eaax8978. doi:10.1126/sciadv.aax8978.
  • Wilkins M. Proteomics data mining. Expert Rev Proteomics. 2009;6(6):599-603. doi:10.1586/epr.09.81.
  • Beynon RJ. The dynamics of the proteome: strategies for measuring protein turnover on a proteome-wide scale. Brief Funct Genomic Proteomic. 2005;3(4):382-390. doi:10.1093/bfgp/3.4.382.
  • Garrels JI. Proteome. In: Brenner S, Miller JH, eds. Encyclopaedia of Genetics. London: Academic Press; 2001:1575-1578.
  • Graves PR, Haystead TA. Molecular biologist's guide to proteomics. Microbiol Mol Biol Rev. 2002;66(1):39-63. doi:10.1128/mmbr.66.1.39-63.2002.
  • Andersen JS, Mann M. Functional genomics by mass spectrometry. FEBS Lett. 2000;480(1):25-31. doi:10.1016/s0014-5793(00)01773-7.
  • Bekker-Jensen DB, Martínez-Val A, Steigerwald S, et al. A compact quadrupole-orbitrap mass spectrometer with FAIMS interface improves proteome coverage in short LC gradients. Mol Cell Proteomics. 2020;19(4):716-729. doi:10.1074/mcp.TIR119.0019061.
  • Aslam B, Basit M, Nisar MA, Khurshid M, Rasool MH. Proteomics: Technologies and their applications. J Chromatogr Sci. 2017;55(2):182-196. doi:10.1093/chromsci/bmw167.
  • Chandramouli K, Qian PY. Proteomics: challenges, techniques and possibilities to overcome biological sample complexity. Hum Genomics Proteomics. 2009;2009:239204. doi:10.4061/2009/239204.
  • Zhang Y, Fonslow BR, Shan B, Baek MC, Yates JR 3rd. Protein analysis by shotgun/bottom-up proteomics. Chem Rev. 2013;113(4):2343-2394. doi:10.1021/cr3003533.
  • Zhang H, Ge Y. Comprehensive analysis of protein modifications by top-down mass spectrometry. Circ Cardiovasc Genet. 2011;4(6):711. doi:10.1161/CIRCGENETICS.110.957829.
  • Perez‐Riverol Y, Moreno P. Scalable data analysis in proteomics and metabolomics using BioContainers and workflows engines. Proteomics. 2020;20:1900147. doi:10.1002/pmic.201900147.
  • Hu A, Noble WS, Wolf-Yadlin A. Technical advances in proteomics: new developments in data-independent acquisition. F1000Res. 2016;5:F1000 Faculty Rev-419. doi:10.12688/f1000research.7042.1.
  • Ison J, Rapacki K, Ménager H, et al. Tools and data services registry: a community effort to document bioinformatics resources. Nucleic Acids Res. 2016;44(D1):D38-D47. doi:10.1093/nar/gkv1116
  • Henry VJ, Bandrowski AE, Pepin AS, Gonzalez BJ, Desfeux A. OMICtools: an informative directory for multi-omic data analysis. Database. 2014;2014:bau069. doi:10.1093/database/bau069.
  • Afgan E, Baker D, Batut B, et al. The Galaxy platform for accessible, reproducible and collaborative biomedical analyses: 2018 update. Nucleic Acids Res. 2018;46(W1):W537-W544. doi:10.1093/nar/gky379.
  • Tsiamis V, Ienasescu H, Gabrielaitis D, Palmblad M, Schwämmle V, Ison J. One thousand and one software for proteomics: Tales of the toolmakers of science. J Proteome Res. 2019;18(10):3580-3585. doi:10.1021/acs.jproteome.9b00219.
  • Cole BS, Moore JH. Eleven quick tips for architecting biomedical informatics workflows with cloud computing. PLoS Comput Biol. 2018;14(3):e1005994. doi:10.1371/journal.pcbi.1005994.
  • Lawlor B, Sleator RD. The democratization of bioinformatics: A software engineering perspective. GigaScience. 2020;9(6):giaa063. doi:10.1093/gigascience/giaa063.
***
回复 支持 反对

使用道具 举报

发表于 2025-3-11 15:26 | 显示全部楼层
蛋白质是对现状更直接的呈现,可以更早发现疾病、更确切显现治疗效果


之前写了一篇  
蛋白组学——Olink、Seer、Encodia的技术对比和国内发展概况(上)
蛋白组学——Olink、Seer、Encodia的技术对比和国内发展概况(下)
可以再补充几个case~


文章里有Olink、Seer、Endodia,可以补充下Somalogic、Quanterix、QuantumSi、Nautilus、Erisyon
Somalogic——提升传统ELISA特异性+降低读取难度


备注:此处覆盖蛋白质是指在血液样本中,血液样本的蛋白质检测难度通常要高于其他类型的样本
综合指标

  • 覆盖度


  • 截至2021.6.SOMA试剂库累计对应可检测7,000种蛋白质,(基于血浆或血清样本,需55ul样本量,可能需要很多次分别检测),预计2年内可达20,000种
  • 单次可检测的蛋白质种类不详 ,只提及特异性检测抗体20-50种


2.灵敏度:与一些三明治法ELISA相同(77~93%,未公布细节)


3.特异性:有过验证,综合数据未披露
4.偏差CV=5%检测7,000种蛋白的情况下)


SOMAscan技术原理及流程


核心能力分析
技术分析:
1.虽然致力于提升特异性,但流程过于复杂,很多操作都会影响到结果,比如:

  • 第3步中生物素是否全部转移到蛋白质上
  • 第6步中聚阴离子是否正确结合非特异性蛋白(可能结合不完全,也可能结合有SOMA的特异性蛋白)
2.没有提升敏感度,即第1步中的特异性结合是否完全
专利:700项(530项已授权、230项申请中),全球,2021-2039到期,内容除了常规的方法试剂盒,还集中于核酸适配:分析方法SOMA试剂中的DNA片段(适配核酸)化学修饰物


除技术/专利外,还有独特的数据资源:来自临床biobank已标注的样本(约40%的样本)

应用:与Olink类似,产品化已经做得很好
SomaScan®在美国获得LDT
12SomaSignal™测试是以LDT方式获得CLIA认证,另有100种在进程中



Quanterix——单分子测序技术提高敏感度,挖掘下游应用


阶段(&收入):

  • 很早成立,是一家老牌的蛋白分析仪器厂商,在2014年就发布了自己的第一代机型Simoa HD-1 Analyzer
  • 2020年收入$86.4million

  • 来自器械25%耗材38%、加速器27%、其他服务10%
  • 按应用领域来分,神经63%肿瘤31%、其他6%
  • 客户占比药企/CRO60%、行业40%


  • 累计投放535台设备
关键指标:



备注:覆盖蛋白质种类数量截至2020FY(2021.1.)

专注的应用领域:神经免疫&肿瘤心脏病传染病发炎,方式都是生物标记物检测,能实现早期检测
综合指标
覆盖度:累计可检测蛋白质生物标志物403种——神经32种免疫&肿瘤31种传染病244种其他心脏病发炎…96种


效率:4个机型(3个已发布)单次检测蛋白质数量6-10个/次,可进行30-100次分析


敏感度:提升10^3



综合指标
技术是基于传统ELISA,区别是引入了微孔来逐一固定蛋白质并进行检测,与基因测序领域的数字PCR vs 传统PCR类似原理


有点是:
•在面向低丰度蛋白时,不会稀释(稀释还可能需要引入更多酶)
•读取时候的检测限制更少

核心专利及技术
截至2017年9月,共16项专利和2项Tufts大学的授权专利,美国、欧洲,2021-2038年到期,主要涉及8套3个主要方面:
1.单分子物体检测方法(不止是蛋白质)
2.仪器和耗材
3.优化:分子和表面结合方法、提升准确性的捕获方法、减少或提高信号衰减


应用领域——基于生物标记物检测的早筛,尤其在神经领域
专注应用领域:神经免疫&肿瘤传染病其他心脏病发炎…),方式都是生物标记物检测,能实现在疾病早期检测



Nautilus——用荧光亲和探针测定蛋白质基序,不破坏蛋白样本,可重复测定


阶段(&收入):
暂无收入,预计在2023年H2以前不会有实质收入(material revenue)
关键指标:
•预期在2022年初-2022年末之间,实现蛋白质种类从2,500-10,000种的覆盖


(题外话:第一款产品成熟大约2022年中,2023年开始收入,专利也还没申请下来,总感觉此时上市有些仓促,可能是其他家都在上不想错过时间。但上市后的股价还是没撑住,seer也一直跌。倒是ELISA系的几家一直在涨,一直追求覆盖深度,似乎数据层面还没突破到临界点,业务层面也没能很快实现应用场景)
综合指标
当前跑通单分子多循环读取,预期2022年实现2,500种蛋白质的检测


敏感度特异性未明确提及
丰度检测未明确提及,但基于纳米芯片捕获固定,丰度检测应该是可以有不错表现 (用于捕获蛋白质的纳米芯片容量是10^10,意味着可以容纳丰度前95%人类蛋白质)

技术原理



专利
专利目前基本还是pending状态,细节没提及,美国、全球,预计申请下来是2037-2042到期


纳米芯片、捕获&固定的方法、亲和探针种类、基序-蛋白质的比对数据库都会是核心技术
当前探针种类是300种,即可以探测<300种蛋白质基序



Quantum-si——氨基酸层面的单分子测序,创新光子时间读取


阶段(&收入):暂无收入,阶段还比较早期
关键指标不详
(但即使阶段还这么早,读取层面的可靠性可能不足(相比之下,Encodia的DNA有更高的预期可靠性),市值也还是在同为单分子测序的Nautilus之上)

综合指标&发展规划
主要的发展计划大约是这个样子:



单分子测序,基于氨基酸层面,光子时间+颜色的荧光测序



Erisyon——氨基酸层面的单分子荧光测序,可“缺位识别”


阶段&进展:
•发过的paper:
“Highly Parallel Single-Molecule Identification of Proteins in Zeptomole-Scale Mixtures”
–Nature Biotechnology
“Solid-phase peptide capture and release for bulk and single-molecule proteomics”
–ACS Chemical Biology
•应用:

  • 帕金森早期检测&诊断——生物标记物检测
  • 更好的肿瘤免疫治疗——直接检测新生抗原蛋白(突变蛋白,T细胞治疗的新靶点)
  • 揭示病毒逃避免疫系统的伪装机制,如新冠——识别其逃避免疫系统伪装的糖基化模式
分子测序,基于氨基酸层面,荧光测序——配合数据库实现“缺位识别”



如果需要完整版PDF/加入蛋白组学讨论群,可以关注我们的公众号,并在微信号里私信我
(加好友请备注:姓名+机构/公司 谢谢~)


融资相关事宜,科技、医疗领域,BP请投:keyue@cy.vc
<hr/>转一则朋友的招聘哈,需求:
杭州一家快速发展的质谱蛋白质组学公司在寻找:科服销售(base深圳、广州、上海、杭州、北京均可)、质谱应用工程师、技术支持经理、技术支持工程师、IVD试剂研发工程师、细胞培养研究员、医学项目高级专员、实验技术员、市场专员。待遇很有竞争力。
地点:杭州、上海、深圳等。对哪个感兴趣可以加15576099054了解岗位详细信息进行推荐
回复 支持 反对

使用道具 举报

发表于 2025-3-11 15:26 | 显示全部楼层
谢邀~

如今,AI+多组学是21世纪生命科学的重要研究领域。
过去不到一年的时间里,AlphaFold2 不仅破解了困扰学术界长达五十年之久的 “蛋白质折叠” 难题,并正式官宣免费开源,向公众开放了迄今为止最完整、最准确的人类蛋白质三维结构数据库。
“AlphaFold2 通过氨基酸序列即可对蛋白质结构做出精确预测,这确实令人惊叹,然而如果把生命体比作手表或者汽车,蛋白质就是生命活动的齿轮和零件,只知道齿轮的形状(即蛋白质结构)远不能组装成手表或者汽车。因此如果要了解人体的运转机制,不仅需要知道蛋白质长什么样子,更需要了解机体细胞组织中细胞在各种状态下蛋白质的类型和数量,这是蛋白质组学所做的事情。” 蛋白质组学大数据初创公司西湖欧米创始人郭天南博士说。
他是西湖大学蛋白质组大数据实验室特聘研究员,多年来一直从事蛋白质组学研究,在蛋白质组技术开发和应用上做出了多项原创性成果。在苏黎世联邦理工大学从事博士后研究期间,曾开发了一项基于质谱的微量生物样本蛋白质组分析技术,据悉,这也是Nature Medicine上唯一一篇关于蛋白质质谱技术相关的论文。进入西湖大学以后,郭天南博士及其团队也一直在优化和改进这项技术。



图 | 西湖欧米创始人郭天南博士(来源:受访者提供)

“约六年前,FDA 首次提出将蛋白质谱技术应用于临床试验中,然而至今还没有产品真正获批。我们希望能在中国将蛋白质谱真正推向临床和疾病诊断应用中。”
2020 年 7 月,郭天南决定把在蛋白质组学领域多年的研究成果落地,并通过 “西湖英才计划” 正式成立西湖欧米生物科技公司。“西湖英才计划” 是西湖区 2020 年启动的一项引智工程人才政策。
2021 年 3 月,西湖欧米完成了辰德资本、高榕资本、高瓴创投参与的种子轮融资。
在采访中,郭天南告诉生辉,只要和生命相关的领域,都会有蛋白质组的用武之地。西湖欧米致力于打造蛋白质组学领域的 “AlphaFold”。



(来源:受访者提供)

目前,该公司正在进行 Pre-A 融资,并在推进甲状腺结节良恶性诊断产品的定型以及临床试验,同时其有多个产品管线正处于不同的阶段。西湖欧米正在加强 AI + 多组学数据团队建设,并尝试将蛋白质组学应用于疾病诊断和药物开发的各个环节。

“AI + 多组学是 21 世纪生命健康的重要研究领域”

通常情况下,许多疾病诊断的 “金标准” 是通过依靠病理学对细胞形态的观察和描述。随着技术快速发展,越来越多的分子诊断作为辅助手段应运而生。然而,目前绝大多数分子层面的辅助诊断多为基因层面的检测,单一层面的分子变化水平,对于复杂疾病的诊断价值十分有限。因此,多组学技术也越来越多地被应用于疾病病因研究中。



(来源:biomech)

“分子是生命活动的本质,分子生物学层面的基因组、转录组、蛋白质组、代谢组等多组学研究的意义就相当于 “超级显微镜” 的发明,能够有效地帮助我们去观察和研究,从而更好地诊断检测疾病。不同组学层面的分子是生命活动的基本元件,而人体复杂的系统需要利用 AI 技术去分析与辅助理解,AI + 多组学是 21 世纪生命健康的重要研究领域。” 郭天南告诉生辉。
“我很看好蛋白质组学在疾病诊断和治疗领域的发展潜力,这种技术可以真正帮助医生从微观世界分析疾病特征。蛋白质组学有潜力成为与病理检测并驾齐驱的另一种重要技术,将 AI 技术引入蛋白质组学当中,二者结合更有可能达到精准医学的目的。” 西湖欧米 AI 专家胡一凡说。
“实验室技术的突破,促进了蛋白质组学领域数据量的提升,催生了数据驱动的生物医疗产品出现。” 西湖欧米数据科学家王博介绍道。



图 | 左为西湖欧米 AI 专家胡一凡、右为西湖欧米数据科学家王博(来源:受访者提供)

郭天南补充道二十年前,互联网的兴起催生了一大批优秀的公司,也促成了一大批科技成果的转化;而近年来,这些科技基础将会催化影响生命科学领域的大企业的萌芽。我们希望可以身处其中,以大数据 + AI 的技术模式发现生命健康在微观层面的运动规律,并以此辅助健康状态的监测以及疾病的诊断与治疗。

样本量少、精度高

“蛋白质既可以诊断疾病,又可以用于开发有效的药物靶点。蛋白质组学技术的广泛应用,有可能颠覆性改变整个疾病诊疗的范式。” 郭天南说。
据他介绍,人体出现疾病的时候,基因不一定会发生变化,但蛋白质作为生命活动的执行者,往往会出现丰度和功能的改变,所以我们可以通过微创或无创的技术对机体的蛋白质组进行实时状态的检测,并配合海量数据库对健康状态进行评估。
“一个细胞的蛋白质组体系甚至比地球所有交通系统都要复杂,想要进一步研究探索蛋白质组学,需要研究系统生物学,采用系统科学的方法。” 郭天南说。
于是,郭天南提出了 “蛋白质大数据” 这样一个概念,通过质谱检测逐步地产生蛋白质大数据并利用 AI 建模分析。通过这种方法预测和解释蛋白质表达、数量、种类之间的关系,分析健康与疾病状态的变化,以及用药前后蛋白质变化等。
现阶段,西湖欧米的业务聚焦在疾病诊断和药物研发等方面。



(来源:受访者提供)

郭天南告诉生辉,西湖欧米质谱蛋白质组学的一大优势在于检测所需的样本量更少,准确度更高。
要实现这一目标的关键在于压力循环技术(Pressure Cycling Technology),这是一项新型、高效的生物样品制备专利技术。该技术可以利用多次常压和超高(液)压之间的快速循环,实现生物分子的精确提取。这种方式可以彻底改变产品取样难的问题,可以应用于基因组学和蛋白质组学样品处理,以及新药研发等领域。

预计明年年初完成产品定型

目前,西湖欧米团队规模大约 80 人,主要业务包括 AI 赋能蛋白质组分析技术、科研服务和临床试验,比如针对各种临床样品与生物样品的蛋白质组分析,甲状腺结节良恶性诊断产品的定型等。
“此前我们在西湖大学已经进行了大量的科学研究,数据证明 AI + 蛋白质组学是可以进行甲状腺结节良恶性判断。我们现阶段的关键在于如何将这项技术应用到临床诊断,规模化做出物美价廉的产品。
甲状腺结节发生率高,中国成人甲状腺结节发生率约为 20.43%,平均每 5 个人里就有 1 个人有甲状腺结节。甲状腺结节有良恶性之分,但却没有特异的临床表现,因此仅靠触诊、超声检查以及体检往往无法做出精准判断,需要病理学、化验等结合才能避免 “漏网之鱼”。
2020 年 6 月,郭天南团队参与研究的论文发布在MedRxiv杂志上,该研究利用蛋白质组大数据和 AI 手段,发现了一组可以区分甲状腺结节良恶性的蛋白质分子标记物。



(来源:MedRxiv)

(来源:MedRxiv
也这是基于这项研究,西湖欧米的第一个突破点瞄准了甲状腺结节蛋白质组的大数据,同时还开发了针对甲状腺结节的 AI 模型。
郭天南告诉生辉,目前西湖欧米针对甲状腺结节已经收集了超过 3000 例样品的蛋白组学分析数据,同时还收集了 1000 多例前瞻性样品。而且正在利用临床质谱进行数据采集和 AI 建模,开发针对甲状腺结节的诊断产品。
现阶段,该产品管线进展最快,预计明年年初产品会完成定型。
代谢综合征是他们团队选择的另一个适应症,该类疾病大约影响了 30% 的成年人,且发病率随年龄增长,而逐步上升。据介绍,西湖欧米针对该类疾病已经进行了一万多个血液样品蛋白质组学样品分析。
郭天南补充道,西湖欧米还在希望推进一个健康诊断项目。该项目针对没有疾病表征的健康及亚健康人群,判断他们是否存在疾病征兆。其原理则是检测尿液中的蛋白,因为尿液蛋白与机体免疫和代谢密切相关,利用质谱仪检测尿液中的数千种蛋白,推出健康人群尿液蛋白质组学检测的健康诊断产品。
据了解,西湖欧米还计划在 2-3 年内开拓基于蛋白质标志物对多种疾病的检测。

“没有数据支撑的 AI 模型是空中楼阁”

“数据越多,AI 用武之地会更大。现有数据大部分是宏观数据,而人体生命活动实际上是微观世界蛋白质活动组成的,宏观层面的变化往往通过微观层面的变化反映出来。” 郭天南说
数据将是西湖欧米绕不开的话题,当前该公司的重中之重就是产生足够的针对微观世界的蛋白质组学数据。
通过大量的蛋白质组数据以及分析所得的独特数据,西湖欧米的 AI 团队也会对机体生命活动有一个更加深入、更具有前瞻性的理解。
以 AlphaFold2 为例,该 AI 模型是基于多年积累近十几万级别的蛋白质三维结构数据库而开发完成的,且利用了一定的生物学先验知识。因此,在这些数据和知识的基础上,AlphaFold2 才能建立 AI 模型,精准预测分子以及氨基酸的位置。预测精确高的关键就在于大量的数据以及生物学知识的深入理解。
没有数据支持的 AI 模型是空中楼阁,西湖欧米 AI 模型的优势就是数据独特、精确、且数据量大。” 胡一凡总结道。



(来源:Brief Bioinform.)

西湖欧米要利用蛋白质组学进行疾病诊断,就需要开发不同疾病的 AI 模型,一个重要前提就是需要足够的蛋白质组数据和理解不同的数据,并挖掘数据背后的生物学意义。
但目前,蛋白质组学领域整体数据不足,比较零散。
“我们要搭建蛋白质组学领域的‘AlphaFold’,必须做好数据准备和收集工作并标准化所收集的数据,产生数据关联,挖掘出数据的生物学特征和意义,在以上数据基础上建立可靠的 AI 疾病诊断系统,最终搭建一套端到端疾病模型系统。” 胡一凡说。
“大数据可以分为三个方面,分别是数据体量大、数据变化快,数据种类多。蛋白质组学大数据的关键在于体量和种类,我们的目标是产生百万级蛋白质组学数据。” 王博介绍道。
一般来说,越复杂的数据模型往往需要大量的多维度数据进行训练,同时对数据可解释性的要求也会增加。
王博告诉生辉,西湖欧米计划通过产生多组学数据,然后把不同维度的数据整合在一起,建立更复杂、更全面的模型,比如说深度学习模型。
具体来说,第一,产生足够的蛋白质组数据,并结合统计学和生物学知识开发一套数据质量评价系统,以快速有效衡量数据质量;第二,对数据进行多层分级,将数据分为原始数据,预处理的数据及基于生物学意义扩充的数据,并不断迭代;第三,建立数据目录记录元数据及解释数据,以提升数据的可解释性、可追溯性以及可用性。

关于蛋白质组学更多相关讯息,在历史文章中搜索即可(gzh:生辉)。
回复 支持 反对

使用道具 举报

发表于 2025-3-11 15:27 | 显示全部楼层
蛋白质组学(Proteomics)是研究细胞、组织或生物体中蛋白质组成、定位、变化及其相互作用规律的科学,包括对蛋白质表达模式和蛋白质组功能模式的研究。蛋白质组学的发展对寻找疾病的诊断标志、筛选药物靶点、毒理学研究等有重要意义,也因此被广泛应用于医学研究。
蛋白质组学研究主要有以下思路:
蛋白质组学技术在各领域的解决方案
回复 支持 反对

使用道具 举报

发表于 2025-3-11 15:28 | 显示全部楼层
泻药
怎么说呢……
意义当然是可以发文章啦~
开个玩笑,实际上你问的太宽泛了,研究这个大概可以概括为是研究基因组运作的机理的一部分,一大部分。应用目前就是分子医学吧,应该没有大规模产业化。
溜了溜了
回复 支持 反对

使用道具 举报

发表回复

您需要登录后才可以回帖 登录 | 立即注册 微信登录 手机动态码快速登录

本版积分规则

关闭

官方推荐 上一条 /3 下一条

快速回复 返回列表 客服中心 搜索 官方QQ群 洽谈合作
快速回复返回顶部 返回列表