今天跟大家分享一篇7+的非肿瘤生信文章,文章主要对结核患者进行程序性细胞死亡相关的分类并关联了免疫细胞分析。这篇文章于2023年5月发表在Frontiers in immunology(中科院2区, IF=7.3)上,文章标题:Classification of tuberculosis-related programmed cell death-related patient subgroups and associated immune cell profiling。 PART.01 研究背景
结核病(TB)是世界范围内严重的传染病。程序性细胞死亡(PCD)模式在许多疾病状态的发展和进展中发挥着关键作用,因此它们可能成为有效的生物标志物或治疗靶点,帮助识别和治疗结核病患者。
作者分析了结核病中PCD相关基因表达与免疫细胞浸润之间的关系,同时也揭示了基于PCD相关基因聚类分组的结核病患者免疫应答的差异。同时机器学习模型的使用能够有效地选择核心PCD相关基因。 PART.02 研究方法
数据获取和PCD相关基因的鉴定。由于本文研究的是非肿瘤疾病,作者在GEO数据中进行筛选,最终选定11个数据集用于后续的分析。另外,作者通过GSEA和KEGG基因集,综述,人工整理的方式确定了PCD相关基因。
差异表达基因的识别和分析。作者利用R包“limma”鉴定差异表达基因,后续基于DAVID网站进行了GO和KEGG富集分析,并利用R进行了GSVA分析。
免疫细胞富集分析。作者基于R包CIBERSORT算法计算每个样本中的免疫细胞丰度。
单细胞数据分析。作者从NCBI Short Read Archive获取原始数据,进行处理后进行聚类分析,并根据标记基因对聚类进行注释。
机器学习分析。作者主要进行了LASSO, SVM-RFE, RF, and Xgboost机器学习分析方法,这些分析是基于R包glmnet”, “kernlab”, “randomForest”, “xgboost”进行的。
诺姆图的构建和验证。作者绘制了诺姆图,并利用DCA曲线和ROC曲线进行验证。
亚群分析。使用R包R“ConsensusClusterPlus”,基于核心PCD相关基因的表达进行共识聚类,确定了数据集中患者的亚群。
qPCR分析。作者基于10名结核患者和10名健康患者的样本,对7个关键PCD相关基因的表达进行了检验。
潜在治疗复合物的鉴定。作者利用CMap网站,基于基因和药物之间的关系鉴定潜在的对疾病有效的分子。
PART.03 研究结果
图1:健康对照组和结核组基因表达的分布
图2:差异表达基因的功能富集分析,包括GO:BP,GO:CC, GO:MF和KEGG分析
图3:健康对照组和结核组免疫细胞浸润分析,展示免疫细胞的富集情况和比例
图4:差异表达基因和PCD相关基因有14个交集基因,并展示了这14个基因的表达情况
图5:基于机器学习选择基因选择PCD相关特征基因集
图6:作者基于机器学习筛选出的7个PCD相关基因构建了诺姆图,并绘制Calibration图和DCA曲线验证诺姆图,另外基于7个基因绘制了ROC曲线
图7:7个PCD相关基因的单细胞数据分析
图8:PCD相关基因高低表达组的GSEA分析
图9:基于PCD相关基因利用无监督聚类对患者进行分类
图10:不同亚组患者的GAVA通路分析
图11:不同亚组患者的功能富集分析和免疫细胞富集分析
图12: 基于无监督聚类在结核相关疾病中鉴定PCD相关亚型
图13:结核相关疾病亚群中22种免疫细胞类型相对富集的差异
图14:qPCR结果显示7个核心PCD相关基因的表达水平
图15:PCD相关差异表达基因的CMap评分热图 PART.04 总结
本文一共15张figure,除了Figure 14是利用临床样本进行了PCR验证,其余均是生信分析的结果。文章的具体分析思路和内容如下:
作者基于GEO数据库对健康对照组和结核组进行了基因差异分析,鉴定出了138个上调基因和11个下调基因(Figure 1)。接着,作者对这些基因进行了功能富集分析,并富集到免疫相关通路(Figure 2)。随后,作者进一步分析了健康对照组和结核组中免疫细胞的浸润情况,免疫细胞表现出不同的富集程度,这表明免疫在结核的进展中发挥作用,并且这一发现在单细胞数据中同样得到验证(Figure 3)。
作者基于差异表达基因和收集到的PCD相关基因取交集,得到14个基因,对这14个基因进行四种机器学习分析,最终取7个交集基因作为核心PCD相关基因(Figure 4-5)。作者基于核心PCD相关基因构建了诺姆图并验证其效果,还绘制了ROC曲线验证核心PCD相关基因的预后预测效果(Figure 6)。随后,作者分析了核心PCD相关基因与免疫浸润的关系,基于单细胞数据作者发现6个核心PCD相关基因与CD8+T细胞和Tfh细胞有强烈的负相关,这6个基因与中性粒细胞、活化的树突细胞、单核细胞、M0巨噬细胞、M1巨噬细胞、M2巨噬细胞和调节性T细胞的丰度显著正相关。这些结果表明核心PCD相关基因在结核病免疫浸润中的重要作用(Figure 7)。另外,GSEA方法也表明这7个核心PCD相关基因在病毒感染和免疫相关活性相关的通路中富集(Figure 8)。
接下来,作者基于7个核心PCD相关基因进行无监督聚类,将患者分为两个亚组(Figure 9)。并基于两个亚组进行了GSVA富集分析(Figure 10)。作者还比较了两个亚组间的差异表达基因,并进行了差异基因的功能富集分析,并比较了两个亚组间免疫细胞浸润的情况 (Figure 11)。
在结核相关的疾病中,作者同样基于7个核心PCD相关基因进行无监督聚类,病种包括类风湿性关节炎(RA)、慢性阻塞性肺病(COPD)、间质性肺病(ILD)、哮喘(Asm)、COVID-19、肺腺癌(LA)和系统性红斑狼疮(SLE)(Figure 12)。进一步地,作者比较了不同亚组间的免疫浸润情况(Figure 13)。
作者收集了10例结核患者和10例正常人的外周血,PCR验证了7个核心PCD相关基因在结核患者中高表达(Figure 14)。
为了研究结核相关疾病高危患者的潜在药物,采用CMap分析预测抗疾病小分子化合物(Figure 15)。
PART.05 研究拓展
这篇文章有几个亮点:
1.这篇文章针对的疾病不是肿瘤,相对而言非肿瘤疾病在生信方向上待挖掘的更多一些。
2.文中筛选核心基因时候利用了多种机器学习方法,有利于筛选出更准确的标志物。
3.在进行免疫细胞浸润的分析时,作者利用不同维度的数据(bulk层面和单细胞层面)分别进行了分析,使结果更有可信度。
4.作者基于核心PCD相关基因在结核患者中进行聚类,另外还在多种结核相关疾病中也进行了分析,这能体现出核心PCD相关基因应用的广泛性。
但是,文章也有一些不足之处,例如这几个基因仅仅在RNA水平上进行了验证,实验上相对来说较少。另外,文章的图片数量过多,结果展示较为分散,对一些图片进行组合后展示可能更有利于描述结果部分。
总体来说,该文瑕不掩瑜,文章的部分分析思路也可以为基金撰写提供思路,例如研究某个病种的某种相关表型时,可以先通过公共数据进行分析,找出差异基因,与表型相关的基因集取交集,获得一些重要的候选分子进行后续的研究。
|