Py学习  »  机器学习算法

4+泛凋亡+机器学习+实验+单细胞+分子对接,这篇干湿结合文章可复现性极高!

生信分析手册 • 10 月前 • 208 次点击  

导语

今天给同学们分享一篇生信文章“Investigates the Role of PANoptosis in Idiopathic Pulmonary Fibrosis and Potential Therapeutic Targets”,这篇文章发表在J Inflamm Res期刊上,影响因子为4.2。


结果:


IPF和对照组之间PANDEG的鉴定
首先,对GSE 110147数据集中的IPF组和正常组进行主成分分析(PCA),揭示了两组之间的明显对比(图2A)。根据建立的阈值,在对照组和IPF组中共鉴定出3175个差异表达基因(DEG),包括1198个下调基因和1977个上调基因。使用热图和火山图可视化这些DEG的表达(图2B和C)。PANoptosis基因集包括与焦亡、坏死和凋亡相关的基因,共计485个基因。3175个DEG和PANoptosis基因集的交集产生104个PANDEG(图2D)。这些PANDEG的表达通过热图可视化(图2E)。

PANDEG的功能富集分析
进行GO和KEGG富集分析以鉴定与PANDEG相关的相关信号通路和生物学功能。GO富集分析的结果表明,这些生物过程主要涉及细胞凋亡信号传导途径、细胞因子产生、病毒应答和蛋白质催化剂等的调节(图3A)。细胞组分的分析显示,蛋白酶体复合物、内肽酶复合物、分泌腔颗粒和细胞质空泡具有显著的重点(图3B)。此外,分子功能的富集分析突出了诸如蛋白丝氨酸/苏氨酸酶活性、泛素样蛋白连接酶活性和细胞因子受体结合的活性(图3C)。KEGG分析结果表明,PANDEG在与阿尔茨海默病、坏死性凋亡、EB病毒感染、朊病毒病、甲型流感和NOD样受体信号传导途径等相关的途径中显著富集(图3D)。

免疫浸润与PANDEG的相关性
免疫细胞在IPF的发病和进展中起着至关重要的作用。富集分析表明PANDEG与各种免疫相关的信号通路相关。因此,作者评估了免疫细胞浸润和PANDEG之间的相关性。结果显示,在检查的24种免疫细胞类型中,17种在IPF组和正常组之间表现出显著差异(图4A和B)。此外,免疫细胞显示出显著的相关性(图4C)。具体而言,巨噬细胞、CD4 T细胞、中性粒细胞和nTreg细胞等在IPF组中主要富集,而对照组显示出DC细胞、B细胞和单核细胞等的较高富集。由于巨噬细胞在IPF的发生和发展中的关键作用,34作者关注巨噬细胞。在IPF患者中,巨噬细胞富集评分中位数为0.02255,分布范围为(下须:0.019,上须:0.282)。在正常患者中,巨噬细胞的中位富集分数为0.064,分布范围为(下须:0,上须:0.08)。因此,IPF患者中巨噬细胞的富集程度显著增加。相关性检验结果表明,PANDEG主要与巨噬细胞、CD4 T细胞、中性粒细胞等呈正相关,与单核细胞、NK细胞、B细胞、DC细胞等呈负相关(图4D)。

基于机器学习的诊断基因选择
机器学习方法越来越多地用于IPF的诊断和预后。最初,通过LASSO回归分析从PANDEG中选择十个预测的标签(PPP 3CB、PDCD 4、PSMD 8、AKT 1、PSMA 2、SOD 1、PSMA 4、CHMP 2 B、PSMD 7、PSMD 14)基因(图5A和B)。随后,这些基因在GSE 53845数据集中得到验证。结果表明,总共6个基因表现出显著差异,其中5个基因表现出表达变化的一致趋势(图5C)。采用QPCR确认5种先前鉴定的基因的表达水平,结果表明4种基因-AKT 1、PDCD 4、PSMA 2和PPP 3CB-的表达水平具有统计学显著性(图5D-H)。因此,这4个基因最终被指定为IPF中的PANoptosis诊断基因。

特发性肺纤维化诊断预测模型的建立与评价
最初,相关性热图和圆形图说明了与IPF相关的4个诊断基因之间的相关性(图6A和B)。随后,使用验证集GSE 53845生成这4个基因的ROC曲线,并计算AUC。获得AKT 1(AUC=0.818)、PDCD 4(AUC=0.876)、PSMA 2(AUC=0.817)和PPP 3CB(AUC=0.873)(图6C-F)。作者对4个基因进行了多变量logistic回归分析,并利用ROC曲线来评估模型。在训练集中,该模型的AUC为1(图6 G),而在验证集中,AUC为0.981(图6 H)。这些结果表明,诊断模型具有非常高的诊断价值。随后,作者构建了基于特征基因的诊断列线图(图6 I),并用校准曲线评估了模型的预测性能(图6 J)。校准曲线的结果表明,该模型的预测概率与实际结果密切相关,表明该模型具有相当的准确性。

基于机器学习的预测模型选择
对104个PANDEG进行了单变量考克斯回归分析,以识别预后相关基因,得到的森林图显示了26个具有统计学显著差异的基因(图7A)。随后,应用LASSO回归选择16个特征基因(图7 B和C)。SVM-RFE算法鉴定了具有最低错误率的前15个基因,然后将其与通过LASSO回归选择的基因进行比对,产生最终的8个基因的集合(图7 D)。对这8个基因进行多变量考克斯回归分析,揭示TNFRSF 12 A、DAPK 2、UACA和DSP是独立的预后因素(图7 E)。Kaplan-Meier曲线说明了每个基因的高表达组和低表达组之间的生存差异。因此,这四个基因被分类为PAN下垂预后基因。

特发性肺纤维化预后预测模型的建立与评价
基于多变量考克斯回归分析的结果,建立了预后列线图(图8A)。根据4个基因的表达水平和相应的预后模型系数,计算每个患者的风险评分。根据中位风险评分将患者分为高风险组和低风险组。在训练集中,高风险组的预后显著差于低风险组(图8B)。ROC曲线表明预后模型具有良好的预测值,AUC为0.741(图8C)。此外,将临床信息纳入GSE 700886数据集中进行多变量考克斯回归分析,作者观察到风险评分仍然是IPF患者的独立预后因素。GSE 93606数据集用作模型的验证集,KM曲线进一步证明高风险组的预后显著差于低风险组,AUC为0.66(图8D和E)。为了评估结果的有效性,并确保良好的预测性能不是由于随机机会,作者使用随机排列测试进一步评估。结果显示,代表预后模型的红色虚线落在图像的最右侧,显著大于具有随机排列的数据集(p<0.0001)(图8F)。因此,预测模型明显优于随机预测。为了进一步验证预后基因的表达,作者构建了博莱霉素诱导的肺纤维化小鼠模型。HE和Masson染色结果显示对照组肺组织结构正常,无明显炎性细胞浸润和纤维化。相反,在博来霉素组中,肺泡壁显著增厚,观察到炎性细胞的大量浸润,并注意到显著的胶原沉积(图8 G)。采用QPCR来确认这4种PAN凋亡预后基因的表达,并且结果表明统计学上显著的差异(图8H-K)。

PAN凋亡的单细胞水平表达
作者利用GSE 122960 scRNA-seq数据集来阐明肺组织中存在的固有细胞异质性,其包括来自8名移植供体和4名IPF患者的样本。按照方法部分中概述的质量控制程序,作者总共获得了57,050个细胞用于后续分析。利用在先前研究中鉴定的标记基因,25作者注释了总共十种不同的细胞类型,包括AT II细胞、AT I细胞、巨噬细胞、单核细胞、B细胞、T&NK、纤毛细胞、内皮细胞、俱乐部细胞和成纤维细胞(图9A和B)。作者采用“AddModuleScore”函数来评估各个细胞中PAN光变性相关基因的预后评分。结果表明供体和IPF患者之间AT II细胞、AT I细胞、巨噬细胞、单核细胞和T&NK细胞之间的评分存在显著差异(图9 C)。鉴于免疫浸润分析揭示了IPF中巨噬细胞的主要富集,并认识到巨噬细胞在IPF的发作和进展中发挥的关键作用,38-40作者将分析重点专门放在巨噬细胞上。作者将巨噬细胞分为6种不同类型:肺驻留巨噬细胞、clec 4高巨噬细胞、促纤维化巨噬细胞、促炎性1巨噬细胞、促炎性2巨噬细胞和MT高巨噬细胞(图10 A和B)。应该注意的是,由于促炎性巨噬细胞在UMAP上分布得很远,因此基于其高变基因将其细分为2个亚组。为了探索IPF中不同巨噬细胞亚群的顺序发展,作者进行了巨噬细胞的伪时间轨迹分析。在轨迹开始时,主要观察到促炎性2巨噬细胞和肺部驻留巨噬细胞。相反,在轨迹的末端鉴定了促纤维化巨噬细胞(图10 C-E)。使用“AddModuleScore”函数评估每个细胞的PAN凋亡预后基因(图10 F)。结果表明,肺驻留巨噬细胞、clec 4 e高巨噬细胞和MT高巨噬细胞在IPF患者中表现出较高的评分,而促炎性2巨噬细胞在IPF组中表现出较低的评分。具体而言,IPF患者中肺部驻留巨噬细胞的中位PAN下垂评分为−0.0247(下须:−0.0734,上须:0.0224),供体组为−0.0431(下须:−0.1,上须:0.0235)。并且,IPF患者中促炎性2巨噬细胞的中位PANoptosis评分为−0.05(下须:−0.127,上须:0.171),供体组为−0.036(下须:−0.124,上须:0.386)。


细胞间通讯
为了阐明巨噬细胞和其他细胞群体之间的潜在相互作用,作者进行了细胞间通讯分析,这是基于配体-受体基因表达的计算。作者根据先前建立的巨噬细胞PANoptosis预后基因评分将巨噬细胞分为2种类型,利用中值区分PANoptosis高巨噬细胞和PANoptosis低巨噬细胞。细胞与细胞通信网络的构建建立在交互数量和交互权重的基础上(图11 A)。结果表明,PAN凋亡高巨噬细胞表现出增强的细胞间通讯能力。巨噬细胞和其他细胞群体的传出和传入信号传导模式揭示,PAN凋亡高巨噬细胞的信号传递强度显著大于PAN凋亡低巨噬细胞的信号传递强度(图11 B和C)。与低水平巨噬细胞相比,高水平巨噬细胞能够通过MIF途径和GALECTIN途径进行额外的细胞通讯。

L1000 FWD筛选候选药物分子
作者利用L1000 FWD在线平台对预后不良的IPF患者的3个上调基因和1个下调基因进行了数据库检索。随后,确定了具有相反相关性的候选小分子药物,重点关注综合评分、相似性评分和p值。考虑到这些药物的排名和可用性,作者最终选择了前3个候选药物(Metergoline,坎地沙坦,司美替尼)进行进一步的分子对接。

分子对接确认
作者从PubChem数据库中获得了关于候选药物的全面信息。具体地,Metergoline(PubChem ID:28693)具有403.5g/mol的分子量和C25 H29 N3 O2的分子式。坎地沙坦(PubChem ID:2541)的分子量为440.5 g/mol,分子式为C24 H20 N6 O3。司美替尼(PubChem ID:10127622)的分子量为457.7 g/mol,分子式为C17 H15 BrClFN 4 O3。靶蛋白的三维结构如下:DSP(PDB:1 LM 5)、DAPK 2(PDB:1 Z9 X)、TNFRSF 12 A(PDB:2 RPJ)和UACA(AlphaFoldDB:AF-D3 ZGS 5-F1)。作者利用薛定谔的Glide模块进行了高精度的分子对接。通常,配体和受体之间的较低结合能表明更稳定的结构。结合能小于−1 kcal/mol表明配体和受体可以自发结合。具体而言,司美替尼与每种靶蛋白的结合能低于−4 kcal/mol,表明具有优异的结合活性。Metergoline与DSP的结合能为−4.072 kcal/mol,而与DAPK 2的结合能为−7.124 kcal/mol,表明与DAPK 2具有极强的结合活性。相比之下,坎地沙坦与每种靶蛋白的结合能小于-2,表明具有一定水平的结合活性。作者利用薛定谔软件可视化每种候选小分子药物与靶蛋白之间的相互作用(图12)。结果表明,候选小分子药物与靶蛋白主要通过氢键连接,从而形成稳定的复合物。

总结

从IPF和正常组织中鉴定出104个PANoptosis差异表达基因。富集分析表明这些基因与免疫炎症反应途径相关。作者建立了一个基于全脑下垂相关基因的诊断和预后模型。诊断模型包括AKT1、PDCD4、PSMA2和PPP3CB。相反,预后模型包括TNFRSF12A、DAPK2、UACA和DSP。外部数据集验证和qPCR显示了大多数结论的可靠性。此外,潜在的治疗药物,包括Metergoline,坎地沙坦和Selumetinib,是根据四个预后基因确定的。分子对接表明这些药物与靶点具有良好的结合能力。对这篇文章感兴趣的老师,欢迎扫码咨询!


往期推荐

                                                                                                                      


纯生信选刊


• 纯生信文章的春天!

• 选刊正确=成功发表!


非肿瘤生信


• 6+非肿瘤代谢思路

• 非肿瘤联合铁死亡生信思路


预后模型


• 7+乳酸相关预后模型

• m7G甲基化+肿瘤生信思路


单基因生信


• 8+单基因干湿结合生信思路

• 单基因突变和淋巴结转移


单细胞系列


• 7+的脂肪细胞+单细胞测序

• 单细胞+Bulk seq生信思路

Python社区是高质量的Python/Django开发社区
本文地址:http://www.python88.com/topic/178033