Py学习  »  机器学习算法

4+单细胞+WGCNA+机器学习+实验,干湿结合就是如此简单!!

生信分析手册 • 10 月前 • 199 次点击  

导语

今天给同学们分享一篇生信文章“Deciphering smooth muscle cell heterogeneity in atherosclerotic plaques and constructing model: a multi-omics approach with focus on KLF15/IGFBP4 axis”,这篇文章发表在BMC Genomics期刊上,影响因子为4.4。



结果:

单细胞数据的质量控制、降维、聚类和细胞类型鉴定
数字1概述了本研究的工作流程(图 1)。对于单单元格数据集GSE159677,第一步涉及质量控制措施。作者排除了特定的细胞并管理了线粒体基因的比例,以确保本研究中使用的细胞样本的质量(图1)。经过质量控制,总共保留了 40,953 个细胞。通过细胞聚类和注释,作者鉴定了十个不同的细胞亚群,包括T细胞、平滑肌细胞、内皮细胞、巨噬细胞、单核细胞、成纤维细胞、B细胞、浆细胞、浆细胞样树突状细胞和肥大细胞(图1)。数字2D表示与每种细胞类型相关的重要标记基因(图1)。 图2E显示了每种细胞类型在两个不同样品中的比例分布(图1)。


鉴定平滑肌细胞亚组,分析这些亚组内的细胞间相互作用和富集分析
动脉粥样硬化斑块内平滑肌细胞的生物学行为与斑块的稳定性密切相关。因此,作者从数据集中提取了6261个平滑肌细胞,并进行了重新聚类以对其进行分类。此外,作者还在平滑肌细胞亚组之间进行了细胞通讯分析。SMC2簇在平滑肌细胞中表现出显著的异质性,其特征是成纤维细胞典型标志物LUM和DCN的高表达,作者将其称为成纤维细胞样平滑肌细胞。为了确定向成纤维细胞样平滑肌细胞过渡的起始遗传因素,作者对亚组内的细胞间相互作用进行了分析。作者发现 SMC2 和 SMC5 可能在 COLLAGEN 和 FN1 通路中相互作用(pro > 0.2,p 值 < 0.05)。图3C表示COLAGEN信号通路的数量和相互作用权重(图1)。图3D 显示了 FN1 信号通路的数量和相互作用权重(图 1)。图3E 和 F 显示了 SMC2 和 SMC5 在 COLLAGEN 和 FN1 信号通路中的作用(图 1)。在COLAGEN信号通路中,最重要的受体-配体对是COL6A2-(ITGA1 + ITGB1)(图1)。而在FN1信号通路中,最突出的贡献来自FN1-(ITGA8 + ITGB1)(图1)。为了更好地了解SMC2和SMC5之间可能发生相互作用的潜在机制和途径,作者对两组SMCs中的差异表达基因进行了富集分析(GO、KEGG和GSEA)。GO富集分析结果表明,生物过程(BP)主要与细胞粘附、肌肉收缩和肌肉系统过程的正调控有关。细胞成分 (CC) 主要与细胞-底物连接、黏着斑和含胶原的细胞外基质有关。分子功能(MF)主要与细胞外基质结构成分、肌动蛋白结合和整合素结合有关。KEGG通路富集显示与血管平滑肌收缩、黏着斑和肌动蛋白细胞骨架通路的调节有显著关联(图1)。3GSEA富集分析揭示了与免疫系统中细胞连接组织、基质体、细胞间通讯、血管平滑肌收缩、细胞因子信号传导的显著关联。这项综合分析为支持 SMC2 和 SMC5 之间相互作用的潜在机制提供了宝贵的见解,揭示了它们在动脉粥样硬化斑块中的作用。

综合分析GSE28829
为了从多个角度全面阐明斑块稳定性的机制,作者在转录组水平上进行了WGCNA和差异表达分析。这种方法与作者的单细胞分析相结合,使作者能够更准确地确定关键的驱动基因。经过严格的数据预处理步骤,作者识别并删除了异常样本。然后,作者计算了前5000个基因的平均表达水平。使用“WGCNA”软件包中的“pickSoftThreshold”函数仔细优化了电源参数。选择β = 14的功率值(对应于0.9的无标度R^2)作为软阈值,有利于无标度网络的构建(图1)

使用 RF 和 LASSO 算法进一步筛选关键基因
为了确定区分高级斑块的潜在生物标志物,作者采用了两种不同的机器学习算法。首先,利用LASSO回归算法,作者将枢纽基因列表从11个细化为3个(图5C 和 D)。随后,作者实施了RF算法,当基因集进一步缩小到5时,该算法根据其重要性表现出最低的错误率(图5E 和 G)。选择在LASSO和RF算法中交叉的枢纽基因,即IGFBP4、CTSC和APOE进行进一步深入研究。这些基因有可能作为识别晚期斑块的关键标志物。
基于枢纽基因的晚期斑块诊断模型的构建与验证
首先,作者利用枢纽基因(IGFBP4、CTSC、APOE)构建了晚期斑块的诊断模型,特别是列线图模型。采用校准曲线评估列线图模型在训练(GSE28829)和测试(GSE43292) 数据集。这两条校准曲线显示,晚期斑块的实际风险与预测风险之间存在微小差异,表明列线图模型具有较高的准确度。在进行决策曲线分析(DCA)时,很明显,“IGFBP4 + APOE + CTSC”组合的曲线超过了代表“所有人不干预”、“所有人干预”和所有单个基因的曲线。这一观察结果表明,患者可能在 0 到 1 的高风险阈值范围内从列线图模型中获得显着益处。此外,与单个基因产生的曲线相比,列线图模型提供的临床优势明显优越(图6D 和 E)。随后,作者采用ROC曲线来评估单个基因和模型的诊断性能。在训练集中,IGFBP4、APOE 和 CTSC 的 AUC 值分别为 0.909、0.928 和 0.933,而模型的 AUC 值为 0.976。在测试集中,IGFBP4、APOE 和 CTSC 的 AUC 值分别为 0.706、0.735 和 0.835,模型的 AUC 值为 0.831(图 6F - I)。这些结果表明,单个基因和诊断模型在晚期斑块中都起着重要作用。

模型基因的验证及IGFBP4的深入探索
经过之前进行的综合分析,确定了三个基因——IGFBP4、CTSC和APOE。为了验证这些基因,作者检查了它们在两个训练数据集中的表达(GSE28829) 和外部测试数据集 (GSE43292).结果表明,在训练集和测试集中,早期和晚期斑块之间的基因表达存在显着的统计学差异(图1)。

此外,作者在健康和动脉粥样硬化个体的样本中验证了这些基因。有趣的是,只有IGFBP4在血液和手术切除的组织样本中表现出显著的表达差异,在健康组织中表达高(图7C-D)。这些发现表明IGFBP4可能具有保护作用。这意味着IGFBP4不仅可以保护血管免受动脉粥样硬化的影响,而且还有可能促进斑块的稳定性,特别是在动脉粥样硬化的晚期阶段。
基于训练和测试数据集,IGFBP4基因表达水平的GSEA表明其可能参与PI3K-AKT和基质体相关通路等信号通路(图E-F)。
此外,作者进行了 IGFBP4 与平滑肌细胞 (ACTA2, TAGLN) 和成纤维细胞 (LUM) 标记基因之间的相关性分析。分析显示IGFBP4表达与平滑肌细胞标志基因呈负相关,而与成纤维细胞标志基因呈正相关(图7G-I)。总之,IGFBP4 至关重要,可能在驱动平滑肌细胞向成纤维细胞样平滑肌细胞过渡方面发挥作用。
伪时间基因动力学分析
为了更深入地了解 SMC2 和 SMC5 亚组中 IGFBP4 和细胞标记基因的动态变化,作者进行了伪时间分析。作者的分析表明,随着时间的推移,SMC5亚组显示出向SMC2亚组的分化趋势(图18A-C)。

IGFBP4在动物模型中的验证
作者对人颈动脉样本中的单细胞和转录组数据的综合分析表明,IGFBP4在平滑肌细胞中起着重要作用。为了加强这些发现的可信度,作者使用大鼠颈动脉球囊损伤模型进行了动物实验。作者将模型分为三组:正常、早期轻度增生和晚期重度增生,基于损伤后时间和显微镜下内膜增生厚度。
首先,作者对 Igfbp4 进行了免疫荧光共定位,并观察其在增生性内膜中的存在,与平滑肌细胞特异性标志物 Tagln 共定位(图 9A-B)。

TFs和TF结合化合物的预测
鉴于TF的组织和细胞特异性表达模式,作者对可能与IGFBP4结合的潜在TF进行了预测。该分析揭示了几种候选药物,包括 BNC2、EGR3、EGR4、KLF11、KLF15、KLF16、KLF9、MAFB、MAFF、MAZ、MEF2A、NRL、PATZ1、PLAGL2、PPARG、PRDM9、RARG、SP5、SPI1、SREBF1、STAT2、TFAP2A、TFAP2B、TFAP2C、THRA、WT1、ZFX、ZNF135、ZNF148、ZNF257、ZNF281、ZNF320、ZNF384、ZNF454、ZNF460、ZNF93(图 10A).

总结

本研究建立了斑块诊断和评估模型,分析了斑块内平滑肌细胞的分子相互作用机制。进一步分析显示,转录因子KLF15可能通过KLF15/IGFBP4轴调控平滑肌细胞的生物学行为,从而通过调节PI3K-AKT信号通路影响晚期斑块的稳定性。这有可能作为斑块稳定性评估和治疗的目标,从而推动动脉粥样硬化斑块管理和治疗的进步。


往期推荐

                                                                                                                      


纯生信选刊


• 纯生信文章的春天!

• 选刊正确=成功发表!


非肿瘤生信


• 6+非肿瘤代谢思路

• 非肿瘤联合铁死亡生信思路


预后模型


• 7+乳酸相关预后模型

• m7G甲基化+肿瘤生信思路


单基因生信


• 8+单基因干湿结合生信思路

• 单基因突变和淋巴结转移


单细胞系列


• 7+的脂肪细胞+单细胞测序

• 单细胞+Bulk seq生信思路

Python社区是高质量的Python/Django开发社区
本文地址:http://www.python88.com/topic/171745
 
199 次点击