Py学习  »  机器学习算法

7+机器学习+分型+单细胞+实验验证,可重复,此种思路正流行!

生信分析手册 • 1 年前 • 239 次点击  

导语

今天给同学们分享一篇生信文章“Effects of COL1A1 and SYTL2 on inflammatory cell infiltration and poor extracellular matrix remodeling of the vascular wall in thoracic aortic aneurysm”,这篇文章发表在Chin Med J (Engl)期刊上,影响因子为7.5。


结果:


二甘醇筛选
在GSE 9106数据集中,作者分析了59个TAA和34个正常外周血细胞样本,使用“limma”软件包在两组之间识别出21个DEG。在GSE 26155数据集中,作者分析了43例TAA和43例正常主动脉壁组织样本,并使用“limma”软件包在两组之间识别出21个DEG。将临界值调整为P值0.5。

DEG的富集和功能相关性分析
维恩图分别从外周血和动脉壁组织中识别出GSE 9106和GSE 26155的16种常见DEG(coDEG)[图1A]。GO分析的DEG表明,在生物过程中的前三名的条款包括胸腺中的T细胞分化的正调控,磷脂酰肌醇3-激酶信号的调节,和胸腺中的T细胞分化的调节。细胞组分组包括胶原三聚体和质膜外侧。在分子功能方面,TAA主要富集货物受体活性、修饰的氨基酸结合和酰胺结合[图1B]。KEGG通路分析显示,DEG主要参与磷脂酰肌醇3-激酶- Akt激酶(PI 3 K-AKT)信号通路[图1C]。DEG富集的疾病主要包括Ehlers-Danlos综合征[图1D]。GSEA结果显示,富集的途径主要涉及TAA中的趋化因子信号传导途径、补体和凝血级联以及精氨酸-细胞因子受体相互作用,但对照组中的丁酸代谢、心肌收缩和氧化磷酸化[图1 E、F]。提示炎症反应和胶原相关疾病在TAA发病中起重要作用。
Figure 1

生物标志物基因筛选和可诊断性试验
采用SVM-RFE算法、随机森林算法、LASSO算法和二元Logistic回归筛选诊断标记基因。二元逻辑回归算法用于鉴定四种DEG作为TAA的诊断标志物[图2A]。通过使用随机森林算法从DEG中鉴定三个基因作为诊断标记物[图2B,C]。通过使用SVM-RFE算法从DEG中鉴定出16个基因作为诊断标志物[图2D]。使用LASSO逻辑回归算法鉴定四种DEG作为TAA的诊断标志物[图2 E,F]。最终从随机森林、LASSO、SVM-RFE和二元逻辑回归分析的重叠中获得I型胶原α 1链(COL 1A 1)和突触结合蛋白样2(SYTL 2)[图2G]。
Figure 2

COL 1A 1和SYTL 2在TAA血管壁中的表达显著高于相应的正常组织,并且COL 1A 1的表达与SYTL 2正相关[图3A,B]。使用COL 1A 1和SYTL 2构建诺模图以预测TAA的概率[图3C]。校准图表明诺模图在预测TAA患者的破裂概率方面表现良好[图3D,E]。曲线下面积(AUC,0.95; 95%置信区间[CI]:0.93-0.97)表明COL 1A 1和SYTL 2(列线图模型中)对TAA具有准确的预测值[图3F]。校准图表明诺模图在预测TAA患者的破裂概率方面表现良好。然后,作者使用COL 1A1和SYTL 2构建了人工神经网络模型[图3G]。AUC(GSE 26155中AUC = 0.88,95%CI:0.81-0.94,GSE 9106中AUC = 0.67,95%CI:0.55-0.77)表明COL 1A 1和SYTL 2(人工神经网络模型中)对TAA产生了准确的预测值[图3 H,I]。此外,根据COL 1A 1和SYTL 2的表达水平,作者对GSE 26155和GSE 9106进行了聚类分析。聚类结果显示,COL 1A 1和SYTL 2将两个数据集明确分为两部分[图3 J,L]。作者对聚类结果进行了卡方检验,结果表明聚类结果与原始数据集分组结果相似[图3 K,M]。
Figure 3

免疫分析
提示炎症反应和胶原相关疾病在TAA发病中起重要作用。作者进一步探讨了COL1A1、SYTL2和免疫细胞浸润在TAA中的作用。作者通过使用GSE 26155数据集检查免疫细胞浸润和免疫功能的水平来比较TAA和正常样品的免疫特征[图4A]。作者分析了TAA和正常组之间的相关性,免疫细胞浸润和免疫细胞功能[图4B,D]。免疫细胞浸润分析显示,活化树突细胞(aDC)、B细胞、CD8+ T细胞、DC、巨噬细胞、肥大细胞、嗜中性粒细胞、浆细胞样树突细胞(pDC)、T辅助细胞、肿瘤浸润淋巴细胞(TIL)和调节性T细胞(T细胞)在TAA患者中比在正常患者中更高[图4C]。免疫细胞功能分析显示,APC共刺激、CC趋化因子受体(CCR)、检查点、细胞溶解活性、人白细胞抗原(HLA)、炎症促进、I类主要组织相容性复合物(MHC)、副炎症、T细胞共抑制和I型干扰素(IFN)应答在TAA患者中比在正常受试者中更活跃[图4E]。
Figure 4

此外,作者分析了上述免疫浸润结果与COL1A1和SYTL2的相关性。COL1A1与M2巨噬细胞正相关,但与CD4初始T细胞、TcB、单核细胞和活化NK细胞显著负相关[图5A]。SYTL2与M2巨噬细胞、CD4记忆静息T细胞、M1巨噬细胞、活化肥大细胞和浆细胞正相关,但与CD4初始T细胞、单核细胞、M0巨噬细胞、CD8+ T细胞、TcB和活化NK细胞显著负相关[图5B]。
Figure 5

单细胞分析和验证
结合以往的研究结果,作者认为SYTL2和COL1A1的表达上调可能促进了TAA的进展。为了进一步验证作者的结果,作者下载了GSE155438数据集进行单细胞分析。按照质量控制标准和TAA scRNA-seq数据的标准化,排除了2980个低质量细胞,并将1835个细胞纳入分析。检测到的基因数量与测序深度显著相关。共包括16,470个相应的基因,方差分析显示1500个高度可变的基因。进行主成分分析(PCA)以鉴定可用的维度并筛选相关基因。作者选择了20个估计P值<0.05的主成分(PC)用于后续分析。

应用t分布随机近邻嵌入算法,成功地将人TAA中的细胞分类为9个独立的亚型。进行差异表达分析,并鉴定了来自所有9个亚型的5234个标记基因[图5C]。根据标记基因的表达模式,使用singleR对这些聚类进行注释。聚类0、1、2和8注释为CD8+ T细胞,聚类3注释为巨噬细胞,聚类4和5注释为成纤维细胞,聚类6注释为内皮细胞,聚类7注释为中性粒细胞[图5D]。此外,SYTL2和COL1A1分别在CD8+T细胞和成纤维细胞亚型中高度表达[图5E]。作者检查了每种细胞类型的来源组成,作者发现动脉瘤组织贡献的细胞比免疫细胞组中预期的更多[图5F]。这表明在TAA壁中获得了更多的免疫细胞,这与目前的知识一致。为了测试作者的发现,作者选择了高表达的基因PDGFA、PDGFB和CAV 1作为成纤维细胞的标志物,以确认观察到的变化[图6A]。选择高表达基因CD8A、CD8B和CD28作为CD8+ T细胞的标志物[图6B]。
Figure 6

为了确定SYTL2和COL1A1在人TAA动脉瘤中的表达,作者收集了6例接受开放式主动脉修复术的TAA患者的胸主动脉标本和6例接受肥厚型心肌病或扩张型心肌病心脏移植但没有TAA的对照受试者的主动脉标本。免疫荧光染色显示TAA动脉壁中COL1A1和SYTL2的表达水平上调,巨噬细胞浸润水平高于正常对照动脉壁[图6C、D]。EVG染色显示TAA动脉壁胶原纤维表达水平上调,排列紊乱[图6E]。这些观察结果与作者在本研究中观察到的变化一致,支持SYTL 2和COL 1A 1的上调可能参与了血管壁的炎症浸润和细胞外基质重塑不良,促进了TAA的进展。简要总结了本研究的结果,如图7所示。
Figure 7

总结

富集和功能相关性分析表明DEGs主要与炎症反应途径和胶原相关疾病有关。Ⅰ型胶原α 1链(COL1A1)和突触结合蛋白样蛋白2(SYTL2)被鉴定为对TAA具有高诊断价值的诊断标记基因。COL1A1和SYTL2在TAA血管壁组织中的表达明显高于相应的正常血管壁组织,免疫细胞在TAA和正常血管壁组织中的浸润存在显著差异。此外,COL1A1和SYTL2表达与血管壁组织中免疫细胞的浸润有关。单细胞分析显示TAA中COL1A1主要来源于成纤维细胞,SYTL2主要来源于分化簇(CD)8+ T细胞。此外,单细胞分析表明,TAA中的成纤维细胞和CD8+ T细胞明显高于正常动脉壁组织。对这篇文章感兴趣的老师,欢迎扫码咨询!


往期推荐

                                                                                                                      


纯生信选刊


• 纯生信文章的春天!

• 选刊正确=成功发表!


非肿瘤生信


• 6+非肿瘤代谢思路

• 非肿瘤联合铁死亡生信思路


预后模型


• 7+乳酸相关预后模型

• m7G甲基化+肿瘤生信思路


单基因生信


• 8+单基因干湿结合生信思路

• 单基因突变和淋巴结转移


单细胞系列


• 7+的脂肪细胞+单细胞测序

• 单细胞+Bulk seq生信思路

Python社区是高质量的Python/Django开发社区
本文地址:http://www.python88.com/topic/179582