Py学习  »  机器学习算法

5+线粒体自噬+机器学习+泛癌+实验验证,干湿结合,这波思路我先接了!!

生信分析手册 • 7 月前 • 240 次点击  

导语

今天给同学们分享一篇生信文章“The role and machine learning analysis of mitochondrial autophagy-related gene expression in lung adenocarcinoma”,这篇文章发表在Front Immunol期刊上,影响因子为5.7。



结果:


3.1. 差异表达基因的鉴定
使用标准对数 FC > 1 和P < 0.05 处理和归一化基因表达数据。随后使用 GEO2R 在线工具 ( ) 在两个数据集中鉴定了 DEGs Figure 2。
在两个 GEO 数据集中鉴定 DEGs。(A) 在 GSE151101 数据集中,描述了 LUAD 标本和正常肺标本之间表达差异的 DEGs 火山图;(B) 在数据集 GSE203609 中,描述了 TBHP+ML 处理组和 TBHP 处理之间表达差异的 DEGs 火山图;(C) 维恩图突出显示了 GSEGSE151101 和 GSE203609 数据集中的 11012 个交集的 DEGs。

3.2. DEGs 的 WGCNA 富集分析
基因共表达网络是一种无标度加权基因网络。为了更好地遵守无标度网络的幂律分布特征,为邻接矩阵权重参数选择合适的幂至关重要。在此分析中,选择了 30 的幂值 (Figure 3A)。基于这个选定的幂值,构建了一个加权共表示网络模型,并将 DEG 聚类为 11 个模块 ( Figure 3B)。灰色模块包含不属于任何特定模块的基因,因此缺乏显着的生物学相关性,而绿黄色模块在具有生物学意义的模块中表现出最高的相关性( Figures 3C, D)。随后,作者利用 STRING 数据库为绿黄色模块中的前 50 个基因构建了一个 PPI 网络,从而促进了对 DEG 之间潜在关系的更深入探索和识别关键基因 ( Figure 3E)。
WGCNA 分析。(A) DEGs 的尺度独立性;(B) 每个基因模块的相关性;(C) 基因树和基因模块;(D) DEGs 的聚类热图;(E) 绿黄色模块中前 50 个基因的 PPI 图谱。

3.3. 绿黄组件的 GSEA 分析和 GOKEGG 分析
为了更深入地了解绿黄色模块中的基因,作者对该模块中的所有基因进行了功能分析。基因集富集分析(GSEA) 显示,这些基因与癌症中的 FOXM1 通路和视网膜母细胞瘤显著相关 ( Figures 4A, B)。然后作者对该模块中的前 50 个基因进行了 GO 和 KEGG 分析,得出以下结果 ( Figures 4C–F):
绿黄色模块中基因的 GSEA 和 GOKEGG 分析。(A) GSEA 分析的山图;(B) GSEA 分析的经典图;(C) BP,生物过程;CC,细胞成分;MF,分子功能;(D) KEGG 通路;(E) 绿黄色模块中基因的 GOKEGG 和弦图分析;(F) 绿黄色模块中基因的 GOKEGG 圆图分析;所有富集路径均使用 R 中的 ggplot2 包生成。

生物过程(BP):RNA 剪接、通过酯交换反应进行 RNA 剪接、通过酯交换进行 RNA 剪接,以扩增腺苷作为亲核试剂;
细胞成分(CC):剪接体复合物、SWI/SNF 超家族复合物、催化第 2 步剪接体;
分子功能(MF):RNA 的催化活性、tRNA(鸟嘌呤)甲基转移酶活性、蛋白质磷酸酶调节活性;
KEGG 通路:剪接体、核糖核酸聚合酶、核苷酸切除修复。
这些发现突出了与绿黄色模块中的基因相关的多种功能作用和通路。

3.4. 机器学习算法选择目标基因
作者对绿黄色模块中的前 50 个基因进行了随机森林、 SVM 和 LASSO 回归分析。在随机森林分析中,所有基因最重要的四个特征变量是 COASY 、 FTSJ1 、 MOGS 和 MED8 ,其中 COASY 是所有特征变量中影响最大的基因 ( Figure 5C)。对于 SVM 分析,前 5 个重要基因是 COASY 、 FTSJ1 、 MOGS 、 TTC9C 和 PRPF19 ( Figure 5B)。LASSO 回归分析确定了更广泛的重要基因,包括 PPP6R3、COASY、PRPF19、CLNS1A、MOGS、DPF2、FTSJ1、WDR3、TTC9C、POLR1C、MED8、SNRNP200、ACTR5、PPP1R8、YY1、KLHL12、DDB1、ELAVL1、LRRC42 ( Figure 5A)。随后,作者构建了一个维恩图来识别三种方法中的交集基因,揭示了 COASY、FTSJ1 和 MOGS 始终被强调为关键靶标 ( Figure 5D)。
机器学习算法选择目标基因。(A) LASSO 分析系数随 λ 参数变化;(B) SVM 分析结果可视化;(C) 随机森林模型中重要特征的排序;(D) 三种分析与 Wayne 图相交。

作为辅酶 A 合成酶,COASY 在细胞能量代谢和脂肪酸合成中起着至关重要的作用。COASY 的异常表达可能导致代谢紊乱,从而促进肿瘤的发生和进展 (34 )。FTSJ1 编码的蛋白质在 rRNA 修饰中起着至关重要的作用,其过表达与各种癌症的侵袭性增加和不良预后有关 ( 35 )。MOGS 是一种重要的内质网糖苷酶,通常在肿瘤细胞中过表达,导致异常的糖蛋白修饰和肿瘤恶性肿瘤 ( 36 )。这些基因是在所研究的生物系统中具有重要作用的关键候选基因,特别是在 LUAD 中 ( Figure 5)。

3.5. 通过 TCGA 和 qPCR 验证 3 个靶基因
在这项研究中,HPA 数据库中的 IHC 染色显示 LUAD 组织中 COASY、FTSJ1 和 MOGS 蛋白的水平降低,与以前的发现一致 (Figures 6A–F)。此外,作者从 TCGA-LUAD 项目中检索和组织了 RNA-seq 数据,使用串联转录本与 TCGA 数据库中可用的参考 (STAR) 管道进行比较。将数据标准化为每百万转录本 (TPM)。随后,作者使用 R 语言软件(版本 4.2.1) ( 21 ) 分析 LUAD 患者的生存曲线、ROC 曲线和三个靶基因——COASY、FTSJ1 和 MOGS 的表达水平。作者的结果表明,与低表达水平的患者相比,COASY 和 FTSJ1 高表达水平的 LUAD 患者在 50 个月后的生存率显着降低 ( Figures 6G–I)。此外,LUAD 患者 COASY 、 FTSJ1 和 MOGS 的表达水平显著高于正常对照,差异有统计学意义 (P < 0.001, Figure 6K)。ROC 曲线分析也证明了这 3 个靶基因对 LUAD 的诊断价值,COASY 的 AUC 值为 0.888,FTSJ1 的 AUC 值为 0.883,MOGS 的 AUC 值为 0.859 ( Figure 6J)。此外,作者收集了 8 例 LUAD 患者和 8 例在我院接受体格检查的健康个体的全血样本,用于 qPCR 检测验证。结果显示,与健康对照相比,LUAD 患者 3 个靶基因的表达水平显著升高 (P < 0.05, Figure 6L)。这项全面的分析提供了对 LUAD 中这些基因的表达模式以及潜在诊断和预后价值的见解 ( Figure 6)。
LUAD 中三个靶基因 COASY、FTSJ1 和 MOGS 的表达。(A) COASY 的组织表达 - LUAD 组织染色 - 人类蛋白质谱;(B) FTSJ1 的组织表达 - LUAD 组织染色 - 人类蛋白质谱;(C) MOGS 的组织表达 - LUAD 组织染色 - 人类蛋白质谱;(D) COASY 的组织表达 - 肺正常部位的染色 - 人类蛋白质谱;(E) FTSJ1 的组织表达 - 肺正常部位的染色 - 人类蛋白质谱;(F) MOGS 的组织表达 - 肺正常部位的染色 - 人类蛋白质谱;(G-I) LUAD 中这三个基因的存活曲线;(J) 这三个基因在 LUAD 中的 ROC 曲线;(K) 使用 TCGA 数据库验证这三个目标基因;(L) 这三个目标基因通过 qPCR 检测验证 (n=8, P < 0.05) * P<0.05, *** P <0.001..
*P < 0.05, ***P < 0.001.

3.6. COASY、FTSJ1 和 MOGS 的泛癌种分析
在这项研究中,作者使用 TCGA 数据库对各种癌症类型的 COASY、FTSJ1 和 MOGS 进行了泛癌分析。使用 R 软件(4.2.1 版)( 21 ) 和 ggplot2 软件包进行分析。作者的结果表明,COASY、FTSJ1 和 MOGS 在 15 种癌症中显著过表达:BLCA、BRCA、CESC、CHOL、COAD、ESCA、HNSC、KIRP、LIHC、LUAD、LUSC、PRAD、READ、STAD 和 UCEC。这些观察结果表明,COASY、FTSJ1 和 MOGS 可能在表达水平升高的癌症中作为潜在的肿瘤促进基因发挥作用 ( Figure 7)。
COASY、FTSJ1 和 MOGS 的泛癌种分析。(A) COASY 的泛癌种分析;(B) FTSJ1 的泛癌种分析;(C) MOGS 的泛癌种分析。* P<0.05, ** P<0.01, *** P<0.001.

3.7. 免疫细胞浸润分析
将 Cy-Sort 算法应用于GSE151101 数据集,相关性分析表明 COASY 、 FTSJ1 和 MOGS 与多种免疫细胞类型表现出显著相关性。这些发现表明这些靶基因与 LUAD 微环境中的免疫细胞组成之间存在潜在关联。相关性分析为 LUAD 环境中这些基因与免疫系统之间的相互作用提供了有价值的见解 ( Figure 8)。
三个靶基因的免疫相关浸润分析。(A) COASY-CIBERSORT 算法-LUAD 的叠加直方图;(B) COASY-ssGSEA 算法-LUAD 中免疫浸润相关性的棒棒糖图;(C) FTSJ1-CIBERSORT 算法-LUAD 叠加直方图;(D) FTSJ1-ssGSEA 算法-LUAD 中免疫浸润相关性的棒棒糖图;(E) MOGS-CIBERSORT 算法-LUAD 叠加直方图;(F) MOGS-ssGSEA 算法-LUAD 中免疫浸润相关性的棒棒糖图。

3.8. COASY、FTSJ1 和 MOGS 的 MiRNA 分析
在这项研究中,作者全面研究了与 COASY、FTSJ1 和 MOGS 相关的 microRNA (miRNA) 调控网络。通过整合来自三个成熟的 miRNA 数据库——TargetScan ( 31 )、ENCORI ( 32 ) 和 miRwalk ( 33 ) 的数据——作者确定了调节 COASY、FTSJ1 和 MOGS 的潜在 miRNA。这些数据库的交集,以维恩图可视化,揭示了靶向 COASY、FTSJ1 和 MOGS 的常见 miRNA。为了进一步阐明这些基因、它们的调节 miRNA 和相关蛋白质相互作用之间的复杂关系,作者使用 cytoscape 构建了一个 PPI 网络。这种网络可视化提供了对影响 COASY、FTSJ1 和 MOGS 表达的复杂调控机制及其对细胞过程的潜在影响的见解。该分析不仅突出了 miRNA 与这些基因之间的复杂相互作用,还为研究这些 miRNA 在不同生理和病理背景下调节基因表达中的作用奠定了基础 ( Figure 9)。
COASY、FTSJ1 和 MOGS 的 miRNA 分析。(A-C) 这三个 miRNA 数据库分别对应于 COASY、FTSJ1 和 MOGS 的 miRNA 维恩图;(D) PPI 网络图。


总结

本研究探讨了肺腺癌(LUAD) 中新型线粒体自噬相关生物标志物 COASY 、 FTSJ1 和 MOGS 的意义和潜在机制。通过对 GEO 和 TCGA 公共数据库的大规模数据分析,结合加权基因共表达网络分析 (WGCNA) 和机器学习工具,确定了这些基因在 LUAD 中的差异表达,作者确定了这些基因在 LUAD 中的差异表达模式。作者的研究结果表明,它们对早期诊断和预后评估的特异性和敏感性超过了现有的临床生物标志物。此外,这些基因在细胞周期调控、线粒体自噬和免疫微环境调节中的关键作用表明它们有可能成为新的治疗靶点。尽管存在数据异质性和缺乏临床验证等局限性,但未来的研究应侧重于临床数据验证、深入机制研究和多组学协同分析,以促进肺腺癌的个体化治疗和新生物标志物的发现。本研究为 LUAD 的早期诊断、线粒体自噬研究和治疗提供了新的视角和战略基础。对这篇文章感兴趣的老师,欢迎扫码咨询!
                                    


往期推荐

                                                                                                                      


纯生信选刊


• 纯生信文章的春天!

• 选刊正确=成功发表!


非肿瘤生信


• 6+非肿瘤代谢思路

• 非肿瘤联合铁死亡生信思路


预后模型


• 7+乳酸相关预后模型

• m7G甲基化+肿瘤生信思路


单基因生信


• 8+单基因干湿结合生信思路

• 单基因突变和淋巴结转移


单细胞系列


• 7+的脂肪细胞+单细胞测序

• 单细胞+Bulk seq生信思路

Python社区是高质量的Python/Django开发社区
本文地址:http://www.python88.com/topic/182826