社区所有版块导航
Python
python开源   Django   Python   DjangoApp   pycharm  
DATA
docker   Elasticsearch  
aigc
aigc   chatgpt  
WEB开发
linux   MongoDB   Redis   DATABASE   NGINX   其他Web框架   web工具   zookeeper   tornado   NoSql   Bootstrap   js   peewee   Git   bottle   IE   MQ   Jquery  
机器学习
机器学习算法  
Python88.com
反馈   公告   社区推广  
产品
短视频  
印度
印度  
Py学习  »  机器学习算法

Discov Oncol | 基于机器学习构建与线粒体相关的基因模型,以预测结直肠癌的预后和治疗效果

生信分析手册 • 3 月前 • 123 次点击  

导语

今天给同学们分享一篇文章”Constructing a mitochondrial-related genes model based on machine learning for predicting the prognosis and therapeutic effect in colorectal cancer ”,这篇文章发表在Discov Oncol  期刊上,影响因子为2.9 。


结果:


与结直肠癌预后相关的线粒体相关基因的鉴定
本研究流程图如图1 所示。在 TCGA 训练队列中对 MRGS 进行差异表达分析,共鉴定出 847 个 DEMRGs,其中 449 个上调,398 个下调(图 2 A,补充文件 2 S1)。对 DEMRGs 进行 GO(图 2 B,补充文件 2 S2)和 KEGG(图 2 C,补充文件 2 S3)分析。DEMRGs 的单变量 COX 回归分析显示,共有 86 个 MRGs 与结直肠癌预后显著相关(图 2 D,补充文件 2 S4)。通过将预后线粒体相关基因与 KEGG 通路基因(图 2 E–G)进行交集分析,作者发现 NOL3、DIABLO 和 DDIT3 在凋亡通路中显著富集,COX5A、UQCRFS1、UQCRC2、SDHB、SLC25A6、NOX1 和 MAPK12 在化学致癌—活性氧通路中显著富集,而 CPT2、SCP2、ACADM、HADH、ACADL 和 ACSL6 在脂肪酸代谢通路中显著富集。 研究结果表明,关键线粒体通路与结直肠癌之间存在密切相关性,这会显著影响结直肠癌患者的预后。


本研究流程图

与 CRC 预后相关的线粒体相关基因的鉴定。A DEMRGs 的火山图。B GO 富集分析的条形图。C KEGG 富集分析的气泡图。D 单变量 Cox 回归分析的森林图。E 凋亡通路基因与预后相关 MRGs 的交集基因的维恩图。F 化学致癌-活性氧通路基因与预后相关 MRGs 的交集基因的维恩图。G 脂肪酸代谢通路基因与预后相关 MRGs 的交集基因的维恩图

线粒体相关基因预后模型对预测 CRC 患者预后具有强性能
对于 86 个预后长链非编码 RNA 基因(MRGs),作者使用 10 种机器学习算法构建预后模型(图 3 A)。每个模型分别对 TCGA 训练队列和三个独立的验证队列计算了 C 指数。最终,作者选择了平均 C 指数最高的 Enet 算法[α = 0.6]来构建最佳模型。该模型最终识别出 31 个对 CRC 患者预后有显著影响的 MRGs,包括 ATP2A1、CPT2、HSPA1A、TERT、TAMM41、ABHD6、CDC25C、ACOT11、DNLZ、ABHD4、ACADL、MTUS1、TRAP1、CLYBL、C16orf91、PPARGC1A、PAGE4、P4HA1、NOL3、REXO2、CHDH、TFAP2C、COX19、PPP2CB、DNAJC28、BDNF、MSRA、AGBL4、DUSP18、OSBPL1A 和 RAB3A。每个队列的 K-M 生存曲线结果显示,高风险组的总生存时间显著短于低风险组(图 3 B–F)。在 TCGA 训练队列中,预测 1 年、3 年和 5 年生存时间的 ROC 曲线 AUC 值分别为 0.806、0.792 和 0.798(图 3 G)。在独立验证队列中,第 GSE39582 数据集的 AUC 值为 0.612、0.563 和 0.567(图。 3 H); GSE17536 数据集的 AUC 值为 0.657、0.692 和 0.618(图 3 I), GSE17537 数据集的 AUC 值为 0.726、0.709 和 0.692(图 3 J)。在荟萃队列中,AUC 值为 0.710、0.658 和 0.635(图 3 K)。上述研究结果证明,基于线粒体相关基因开发的预后模型,利用机器学习算法,在预测结直肠癌患者预后方面表现出强大的效能。


线粒体相关基因的预后模型在预测结直肠癌患者预后方面表现出色。使用了十种机器学习算法,包括 101 种组合,用于构建预后模型,并计算每个模型中每个队列的 C 指数;B-F 部分用于分析每个队列中高风险和低风险组之间的生存曲线;G-K 部分使用 ROC 曲线预测 1 年、3 年和 5 年的生存时间。

高风险组和低风险组差异表达基因的功能富集分析
在 TCGA 队列中,作者进一步识别出高风险组和低风险组之间存在 2144 个差异表达基因,其中 1897 个基因上调,247 个基因下调(图 4 A,补充文件 3 S1)。随后,作者对这些基因进行了 GO(图 4 B,补充文件 3 S2)和 KEGG(图 4 C,补充文件 3 S3)分析。作者发现这些基因在 KEGG 分析和 GSEA 中均显著富集于细胞粘附分子通路和细胞外基质受体相互作用通路(图 4 D, E,补充文件 3 S4)。


高风险组和低风险组差异表达基因的功能富集分析。A 差异表达基因的火山图。B GO 富集分析的柱状图。C KEGG 富集分析的气泡图。D、E GSEA 富集分析

临床因素差异比较及列线图构建
作者比较了高低风险组之间的临床因素差异,结果显示两组在 T 分期、N 分期、M 分期、肿瘤分期和生存状态方面存在显著差异(表 1 ;图 5 A)。作者对临床因素进行了单因素 COX 回归分析,结果揭示风险评分、年龄、T 分期、N 分期、M 分期和肿瘤分期与结直肠癌预后存在显著关联(图 5 B)。随后,作者进行了多因素 COX 回归分析,结果表明风险评分、年龄、T 分期和肿瘤分期是结直肠癌的独立预后风险因素(图 5 C)。作者比较了每个独立预后风险因素在高风险组和低风险组之间的 OS 时间差异,发现高风险组的 OS 时间显著低于低风险组(图 5 D–I)。作者利用独立预后风险因素预测结直肠癌患者 1 年、3 年和 5 年的生存时间,并生成了 ROC 曲线(图 5 J–L)。通过比较 AUC 值,作者观察到风险评分具有最佳的预测性能。


比较临床因素差异及列线图构建。A 比较高风险组和低风险组临床因素差异。B 单变量 Cox 回归分析。C 多变量 Cox 回归分析。D–I 高风险组和低风险组独立风险因素生存分析 K-M 生存曲线。J–L 使用独立风险因素预测 1 年、3 年和 5 年生存时间

作者利用独立风险因素构建了一个预测 1 年、3 年和 5 年生存率的列线图模型 。ROC 曲线显示,预测 1 年、3 年和 5 年生存时间的 AUC 值分别为 0.801、0.843 和 0.785 。校准曲线结果显示,预测值几乎与实际值重合,表明列线图模型能够很好地预测 1 年、3 年和 5 年生存率 。1 年、3 年、5 年 DCA 曲线的结果表明,始终可以通过遵循列线图模型进行干预来获得最大的净收益 。上述所有结果均表明,作者构建的列线图模型对结直肠癌(CRC)的预后具有强大的预测能力。

线粒体相关基因的预后模型风险评分与结直肠癌微环境相关
作者采用多种方法分析了高低风险组之间免疫细胞的分布情况(图 6 A)。随后,作者分析了风险评分与 CD8 + T 细胞特征基因表达的相关性,结果显示大多数特征基因的表达与风险评分显著负相关(图 6 B)。ESTIMATE 结果显示,高风险组中基质评分显著较高,且基质评分与风险评分之间存在显著正相关(图 6 C, D)。低风险组中肿瘤纯度显著较高,且肿瘤纯度与风险评分之间存在显著负相关(图 6 E, F)。遗憾的是,尽管结果显示高风险组中免疫评分较高,且免疫评分与风险值之间存在一定正相关,但差异和相关性均未达到显著水平(图 6 G, H)。


线粒体相关基因的预后模型风险评分与结直肠癌的肿瘤微环境相关。A 使用多种方法评估两组间免疫细胞的分布。B 风险值与 CD8 T 细胞特征基因表达的关联分析。C、D 分析两组间基质评分的差异以及基质评分与风险评分的关联分析。E、F 分析两组间肿瘤纯度的差异以及肿瘤纯度与风险评分的关联分析。G、H 分析两组间免疫评分的差异以及免疫评分与风险评分的关联分析。(***代表 p < 0.001,**代表 p < 0.01,*代表 p < 0.05,ns 代表无显著性)

线粒体相关基因的预后模型风险评分可以预测结直肠癌的治疗敏感性
基因突变在一定程度上会导致癌症,因此作者绘制了高低风险组基因突变的水 falls 图(图 7 A, B)。TP53 是一个重要的抑癌基因。当其发生突变时,会导致细胞不受控制地增殖,增加癌症发生和发展的风险。作者发现高风险组的 TP53 突变频率显著高于低风险组,这也可能是高风险组预后较差的原因之一。为了评估样本对免疫疗法的敏感性,作者比较了高低风险组的 TIDE 评分。结果显示高风险组的 TIDE 评分显著高于低风险组(p < 0.001,95% CI [− 0.530, − 0.160])(图 7 C)。此外,相关性分析显示风险值与 TIDE 评分之间存在显著的正相关关系(图 7 D)。综合这些发现表明,高风险组的个体更容易逃避免疫监视,对免疫疗法的反应性降低。 最后,作者比较了高、低 TIDE 组中高、低风险组之间的总生存期,结果显示高风险组的 OS 时间始终显著短于低风险组(图 7 E, F)。作者利用 CTRTP 数据库和 PRISM 数据库预测对化疗药物的敏感性(图 7 G)。作者发现 PYR-41 和 pentostatin 在高风险组中的 AUC 值显著较低,且它们的 AUC 值与风险评分呈显著负相关。这表明这些药物在高风险患者中表现出更高的敏感性,可能成为该亚组的潜在治疗选择。


线粒体相关基因的预后模型风险评分可以预测结直肠癌的治疗敏感性。A、B 高风险和低风险人群中的突变频率前 30 个基因。C 比较高低风险组之间的 TIDE 评分。D TIDE 评分与风险评分的相关性分析。E、F 比较高低风险组之间的总生存时间差异。G 使用 CTRPs 数据库和 PRISM 数据库进行药物敏感性分析。(***代表 p < 0.001,**代表 p < 0.01,*代表 p < 0.05,ns 代表无显著性)

生物标志物筛选与验证
筛选后,HSPA1A、CHDH、TRAP1 和 CDC25C 被选为结直肠癌的生物标志物。使用 GEPIA 和 TCGA 数据库进行分析,发现这些靶基因在结直肠癌肿瘤组织和正常组织中的表达水平存在显著差异(图8 A–H),并且高表达组和低表达组之间的总生存期存在显著变化(图 8 I–P)。为了验证这些发现,作者进行了 qRT-PCR,比较肿瘤细胞和正常细胞之间的基因表达。结果表明,HSPA1A、CHDH、TRAP1 和 CDC25C 在人类结肠癌细胞系(DLD-1、LOVO 和 SW480)和人类肠上皮细胞系(NCM460)之间的表达水平存在显著差异(图 8 Q–T)。这些 qRT-PCR 结果与 GEPIA 和 TCGA 数据库的数据一致,证实了作者确定的生物标志物的稳健性和可靠性。


生物标志物筛选与验证。A–D 使用 GEPIA 数据库分析目标基因的表达。E–H 使用 TCGA 数据库分析目标基因的表达。I–L 使用 GEPIA 数据库分析目标基因对 CRC 患者 OS 时间的影响。M–P 使用 TCGA 数据库分析目标基因对 CRC 患者 OS 时间的影响。Q–T 使用 qRT-PCR 验证人肠道上皮细胞和人结肠癌细胞中目标基因的表达水平。(****代表 p < 0.0001,***代表 p < 0.001,**代表 p < 0.01,*代表 p < 0.05)。

总结

总之,作者利用多种机器学习算法构建了一个基于线粒体相关基因的结直肠癌预后模型,该模型在预测结直肠癌患者预后方面具有高度置信度。此外,该模型将结直肠癌患者分为高风险组和低风险组,并比较了两组在肿瘤微环境和药物敏感性方面的差异,为后续临床个体化治疗提供了理论依据对这篇文章感兴趣的老师,欢迎扫码咨询!


往期推荐

                                                                                                                      


纯生信选刊


• 纯生信文章的春天!

• 选刊正确=成功发表!


非肿瘤生信


• 6+非肿瘤代谢思路

• 非肿瘤联合铁死亡生信思路


预后模型


• 7+乳酸相关预后模型

• m7G甲基化+肿瘤生信思路


单基因生信


• 8+单基因干湿结合生信思路

• 单基因突变和淋巴结转移


单细胞系列


• 7+的脂肪细胞+单细胞测序

• 单细胞+Bulk seq生信思路

Python社区是高质量的Python/Django开发社区
本文地址:http://www.python88.com/topic/184468