Py学习  »  机器学习算法

IF=7.5,转录组+机器学习+聚类分析,国自然热点“脂代谢”,纯公共数据搞定!

挑圈联靠 • 1 月前 • 178 次点击  

欢迎来看雪球的生信套路!国自然青A青B(原杰青优青)陆续“放榜”,大家有没有注意到“脂质代谢”课题中标了呢?


脂质不仅是细胞膜的重要组成部分和能量储存的载体,还作为信号分子参与细胞分化、免疫应答等多种生理病理过程。因此,脂质代谢的异常与众多重大疾病的发生发展密切相关。从脂质生成/代谢角度做生信,如何入手?希望这篇IF7+,生信主线的SCI能够给你思路——


一起看看用TCGA+医院队列怎样实现吧!


The impact of de novo lipogenesis on predicting survival and clinical therapy: an exploration based on a multigene prognostic model in hepatocellular carcinoma

从头脂肪生成在预测肝细胞癌患者生存及指导临床治疗中的作用:基于多基因预后模型的探索


期刊:Journal of Translational Medicine

IF:7.5

发布时间:2025/06/18


 技术路线 


数据收集与处理:

从TCGA、GEO、ICGC-LIRI等数据库收集了427个HCC样本的RNA-seq数据和临床信息,经过筛选后共分析了413个样本(363个肿瘤样本和50个正常样本)。


差异表达基因(DEGs)分析:

通过DEseq2软件包,筛选出2659个差异表达基因,包括546个下调基因和2113个上调基因。


构建和验证预后风险模型:

通过LASSO-Cox回归分析,筛选出6个关键基因(G6PD、LCAT、SERPINE1、SOAT2、CYP2C9和UGT1A10),并构建了风险模型。该模型在训练集和验证集中均显示出良好的预测性能,AUC值在0.78-0.82之间。


功能富集分析:

GO分析显示差异基因主要涉及细胞周期、有丝分裂等生物学过程;KEGG分析显示高风险组显著富集在DNA复制、G2M检查点等通路。


聚类分析:

将TCGA-LIHC队列样本分为两个聚类,聚类I的患者预后显著差于聚类II,且两个聚类在免疫细胞浸润模式上存在显著差异。


免疫微环境和免疫治疗反应分析:

高风险组患者表现出免疫抑制特征,如Treg细胞浸润增加;而低风险组患者则表现出更多的NK细胞保留。此外,高风险组患者对免疫治疗的反应较差,但对靶向治疗更敏感。


列线图构建与验证:

列线图显示出良好的预测性能,C-index为0.737,且在1年、3年和5年的生存预测上均优于现有的HCC预后模型。


实验验证:

通过免疫组化、Western blotting等实验,验证了G6PD等基因在HCC组织中的表达水平,并通过单细胞RNA测序分析了模型基因在不同细胞亚群中的表达模式。



 研究结果 


Fig 2 筛选从头脂质合成的 DEG 并在 TCGA-LIHC 队列中构建预后风险模型


A 火山图显示了 HCC 肿瘤组和正常组之间的 DEG,突出了 |log2FoldChange| 前 10 名基因

B 维恩图显示,从 2,659 个 DEGs 和 574 个 DNL 相关基因的交集中鉴定出 108 个重叠基因

C 单因素 Cox 回归分析显示,17 个基因与 HCC 患者预后相关

D 12 个 OS 相关基因的 LASSO 回归。系数路径图显示了每条曲线的回归系数随着正则化参数λ的变化而变化的轨迹。交叉验证图显示了模型在不同λ值下的交叉验证误差,横轴代表正则化参数λ,纵轴代表偏似然偏差

E 多因素 Cox 回归分析显示,6 个基因与 HCC 患者预后相关

F 圆形染色体图可视化了模型基因的染色体位置


Fig 3 使用 TCGA-LIHC 队列和外部验证队列评估预后风险模型的性能


A TCGA-LIHC 训练队列中患者 OS 的 Kaplan-Meier 曲线

B 用于预测 TCGA-LIHC 训练队列中 1 年、3 年和 5 年 OS 的 ROC 曲线

C TCGA-LIHC 训练队列中高危组和低危组 6 个模型基因的风险评分、生存状况(1 表示死亡,0 表示存活)的基因表达分布

D GSE14520 队列中患者 OS 的 Kaplan-Meier 曲线

E 用于预测 GSE14520 队列中 1 年、3 年和 5 年 OS 的 ROC 曲线

F GSE14520 队列中高危组和低危组的风险评分、生存状态(1 个表示死亡,0 个表示存活)和 6 个模型基因的基因表达分布

G 湘雅 HCC 队列患者 OS 的 Kaplan-Meier 曲线

H  用于预测湘雅 HCC 队列中 1 年、3 年和 5 年 OS 的 ROC 曲线

I 湘雅HCC队列高、低危组6个模型基因风险评分、生存状况及基因表达分布


Fig 4 TCGA-LIHC 队列中高风险和低风险组的富集分析


A GO 富集弦图,左半圆代表富集基因,右半圆代表 6 条不同颜色的富集 GO 通路

B KEGG 富集弦图,左半圆代表富集基因,右半圆以不同颜色显示 5 个富集 KEGG 通路

C GSEA 分析显示高危人群中基因集富集


Fig 5 在 TCGA-LIHC 队列的 365 名 HCC 患者中鉴定出不同的从头脂质合成模式


A 两个聚类(k = 2)的共识矩阵的热图

B k = 2–7 的共识矩阵的 CDF 图

C Delta 面积图表明 k=2 是最佳聚类数

D Dim 图显示了两个聚类的空间分布

E 两个簇之间的免疫细胞浸润差异

F 两个聚类的 t-SNE 分析

G 基于 OS 的从头脂质合成簇的生存分析(对数秩检验)

H 显示模型基因表达水平和从头脂质合成簇临床特征分布的复杂热图。* P < 0.05, ** P < 0.01, P < 0.001


Fig 6 TCGA-LIHC 队列中高风险组和低风险组的聚类与风险评分以及突变状态之间的关系


A 两个集群患者临床特征的比较

B 集群、风险和患者生存结果的桑基图

C 两个集群之间风险评分的比较

D 瀑布图显示了基于突变频率的高危组前 20 个基因

E 瀑布图显示了基于突变频率的前 20 个基因低危组。* P%3C 0.05,P < 0.001


Fig 7 TCGA-LIHC 和湘雅 HCC 队列中的免疫细胞浸润和免疫反应


A TCGA-LIHC 队列中高危组和低危组免疫细胞浸润的比较

B 湘雅 HCC 队列高危组和低危组免疫细胞浸润情况的比较

C TCGA-LIHC 队列中 6 个模型基因与每个免疫细胞群的相关性分析

D TCGA-LIHC 队列中高风险组和低风险组之间 TIDE 评分、排除评分和 MDSC 水平的比较

E 湘雅 HCC 队列中高危组和低危组的 TIDE 评分、排除评分和 MDSC 水平的比较。* P < 0.05, ** P < 0.01, P < 0.001


Fig 8 列线图整合了多种生存影响因素,为患者提供个性化的预后评估


A 单因素 Cox 回归分析确定了与患者生存相关的因素

B 多因素 Cox 回归分析确定了与患者生存相关的独立预后因素

C 列线图

D 1 年、2 年和 3 年的曲线下面积 (AUC) 值

E 1 年生存概率列线图预测

F 3 年生存概率列线图预测

G 5 年生存概率列线图预测


(Fig 9 为实验验证结果,不予展示)


Fig10 模型基因的单细胞水平分析


A UMAP 图显示了 17 个细胞亚群在肿瘤和正常组织中的分布

B UMAP 图中具有高风险评分和低风险评分的肿瘤细胞亚群的分布

C 17 个细胞亚群中模型基因的表达水平

D-E 高风险和低风险肿瘤细胞亚群中传入和传出信号模式的富集分析

F 分析高危靶向治疗组、低危靶向治疗组、高危免疫治疗组、低危免疫治疗组患者的 Kaplan-Meier 曲线

G 箱线图说明了不同治疗组高低危评分 HCC 患者的治疗反应

H 森林图说明了风险评分与靶向治疗反应之间的关系

I 交互作用图按治疗类型说明了风险评分与治疗反应之间的关系,X 轴表示风险评分,Y 轴表示治疗反应的概率




可以用免费工具进行课题调研,先人一步!







“脂代谢”既是一种与多种重大疾病高度相关,值得关注的核心生理过程,也是一个需要多学科知识与技术交叉,才能更全面解读的科学问题。不论是否想抓住这波“中标同款热点”,想从生信角度研究机制问题,却因为不知从哪里入手,只能“望洋兴叹”,怎么办?


搞不定选题,我们帮你出方案;

搞不定分析,我们帮你拿成果;

搞不定投稿返修,我们全流程陪跑......


雪球老师带队,已陪跑5000+科研项目,收到2500+客户报喜,值得信赖的团队,值得入场的优质个性化套路服务👇

 雪球的生信套路 每周周中讲解 

平台改版,记得星标⭐

才不会错过更新哦

科研小白如何入门纯生信,记得来看最新的复现栏目文章复现 | 0代码纯生信,2025年基因家族是这样做的→,生信分析师一步一步教你做🚗

Python社区是高质量的Python/Django开发社区
本文地址:http://www.python88.com/topic/185334
 
178 次点击