最近有小伙伴反映收不到推送,因为公众号改了推送算法,现在需要加星标,多点赞、点在看,才能准时收到推送哦。
导语:肝细胞癌(HCC)具有高度侵袭性,诊断延迟,预后不良,且缺乏全面准确的预后模型来辅助临床医生。
作图丫不仅文章解读的好,课题做得也出色,已与国内多家知名医院的老师和名牌大学实验室达成合作。欢迎有生信分析需求的老师垂询,公共数据库数据挖掘或自测数据分析均可。
今天小编为大家带来的这篇文章,研究旨在构建HCC预后相关基因标签(HPRGS)并探讨其临床应用价值。文章发表在《Frontiers in lmmunology》上,文章题目为:Novel prognostic signature for hepatocellular carcinoma using a comprehensive machine learning framework to predict prognosis and guide treatment。
图 1
为了鉴定HCC中的差异基因,对TCGA-LIHC、GSE13845、GSE25097、GSE84402和GSE174570队列中的正常和HCC组织进行了差异表达分析。具体结果是从TCGALIHC队列中筛选出5,703个差异基因(图2A),从GSE25097队列中筛选出5,346个差异基因(图2B),从GSE13845队列中筛选出1,230个差异基因(图2C),从GSE84402队列中筛选出1,403个差异基因(图2D),从GSE174570队列中筛选出399个差异基因(图2E)。对差异基因进一步进行交叉分析,得到119个常见的差异表达基因(DEG)(图2F)。通过对这119个DEG进行单因素Cox分析,筛选出53个具有预后意义的基因进行后续分析(均P<0.05,图2G)。为探究预后相关差异基因的功能,对53个具有预后意义的基因进行GO和KEGG富集分析。GO富集分析显示,这些基因在DNA复制调控、凋亡核改变、参与凋亡执行的细胞成分拆解、巨噬细胞活化调控、吞噬作用的正向调控、类固醇分解代谢、免疫效应过程调控、免疫反应激活等方面高度富集。KEGG富集分析显示,这些基因在P53信号通路、细胞衰老、组氨酸代谢、细胞周期途径等过程中高度富集(图2H)。图 2
以TCGA-LIHC队列为训练队列,LIRI-JP队列为验证队列。在训练过程中,采用10倍交叉验证框架将101个预测模型组合起来,并计算所有训练和验证队列的C指数(图3A)。在使用101种机器学习算法构建的模型中,平均C指数评估显示,虽然前四个预测模型在训练队列中表现良好,但在验证队列中的表现差异明显,可能存在过拟合。因此,将这些过拟合训练队列的模型排除在进一步的选择之外。随后,选择了CoxBoost+GBM模型,因为它在验证队列和训练队列中都表现出了良好的预测能力(C指数>0.7)。该模型包含了10个基因(LCAT、CCDC34、SOCS2、EZH2、ANXA10、TPX2、ZIC2、ECT2、TMEM106C、VSIG4),进一步构建模型,采用多变量Cox分析,确定了4个关键基因(SOCS2、LCAT、ECT2、TMEM106C),再利用Cox模型的回归系数对这4个基因的表达量进行加权,计算出每个患者的风险评分(图3B)。图 3
本研究将此特征定义为HPRGS,公式为:HPRGS = 0.245484853986847*TMEM106C基因表达+0.233006449350621*ECT2基因表达0.4709503811778*SOCS2基因表达-0.161437679389049*LCAT基因表达。根据HPRGS的中位数,将训练队列和验证队列中的所有患者分为高危组和低危组。在验证队列和训练队列中,随着HPRGS评分的增加,死亡人数逐渐增加(图3C,D)。进一步的生存分析显示,在训练队列中,高危组患者的OS明显低于低危组(P<0.001,HR=3.04,图3E),在验证队列中也观察到了一致的结果(P<0.001,HR=4.06,图3F)。为了评估HPRGS的预后有效性,进行了ROC曲线分析。在TCGA-LIHC训练队列中,HPRGS在1年、2年和3年的AUC分别达到0.786、0.757和0.736,在LIRI-JP验证队列中分别达到0.700、0.723和0.713(图4A、E)。然后,通过ROC曲线分析将训练队列中每个患者的临床信息(包括年龄、性别、分级和分期)与其对应的HPRGS进行比较。结果显示,HPRGS在1年、2年和3年的预后有效性优于其他临床特征(图4B-D),在验证队列中也获得了一致的结果(图4F-H)。本研究使用 C 指数来评估模型的预测能力,结果显示 HPRGS 在训练和验证队列中均具有最高的 C 指数(图 4I、J)。这些结果表明 HPRGS 在预测 HCC 患者预后方面具有良好的准确性。图 4
为了进一步探究高、低危组患者生物学功能的差异,本研究对两组的DEGs进行了功能富集分析。基于GO基因集的基因集富集分析(GSEA)显示,低危组在氨基酸分解代谢、氨基酸代谢、细胞氨基酸分解代谢、脂肪酸氧化、脂肪酸分解代谢等功能上高度富集,而高危组在适应性免疫反应、B细胞活化、B细胞受体信号通路、细胞分裂、染色体分离等功能上高度富集(图5A、B)。基于KEGG基因集的GSEA显示,低危组在补体和凝血级联、药物代谢细胞色素P450、脂肪酸代谢、氨基酸代谢、脂肪酸分解代谢等功能上活性较高,而高危组在细胞粘附分子、细胞周期、DNA复制等功能上活性较高(图5C、D)。图 5
进一步基于标志基因集进行GSVA分析,结果显示高危组在G2/M检查点、E2F转录因子、mTOR信号通路、PI3K-AKT-mTOR信号通路活性较高,而低危组在脂肪生成、脂肪酸代谢、胆汁酸代谢和氧化磷酸化活性较高(图5E)。此外,HPRGS与致癌相关标志评分的相关性分析表明,HPRGS与癌症相关的生物过程和代谢途径密切相关(图5F)。为了探究致癌相关标志评分是否与HCC患者预后相关,本研究进行了生存分析。结果显示,与HPRGS呈正相关的通路,如G2/M检查点、E2F转录因子、mTOR信号通路和PI3K-AKT-mTOR信号通路,是HCC患者预后的不良因素。相反,与HPRGS负相关的脂肪生成、脂肪酸代谢、胆汁酸代谢、氧化磷酸化等通路与患者预后良好相关(均P<0.05,图5G)。本研究发现高危组患者的生物学功能主要富集在与癌症发展相关的功能和通路上,而低危组患者的生物学功能主要富集在代谢相关的功能和通路上。这些通路的激活或抑制可能导致高危组和低危组患者预后结果不同。为探讨HCC患者ITH与预后的关系,进行生存分析,结果显示,MATH评分与HCC患者预后不良呈正相关(图6B)。将MATH评分与HPRGS相结合,“高危+高MATH”组患者预后明显差于“低危+低MATH”组患者(P<0.001,图6C)。为探讨高危组与低危组之间基因组突变频率的差异,本研究描绘了两组的突变图谱,结果显示高危组与低危组之间存在明显的突变谱(图6D、E)。如图所示,TP53是高危组最常见的突变基因,而CTNNB1是低危组最常见的突变基因。为了进一步分析,本研究将高危组和低危组中突变率前10位的基因合并,进行差异分析,探讨两组之间的突变率是否存在差异。去除重复基因后,共得到14个基因,其中TP53和OBSCN在高危组和低危组中的突变频率差异显著,且高危组的突变频率较高(均为P<0.05,图6F)。图 6
本研究基于5个独立HCC队列的转录组测序数据,鉴定出119个差异基因,其中53个基因与总生存期(OS)相关。使用101种机器学习算法,选出10个最具预后性的基因。本研究构建了包含四个基因(SOCS2、LCAT、ECT2和TMEM106C)的HCC HPRGS。ROC、C指数和K-M曲线证实了HPRGS具有良好的预测性能。突变分析显示低危和高危患者之间存在显着差异。低危组对经导管动脉化疗栓塞术(TACE)和免疫治疗的反应更高。预测了高危和低危组对小分子药物的治疗反应。利尼伐尼是高危人群的潜在药物。多变量分析证实HPRGS是TCGA-LIHC的独立预后因素。列线图可为临床实践提供参考。码字不易,欢迎读者分享或转发到朋友圈,任何公众号或其他媒体未经许可不得私自转载或抄袭。
由于微信平台算法改版,公众号内容将不再以时间排序展示,建议设置“作图丫”公众号为星标,防止丢失。星标具体步骤为:(2)点击右上角的小点点,在弹出界面选择“设为星标”即可。