
今天和大家分享的是2020年1月发表在Journal of cancer(IF=3.565)上的一篇文章:“Identification of a Sixteen-gene Prognostic Biomarker for Lung Adenocarcinoma Using a Machine Learning Method”,作者利用随机生存森林(RSF)方法构建了一个16个基因组成的肺腺癌预后标志物,并具有良好的预测水平,为肺腺癌患者的预后预测和靶向治疗提供了一定指导作用。
Identification of a Sixteen-gene Prognostic Biomarker for Lung Adenocarcinoma Using a Machine Learning Method
用机器学习方法构建一个十六基因组成的肺癌预后标志物
一、研究背景
肺癌是全世界癌症死亡的主要原因,每年约有100万人死于这种疾病。而TCGA-肺腺癌(LUAD)是最常见的组织学亚型,肺癌的发病率和死亡率都在增加LUAD患者的平均5年生存率仅为15%,虽然在治疗方面取得了进展,因此寻找LUAD的预后指标并提供靶向治疗显得尤为重要。
二、分析流程

三、结果解读
1、LUAD生存相关基因的鉴定

图1.生存相关基因鉴定流程和结果
图1.B-C:对利用单因素cox回归分析和RSF模型筛选到的与LUAD生存有关的基因进行KEGG分析,结果表明单因素cox得到的5376-个基因与代谢和局灶性粘附过程有关;而RSF得到的1113个基因在代谢途径上富集。
接着,作者首先对TCGA队列Ⅰ的临床特征数据进行单因素和多因素cox回归分析(补表1),取p值小于0.05的预后因素作为临床因素分别与两模型筛选出的RNA-seq数据进行整合,由此得到四种用于生成关键基因的模型,以下均分别写作:cox_RNA、cox_RNA_CLI、RSF_RNA、RSF_RNA_CLI。利用最小AIC准则(赤池信息量准则)分别对四组模型构建出的关键基因模型进行筛选,各得到一个最佳模型,它们包含的基因列表分别如补表2-5所示。
图1.D:对四个关键基因模型包含的基因绘制Venn图,发现有四个基因同时包含于cox和RSF模型获得的关键基因。
补表1.对TCGA队列I进行的cox分析结果

补表2-5.四种模型得出的基因标志物列表(此处仅给出补表2结果)
2、LUAD风险评分模型的开发
根据补表2-5中的基因相关系数,作者在TCGA队列Ⅱ中利用四组基因标志物分别建立了风险评分系统,计算得出的风险评分越高,则LUAD患者的预后越差,按照50百分位数作为阈值进行高/低风险患者分组。

图2.四模型的KM生存分析(TCGA队列Ⅱ)

表1.预测模型的C-index(TCGA队列Ⅱ和验证集GSE72094)
3、对风险评分模型预测能力的验证
作者先利用验证集GSE72094对上述风险评分模型的预测能力进行验证,对该验证集患者的临床特征数据进行单、多因素cox回归分析(补表7),取p值小于0.05的因素与模型整合(同上述对TCGA队列的操作),并依次构建四组风险评分模型,按照50百分位数作为阈值进行高/低风险患者分组。

补表7.对验证集GSE72094进行的cox分析结果

图3.四模型的KM生存分析(验证集GSE72094)

补图1.四模型的KM生存分析(验证集GSE11969)

补表9.预测模型的C-index(验证集GSE11969)

表2.16基因模型与5个先前研究模型的对比
4、十六基因标志物的蛋白互作和通路分析
图4.A:作者绘制了16关键基因中包含于GEO数据库中的11个基因在验证集GSE72094患者中的表达热图。红色表示高表达,绿色表示低表达,结果显示病人的风险评分越高,基因的表达水平就越高。
图4.B:对上述11个基因进行KEGG分析,发现它们对尼古丁成瘾过程的富集有统计学意义。
图4.C:作者在starbase2.0 (http://starbase.sysu.edu.cn/starbase2/index.php)上下载了16个关键基因与相关蛋白的相互作用情况,并用Cytoscape进行可视化,在该网络中关键基因主要与9种蛋白有相互作用关系。
图4.D:作者尝试将这个16基因标志物用于肺鳞状细胞癌(LUSC)的预后预测,于是用16基因标志物来预测TCGA中的LUSC患者(n=486)的预后,KM生存分析结果显示高风险组患者预后较差,但用该模型预测LUSC患者预后的效果不是特别理想(HR = 1.58, 95% CI: 1.20-2.07, p = 1.21e-03)

图4.KEGG分析和蛋白-基因互作网络
本篇文章作者利用了RSF模型和cox回归分析来构建肺腺癌的预后标志物,将二者与患者临床特征数据结合后进行了筛选和预后价值的对比,最终确定了由RSF构建的一个16基因组成的LUAD预后标志物,为LUAD患者的预后预测和靶向治疗提供了指导。
点击阅读原文,即可获得小编本次与大家分享的文章。本期的分享就到这里啦,下一期再见~
科研菌学术讨论群,在群内可以用自己的昵称,广告一律踢;其他公众号的宣传也不发,就算是要发,提前和小编商量和确认,不然也是一律踢哈。

欢迎添加小编微信↑↑↑
请大家加我的时候就备注好“学术讨论群”以及自己的“单位+专业+姓名
”










编辑:麻辣烫
校审:糯米饭