Py学习  »  机器学习算法

以深度学习或信号通路分析的方法将组学数据应用于肝癌患者生存期预测

探肝 • 4 年前 • 136 次点击  

《探肝》:跟进肝癌研究,持续做最专业的肝癌顶级文献解读,每周两篇以上高质量原创推送,欢迎关注!

来源:探肝

对话框回复“20190725”即可下载本期原文




       癌症多组学技术为我们提供了多层次的癌症相关分子信息,如何对这些信息进行有效整合和分析,从而提供有临床价值的洞见,是当前癌症研究的难点。接下来介绍的两篇文章或可提供解决问题的思路。



文章一

Chaudhary K, Poirion O B, Lu L, et al. Deep learning–based multi-omics integration robustly predicts survival in liver cancer[J]. Clinical Cancer Research, 2018, 24(6): 1248-1259.



★背景 ★

       肝细胞癌患者的五年生存率约为32%,由于高度的异质性和复杂的病因学,很难对他们进行预后评估,为了解决该问题,本研究首次应用深度学习的方法对肝细胞癌患者多组学数据进行分析。研究人员选择自编码框架(Autoencoder framework) 对多组学数据进行整合。自编码能够通过结合非线性函数,对原始输入数据进行重建,从而获取新的特征来代表源数据。该方法的优势在于对多维度和异质性数据进行分析和整合。



★ 方法 ★

       研究者从TCGA多组学队列中获得360例肝细胞癌样本,这些样本包含有mRNA表达、miRNA表达、CpG甲基化和临床信息。研究总流程如图1所示:A为整合肝癌患者3个组学数据的自编码架构。B为结合深度学习和机器学习技术来预测肝细胞癌患者生存亚型的流程图。流程图包括两步:第一步,推断生存亚型;第二步,对新样本进行风险标签预测。第一步中,来自TCGA肝细胞癌队列的mRNA, DNA甲基化和 miRNA特征作为自编码深度学习方法的输入特征,它们经自编码转换为瓶颈层(bottleneck layer)的新特征,然后通过单变量Cox-PH模型来从中选取和生存期相关的特征。然后,利用这些特征,应用K-mean的方法对这些样本进行聚类,从而确定生存风险相关群体。第二步,mRNA, DNA甲基化和miRNA 输入特征经ANOVA 检验的F值进行排序,选取那些在预测数据集中常见的特征,进一步应用排位靠前的特征建立SVM模型,对新数据集进行生存期风险预测。


图1. 整体流程图


★ 结果 ★

       a.各队列不同分型亚队列的生存风险模型如图2所示,A为TCGA训练集队列,B、C、D、E、F均为外部验证队列。可见各队列的两个不同分型亚队列的患者生存期具有显著不同。


图2. TCGA和外部验证队列不同分型亚队列的生存风险模型


       b.通过交叉验证的方法,在TCGA队列的训练集和测试集中,SVM分类器的稳定性性能检测,结果如表1:

表1. SVM分类器在TCGA队列的训练集和测试集中的稳定性性能检测



★ 结论 ★

       研究人员发现了生存期显著不同的两个亚型,这两个亚型具有独立的生存期预测价值,并且在五个独立队列中得到了验证。生存期敏感的分类模型对肝细胞的预后预测及治疗干预都具有重要意义。



文章二

Fa B, Luo C, Tang Z, et al. Pathway-based biomarker identification with crosstalk analysis for robust prognosis prediction in hepatocellular carcinoma[J]. EBioMedicine, 2019.



★ 背景★

       在癌症研究中,尽管已经鉴定出许多和预后相关的基因及相关列表,但是这些特征往往缺乏稳定性,很难应用到独立数据集中。而以信号通路为基础的方法,包含有内在相关生物学知识,因此可能产生相对稳定的特征



★ 方法 ★

       Pathifier软件能够通过基因表达数据来评估信号通路异常得分(pathways deregulation score,PDS),以此代表信号通路异常程度。但该软件常常将各信号通路作为独立因子,没有考虑信号通路交互(pathway crosstalk)的问题,在本研究中,研究人员以Pathifier为方法学基础,首次提供一个新颖的思路,将该方法应用于信号通路交互的情况,进一步来确定肝细胞癌患者的预后相关特征。流程如图3所示:包括两个步骤:a.获取生存相关特征。应用Pathifier软件将3个队列中的表达数据转换为信号通路异常得分,然后通过Sure Independence Screening (SIS) 方法筛选出100个生存相关信号通路,过滤掉冗余特征,最终留下13个信号通路特征;b.建立模型,并预测外部数据标签。应用这些特征,通过K-mean聚类方法将TCGA队列进行生存风险分组,然后将这些特征和生存风险标签应用于SVM模型构建,进一步将该模型应用于新数据集的生存风险预测。

图3. 整体流程图



★ 结果★

       a.在四个队列中,两亚组间均发现显著的生存期差异,结果如图4所示。


图4. 四个队列的生存模型


       b.通过交叉验证,对SVM分类器进行稳定性验证。同时,将该结果与深度学习方法(即第一篇文章的方法)建立的分类器结果进行对比。结果如表2可见,在TCGA肝癌患者队列中,该方法确定的PDSs特征比深度学习方法确定的基因列表特征更稳定、更准确。将它们应用于外部肝癌数据集,这些特征的性能同样优于基因列表特征。


表2. SVM分类器在TCGA和外部验证集队列中的稳定性性能结果,及与深度学习方法结果的比较


★ 结论 ★

       总体来说,该方法的预测准确率比深度学习方法高10.2%,与这些特征相关的基因信息具有临床价值。



研究总结

       多组学的应用能够为单个样本提供多层次、多维度的数据特征,对这些数据进行有效降维是关键,即可借助于深度学习的方法进行特征提取,也可以利用现有生物学知识进行信息提炼,在当前样本量有限的情况下,人类积累的生物学知识明显更胜一筹,是随着样本量的提升,这场竞赛的最终胜利者应该不难推断。




参考文献

1. Chaudhary K, Poirion O B, Lu L, et al. Deep learning–based multi-omics integration robustly predicts survival in liver cancer[J]. Clinical Cancer Research, 2018, 24(6): 1248-1259.

2. Fa B, Luo C, Tang Z, et al. Pathway-based biomarker identification with crosstalk analysis for robust prognosis prediction in hepatocellular carcinoma[J]. EBioMedicine, 2019.




回复“paper44”或“20190725”即可下载原文 

               往期原文下载,回复发表日期获取       





《探肝》将持续跟进肝癌领域诊断、治疗、监测以及筛查等方向的最新进展,研究肝癌疾病机制,分析肝癌分子机理,分享最新肝癌科研和临床领域的新动向,解读肝癌领域顶级期刊的新文章!

长按以下二维码,关注《探肝》



如果您是肝癌研究者,欲参与肝癌研究


请邮件联系:liver@haplox.com


Python社区是高质量的Python/Django开发社区
本文地址:http://www.python88.com/topic/36453
 
136 次点击