Py学习  »  机器学习算法

老外也爱用深度学习算法发预后文章

生信人 • 2 年前 • 273 次点击  

大家好呀!今天给大家介绍一篇2021年7月发表在Bioinformatics(IF:6.937)上的文章。作者使用CNN和多组学数据构建可以预测胶质瘤患者生存期情况的预测模型。

 

PathCNN:卷积神经网络预测胶质瘤的生存情况和通路分析


摘要:

       卷积神经网络(CNNs)在图像识别和计算机视觉方面取得巨大成功。然而,由于深层神经网络的主要障碍是缺乏可解释性并且生物矩阵数据是以非网格结构形式不能直接应用CNN。为解决以上问题,作者提出一种新的方法—PathCNN。该方法使用新定义的路径图像在多组学数据上构建一个CNN模型。PathCNN可以准确区分胶质瘤(GBM)的长期生存(LTS)和非长期生存(non-LTS),使用可视化分析和统计分析可以鉴定与GBM有关的通路。总的来说,PathCNN表明CNN可以应用于多组学数据预测胶质瘤患者的生存情况。

方法:

1.数据

    从cBioPortal数据库下载GBM的mRNA数据,CNV数据和DNA甲基化数据。分别用G,C和M∈Rn×r,n和r代表样本数量和基因数量。长期生存(LTS)定义为生存期超过2年,non-LTS定义为生存期未超过2年。

2.通路图像

       从KEGG数据库获取通路信息和通路相关基因,共获得146条通路。对于通路pi,从mRNA表达矩阵G提取相关基因,生成中间矩阵B∈Rn×ri,ri是通路pi中涉及的基因数量,矩阵B的行为样本数量,列为通路pi中涉及的基因数量。对矩阵B进行PCA分析,生成Gpi∈Rn×q,q代表PCs数量。对CNV数据和DNA甲基化数据进行同样分析,分别生成矩阵Cpi∈Rn×q和Mpi∈Rn×q。由于共有通路146条,因此合并后的矩阵分别为Gp∈Rn×146q,Cp∈Rn×146q和Mpi∈Rn×146q。对每个样本sj生成单一矩阵Gsj∈R146×q,Csj∈R146×q和Msj∈R146×q。将三个矩阵合并生成每个样本sj的通路图像Ksj∈R146×3q,行为146条通路,列为3×q个PCs,作为CNN模型的输入(图1)。

图1 对多组学数据进行PCA分析生成通路图像


3.通路排序

       使用Grad-CAM鉴定GBM中与LTS相关的重要通路。计算146条通路间的Pearson相关性,相关性最高的通路排在通路图像的最上方。

4.CNN结构

       CNN结构的输入为通路图像,共包括两个卷积层,一个max-pooling层,一个dropout层和输出层(图2)。

图2 CNN结构


5.使用Grad-CAM鉴定关键通路

       使用Grad-CAM鉴定通路图像上与GBM患者LTS有关的重要像素点(图3A)。对于给定像素点计算LTS组和non-LTS组的统计学差异(图3B)。

图3 鉴定关键通路


结果:

1.数据集的获取和下载

       本研究包含528例患者共有12042个mRNA表达,24776个CNV和1807个DNA甲基化数据。共有343例患者包含三种组学数据,共有8037个基因包括这三种组学数据。LTS组有55例患者,non-LTS组有232例患者。共有4989个基因涉及146条KEGG通路,每条通路有68个基因参与。对每种组学数据的通路进行PCA分析。LTS组和non-LTS组的平均年龄分别为48和61,两组年龄具有显著差异。由于患者年龄对生存具有重要作用,因此CNN模型将年龄纳入分析。

2.模型性能

       利用通路图像构建的CNN模型对GBM的LTS和non-LTS进行分类,并进行5倍交叉折叠验证。通路图像包括146行(每行代表一条通路)和3×q列(q代表PC数量)。例如,q=2代表每列代表每种组学数据排名前2位的PC,组学数据排序为mRNA,CNV和DNA甲基化。在建模过程中,q的值选择从1到5。如图4所示,当q=2时模型的性能达到饱和,AUC值为0.753。当模型没有纳入年龄数据时,q=2时AUC为0.677,结果表明年龄对建模的重要性。

图4 卷积神经网络模型的性能比较

       随后,作者比较mRNA,CNV和DNA甲基化数据的排序对模型性能的比较。三种组学数据排序为CNV,mRNA和DNA甲基化时AUC最差,为0.736,排序为CNV,DNA甲基化和mRNA以及DNA甲基化,mRNA和CNV时AUC分别为0.741和0.747。其他排序方法的平均AUC为0.755,与本研究的排序方法结果相似。模型性能的差异可能是由于不同数据的相关性造成的。

       为评估对模型性能影响最大的组学数据类型,作者分别使用两种组学数据构建模型。如图5所示,基于mRNA和CNV构建的模型和基于CNV和DNA甲基化构建的模型AUC分别为0.749和0.748,mRNA和DNA甲基化构建的模型AUC为0.740。此外使用单一组学数据mRNA,CNV和DNA甲基化构建的模型AUC分别为0.699,0.715和0.687。

图5 组学数据对模型性能的影响


3.与其他模型的比较

       作者将PathCNN和logistic回归,SVM,全连接神经网络和MiNet的预测性能进行比较。此外,作者还从TCGA数据库下载了其他癌症的mRNA,CNV和DNA甲基化数据,包括肾癌,低级别胶质瘤(LGG)和肺腺癌(LUAD)。表1为每种癌症的基因数量,对于其他三种癌症来说,LTS定义为生存期超过三年,non-LTS定义为生存期未超过三年。LTS组和non-LTS组分别有154和69例,156和75例,110和115例。结果如表2所示,对于大多数癌症来说PathCNN的性能优于其他机器学习方法,对于LGG来说RBF和SVM的性能较优于PathCNN。有趣的是,PathCNN的标准差最小表明PathCNN的稳定性最好。

表1 每种组学数据的基因数量表2 PathCNN与其他机器学习方法的比较

表2 PathCNN与其他机器学习方法的比较


4.鉴定关键通路

    为鉴定与GBM患者生存有关且与年龄无关的生物学机制,作者将年龄从CNN模型中去除,使用通路图像输入训练模型。统计学检验结果表明,有4个区域的p值小于0.001,共包括15个像素和10条通路(图6和表3)。每个像素代表一个PC,mRNA的PC1和PC2。富集于细胞因子-细胞因子受体互作,趋化因子信号通路和NOD-like受体信号通路。CNV的PC1和PC2富集于α-亚麻酸代谢和亚油酸代谢通路。与亚油酸代谢和α-亚麻酸代谢有关的基因分别有29和19个基因,共有基因16个。根据PC值的中位数将患者分为不同亚组,使用KM分析研究亚组的生存情况。图7A-7D为mRNA富集的通路细胞因子-细胞因子受体互作,趋化因子信号通路,NOD-like受体信号通路和ECM受体互作的KM分析结果,图7E和7F为CNV富集的通路亚油酸代谢和神经活性配体-受体互作的KM分析结果。

图6校正p值后的矩阵


表3 GBM长期生存有关的关键通路


图7 KM分析

结论:

       作者基于通路图像的概念和多组学数据构建CNN模型以预测胶质瘤患者的生存情况—PathCNN。该模型可以准确的预测胶质瘤患者的长期生存期和非长期生存期,且性能优于机器学习方法。


小编撰稿不易,友情copy请联系好说话的小编管家15510012760(微信同号)


有生信相关问题联系:18501230653(微信同号)

 

Python社区是高质量的Python/Django开发社区
本文地址:http://www.python88.com/topic/124272
 
273 次点击