第二篇:《Integrating multi-omics data through deep learning for accurate cancer prognosis prediction》
期刊:《Computers in Biology and Medicine》影响因子及中科院分区:IF:3.434,中科院三区发表日期:2021年5月作者单位:中山大学 1.算法方法:(1)DCAP方法的体系结构:将多组癌症数据的高维特征输入DAE网络,得到具有代表性的特征,然后利用这些特征通过Cox模型估计患者的风险。考虑到临床难以获得多组数据,进一步利用mRNA数据构建XGboost模型来拟合估计的风险。构建的模型用于预测独立数据集中的癌症患者风险。此外,基于XGboost和差异表达分析鉴定出的基因,我们鉴定出9个与乳腺癌预后高度相关的预后标志物。(2)自动编码器(3)XGBoost特征制作风险模型、 2.数据:(1)TCGA癌症数据(2)GEO癌症数据 3.结果解读:流程图:
如图3A所示,3个数据集预测的高风险和低风险组与生存曲线明显分离,p值均在0.05以下,c指数相近(0.602、0.605、0.611)。这些结果表明了作者轻加权风险预测模型的稳健性。 根据DCAP对高危和低危人群的划分,我们鉴定出159个DEGs,其中有45个风险基因下调,114个风险基因上调(图3B)。159个DEGs中,有57个(35.9%)基因经过了文献证实与乳腺癌相关。 用XGboost模型选择的223个基因作图,发现9个DEGs重叠,其中7个(77.8%)基因(ADIPOQ、NPY1R、CCL19、MS4A1、CCR7、CALML5和AKR1B10)与乳腺癌相关(表5)。对于剩下的2个基因(ULBP2和BLK),虽然没有文献直接证明与乳腺癌预后相关,据报道,ULBP2的诱导与p53的药理学激活触发抗癌先天免疫反应[27]有关,而BLK是一个真正的能诱导肿瘤的原癌基因,适合于BLK驱动淋巴瘤的研究和体内[28]中新型BLK抑制剂的筛选。 4.总结:如今,基因组信息被广泛用于癌症的精确治疗。由于个体类型的组学数据只代表单一观点,存在数据噪声和偏差,因此需要多种类型的组学数据来准确预测癌症预后。然而,由于多组学数据中存在大量冗余变量,但样本量相对较小,有效整合多组学数据具有一定的挑战性。随着深度学习技术的发展,自动编码器被用于整合多组学数据,提取具有代表性的特征。然而,由于数据噪声的影响,生成的模型很脆弱。此外,以往的研究通常集中在单个癌症类型,而没有对泛癌症进行全面的测试。在这里,作者使用去噪自编码器来获得多组数据的鲁棒表示,然后使用学习到的代表性特征来估计患者的风险。应用美国癌症基因组图谱(TCGA)中的15个癌症样本,结果表明该方法比传统方法平均提高6.5%。考虑到实际操作中难以获得多组数据,作者进一步通过训练XGboost模型,仅使用mRNA数据拟合估计的风险,发现模型平均c -指数为0.627。以乳腺癌预后预测模型为例,分别在基因表达综合数据库(Gene Expression Omnibus, GEO)的3个数据集上进行独立检验,结果显示该模型能够显著区分高危患者和低危患者。根据作者的方法划分的风险亚组,识别出9个与乳腺癌高度相关的预后标志物,其中7个基因已被文献综述证实。从而得出结论,本研究构建了一个准确、稳健的多组学数据综合预测肿瘤预后的框架。此外,它也是发现癌症预后相关基因的有效途径。 第三篇:《XGBoost model for electrocaloric temperature change prediction in ceramics》