社区所有版块导航
Python
python开源   Django   Python   DjangoApp   pycharm  
DATA
docker   Elasticsearch  
aigc
aigc   chatgpt  
WEB开发
linux   MongoDB   Redis   DATABASE   NGINX   其他Web框架   web工具   zookeeper   tornado   NoSql   Bootstrap   js   peewee   Git   bottle   IE   MQ   Jquery  
机器学习
机器学习算法  
Python88.com
反馈   公告   社区推广  
产品
短视频  
印度
印度  
Py学习  »  机器学习算法

深度学习这是闹哪样

生信人 • 1 年前 • 206 次点击  

同学们大家早上好,今天和大家分享的文章是近期发表在《Computers in Biology And Medicine》(IF:7.7)杂志上,本文通过利用机器学习的模型预测了转移的发生,本文筛选了不同组织转移相关的基因,根据这些基因预测相关转移。并评估了这些算法之间对什么样的数据更具有效,快让我们一起来学习一下吧!

Prediction and related genes of cancer distant metastasis based on deep learning

摘要

肿瘤转移是导致肿瘤进展和治疗困难的主要原因之一。基因在肿瘤转移的过程中起着关键作用,因为它们可以影响肿瘤细胞的侵袭性、迁移能力和适应度。同时,肿瘤转移的器官也存在异质性。以往的研究指出,转移的发生与转移到哪个组织和基因密切相关。在本文中,基于LASSO和皮尔逊相关系数确定了与癌症转移到不同组织相关的基因。总共鉴定了45个与骨转移相关的基因,89个与肺转移相关的基因,以及86个与肝转移相关的基因。通过这些基因的表达,提出了一个基于CNN的模型来预测转移的发生。作者将这种方法命名为MDCNN,它引入了一种调制机制,允许卷积核的权重在不同的位置和特征映射上进行调整,从而自适应地改变不同位置的卷积。实验证明,MDCNN在骨转移、肺转移和肝转移等方面都取得了很好的预测精准度,且优于其他4种同类方法。对骨转移相关基因进行了富集分析和免疫浸润分析,发现了与骨转移相关的多种通路和GO term,发现骨转移患者中巨噬细胞和单核细胞的丰度最高。

更贴合临床的生信分析定制

方法

1.肿瘤转移发生的预测

采用多维卷积神经网络(MDCNN)来预测患者中是否存在特定类型的肿瘤转移。MDCNN的结构如图1所示。与传统的机器学习算法和深度神经网络(DNN)等网络相比,MDCNN通过有效地利用多个尺度上的信息,提供了显著的优势,从而在复杂数据集上获得更好的预测性能。MDCNN的具体架构如图所示,包括特征提取模块和预测模块(图1)。

图1:MDCNN的结构

结果
1.数据集
从TCGA数据库下载了12591名癌症患者的基因表达数据和表型信息,其中1367例患者发生了癌症转移。这些患者的转移每个都针对不同的组织。与淋巴结相关的组织内转移的患病率相对较高。包括各种淋巴结,如腹膜后淋巴结、淋巴结、远处淋巴结、主动脉旁淋巴结、锁骨上淋巴结和颈部淋巴结。

2.转移相关基因

由于肺、肝和骨转移患者的患病率明显较高,对这些组织类型进行了LASSO分析,以确定与转移相关的基因。对每个组织采用了10倍的交叉验证来确定最佳的lambda值。通过LASSO分析,确定了105个与骨转移相关的基因,69个与肺转移相关的基因,以及144个与肝转移相关的基因(图2)。为了验证这些基因与转移的相关性,作者计算了皮尔逊相关系数。通过将基因表达与患者转移的发生情况并置。作者选择了p<0.05的基因作为与转移最密切相关的基因。图2C显示了45个与骨转移相关的基因,图2F显示了39个与肺转移相关的基因,图2I显示了86个基因与肝转移相关。显然,不同的组织转移表现出不同的差异基因表达模式。在不同的组织中,影响癌症转移的基因之间的重叠很小。因此,每种类型的癌症向不同组织的转移倾向是不同的和特异性的。

图2:LASSO分析筛选与特定组织转移相关的基因

3. 转移预测

AUC(ROC曲线下的面积)和AUPR(精度-召回曲线下的面积)是两种常用评估分类模型性能的评估指标。当类分布不严重不平衡,以及假阳性和假阴性的相对重要性不强烈倾斜时,AUC特别有用。AUPR特别适合于在类分布不平衡的情况下评估模型。

从图3中可以看出,与其他方法相比,MDCNN在不同的组织转移瘤中表现最好。 MDCNN的AUC和AUPR值都比其他方法高5%,第二好的是DNN。这说明通过基因表达来预测癌症转移的发生是一个高维的非线性问题,而深度学习方法更适合于解决这类问题。与其他方法相比,CNN在理论上有很多优势。CNN被用于从数据中自动学习层次特征。它们可以以分层的方式学习低级特征和高级特征。此外,由于使用了卷积层,CNN本质上是平移不变的。这使得它们非常适合于输入数据中特征的位置不重要的任务。相比之下,DNN、GBDT和SVM等其他模型可能需要手动特征来实现平移不变性。CNN对复杂数据有效,其中可以在不同的尺度和方向上找到模式。然而,RF、GBDT和SVM在没有大量预处理或特征筛选的情况下自动提取这些分层特征的能力较差。

图3:方法的比较

4. 骨转移相关基因的功能注释

利用DAVID对45个与骨转移相关的基因进行了富集分析。如图4A所示,具有最高显著性的通路是Ko05166和ko03015,其中Ko05166与人类T细胞白血病病毒1型感染有关。HTLV-1使个体更容易感染成人T细胞白血病/淋巴瘤(ATL),这种情况通常与高钙血症和骨降解有关。这种病毒编码Tax癌蛋白。在一项研究中,观察到Tax小鼠出现高钙血症、高频溶骨性骨转移和破骨细胞活性增加。研究人员发现,Tax和破骨细胞抑制剂骨保护素双重转基因的小鼠对溶骨性骨病具有保护作用,并且软组织肿瘤较少。同样,使用骨靶向唑来膦酸抑制破骨细胞可以保护Tax小鼠免受骨和软组织肿瘤的侵袭,同时延长其生存期。考虑到免疫失调,HTLV-1感染会扰乱免疫系统,导致受感染的T细胞增殖和免疫反应的改变。这种破坏可能会影响身体识别和管理癌症细胞传播的能力。此外,慢性炎症被认为是癌症进展和转移的一个因素。HTLV-1感染可引发慢性炎症,可能会促进环境有利于癌症的生长和扩散。另一方面,HTLV-1可以改变受感染T细胞内的细胞信号通路。这些修饰可能随后影响与癌症转移相关的过程,如细胞运动、侵袭和与细胞外基质的相互作用。

至于ko03015,它对应于信使核糖核酸监测通路。这种通路的紊乱可能导致肿瘤抑制基因或致癌基因水平的变化。这种破坏可能导致癌症的发生和发展,包括转移。此外,上皮-间质转移(EMT)是癌症转移的关键过程,可能受到mRNA监测通路改变的影响。这些改变可能影响EMT相关基因的表达,影响癌症细胞渗透周围组织和进入血液的能力。最后,与细胞粘附、运动和细胞骨架重排相关的基因在癌症转移中起着关键作用。mRNA调控途径的不规则性可能影响这些基因的表达,进而影响癌症细胞的行为。

图4:骨转移相关基因的功能注释

5. 骨转移免疫浸润试验

通过CIBERSORT分析骨转移患者肿瘤微环境中免疫细胞的组成,比较不同患者组之间的免疫细胞组成。如图5所示,巨噬细胞和单核细胞的丰度最高。巨噬细胞和单核细胞都是在免疫系统中发挥关键作用的白细胞。它们参与各种过程,包括炎症、组织修复和防御感染。这些细胞在癌症中也有意义,特别是在骨转移的背景下。巨噬细胞和单核细胞参与骨转移的几个阶段。巨噬细胞可以分泌将癌症细胞吸引到骨组织的因子。它们还创造了一种炎症环境,可以帮助癌症细胞侵入骨骼。一旦癌症细胞到达骨骼,它们就会与骨抑制细胞和免疫细胞(包括巨噬细胞)相互作用。巨噬细胞可以影响骨骼微环境,使其更易于促进癌症细胞的生存和生长。巨噬细胞可以通过释放分解骨组织的酶来促进骨降解。它们还释放生长因子,可以刺激骨中癌症细胞的生长。

图5:骨转移患者的免疫细胞浸润情况

小结

肿瘤转移涉及到癌细胞从原发肿瘤部位扩散到身体的远处部位。这些细胞转移的能力取决于各种因素的复杂相互作用,包括它们对特定组织的特异性靶向作用。各种类型的癌症倾向于表现出转移到特定器官或组织的偏好,这受到诸如血流模式、血液内部相互作用等因素的影响。本文对预测骨转移发生的基因进行了富集分析,这些基因在代谢、遗传信息处理和环境信息处理等通路中表现出富集。深入研究了显著通路和骨转移的GO term之间的联系。最后,对骨转移患者进行了免疫浸润分析,发现巨噬细胞和单核细胞的丰度升高。这些免疫细胞可能通过肿瘤细胞的迁移和侵袭、转移生态位的制备、骨降解和生长因子以及免疫抑制等途径促进骨转移。

许多构建预测模型的研究都是根据一类相关基因进行构建,本文的切入点很新颖,是根据肿瘤转移相关的基因进行构建的,本模型对预测肿瘤的转移部位表现出良好的效果,可以很好的预测肿瘤的转移方向,可以为肿瘤的治疗提供新的思路!

更贴合临床的生信分析定制

Python社区是高质量的Python/Django开发社区
本文地址:http://www.python88.com/topic/165797
 
206 次点击