社区所有版块导航
Python
python开源   Django   Python   DjangoApp   pycharm  
DATA
docker   Elasticsearch  
aigc
aigc   chatgpt  
WEB开发
linux   MongoDB   Redis   DATABASE   NGINX   其他Web框架   web工具   zookeeper   tornado   NoSql   Bootstrap   js   peewee   Git   bottle   IE   MQ   Jquery  
机器学习
机器学习算法  
Python88.com
反馈   公告   社区推广  
产品
短视频  
印度
印度  
Py学习  »  机器学习算法

基于拷贝数变异预测肿瘤组织起源的深度学习框架

DrugAI • 3 年前 • 493 次点击  


摘要

原发部位不明癌CUPS)是一种无法确定肿瘤起源部位的转移性肿瘤。精确诊断转移性CUPS的组织源对于制定治疗方案以改善患者预后至关重要。最近,有许多研究使用各种癌症生物标志物来预测原发组织(TOO)。然而,只有极少数使用拷贝数变异CNA)来预测原发组织。本文介绍了一种CNA_origin的两步计算框架,用于从基因CNA水平预测肿瘤原发组织。CNA_origin建立了一个主要由自动编码器和卷积神经网络(CNN)组成的智能深度学习网络。根据公共数据库发布的真实数据集,CNA_origin10倍交叉验证中的总体准确率为83.81%,在独立数据集上预测肿瘤起源的准确率为79%,与之前发表的论文方法相比,准确率提高了7.75%9.72%文章的研究结果表明,自动编码模型可以提取CNA的关键特征,而本研究开发的CNN分类器模型可以稳健有效地预测肿瘤的起源。

 

1.介绍

肿瘤转移是指肿瘤细胞从原发部位脱落,进入循环系统,转移到身体其他部位并继续生长的过程。在大约3-5%的转移性肿瘤中,无法找到原发部位,这被称为原发部位不明癌CUPS)。被诊断为CUPS的患者接受广谱抗癌药物治疗,并且中位生存期很低,只有9-12个月。精确诊断转移性CUPS的起源组织对于决定改善患者预后的治疗方案至关重要。临床、影像学和病理检查用于检测起源组织,但这些方法只能确定约50–80%CUPS患者的原发组织。

到目前为止,很少有研究调查基因组变异对CUPS起源组织的作用。基因组变异包括突变、插入缺失(INEDL)和拷贝数变异CNA)。作为基因组的主要遗传标记,CNA可通过基因剂量、基因断裂、基因融合和位置效应影响基因功能,与肿瘤的发生发展密切相关。CNA在肿瘤的个性化治疗和预后判断中也发挥着越来越重要的作用。在本文的研究中,提出了一种称为CNA_origin的计算方法,利用基因CNA水平的信息来预测起源组织。CNA_origin建立了一个主要由自动编码器和卷积神经网络(CNN)组成的智能深度学习网络。对于相同的基准数据集,该预测器成功地学习了基因拷贝数的固有信息,并表现出优于经典算法的性能。

 

2.材料和方法


2.1.数据集集合

基因拷贝改变Affymetrix SNP 6.0阵列生成,用于癌症基因组图谱(TCGA)研究中的一组样品,由Firehose分析管道生成数据集的预处理分析由GISTIC执行,并选择样本量大于400的数据集。表1总结了所有组织样本的详细信息,包括肿瘤状态、组织病理学细节和样本大小。

1.CNA剖面的每个组织的样本数量



2.2.特征提取

每个样本有24174个基因水平的CNA值。高维和小样本已经严重掩盖了CNA数据的本质。在本文中,CNA_origin应用堆叠式自动编码器(SAE)提取CNA值的特征,通过训练具有小中心层的多层神经网络重构高维输入向量,将高维数据转换为低维向量组SAE由一个自适应多层“编码器”网络和一个非对称“解码器”网络组成,在保持关键信息的同时,通过代码层中的隐藏节点实现高维抽象,以减少特征,如图1A所示。

对于基因CNA的特征提取,本文将对称隐藏层中的神经元数量分别设置为4096102425610025610244096。最中间的100个神经元代表提取的特征,因为发现超过100维的特征对提高分类器的性能没有帮助。初始学习率设置为0.01,批量大小设置为64迭代次数设置为16。使用Adam算法对该自动编码器进行优化,以学习模型参数,另外损失函数为均方误差。

 

2.3.分类器构造

CNA_origin将样本的100个特征重塑为100×1向量;每个输入量的宽度为100,高度为1,深度为1。采用一维卷积方法,用滤波器提取局部子序列,每个滤波器的大小为k×1,即滤波器的宽度为k,高度为1CNA_origin利用1×13×15×17×19×1等多尺度卷积核提取不同层次的高阶特征,增加特征提取的多样性。其中,1×1卷积核改变了信道数,增加了特征的非线性变换,提高了网络的泛化能力。k×1后面括号中的数字4864表示4896个滤波器的卷积。CNA_origin通过在序列的首尾添加元素为零的k/2列来填充特征

1中的concat操作表示将每个分支的要素堆叠在一起。不同的卷积层和最大池层像Inception模块一样连接在一起,这增加了网络的深度,提高了CNN鲁棒 在网络开始阶段,使用较大的卷积核来减少参数和计算的数量,如图1B所示。最后,网络连接了两个连接层,带有一个dropout层以避免过度拟合。辍学层通过移除网络中的一些连接帮助缓解了这一问题。

对于分类学习,多尺度卷积核数设置为64,批大小设置为16迭代次数设置为12。根据测试数据集的损失值动态调整学习率,初始值为0.01。辍学率设置为0.4,损失函数为稀疏分类交叉熵。


1.CNA_origin的工作流程


3. 结果与讨论


3.1 绩效评估指标

这六个肿瘤数据集用于训练CNA_origin。为了了解泛化性能,CNA_origin还通过独立数据集进行了测试。在本研究中,采用精度(P)、召回率(R)、准确度(ACC)和F1-score来评估相应方法的性能

3.2 CNA_origin性能

十倍交叉验证用于评估文章的算法和提取的100维特征。表2列出了十个测试数据集的四个指标PRACCF1分数的平均值。


2.CNA_origin性能通过10倍交叉验证通过三个指标进行测量

 

3.3. 与其他算法的性能比较

在相同的基准数据集上,文章将该算法的性能与其他四种经典分类算法进行了比较。3表明CNA_originBRCAKIRCOVUCEC方面的性能优于LSTMRFXGboostCNA_zhang


3. CNA_origin预测与其他算法的比较

利用六种肿瘤的精确性、F1评分、召回率和准确度的宏观平均值来评估文章的预测因子。对CNA_originLSTMRFXGboostCNA_zhang进行了100次十倍交叉验证。结果如图2所示。

 


2. CNA_origin和其他算法(LSTMRFXGboostCNA_zhang)在10倍交叉验证100次的精度、F1-score召回率和准确性的宏观平均值之间性能比较。


结果表明,UCEC的敏感性、准确性和特异性均明显低于其他肿瘤。对UCEC的结果进行了进一步分析,发现约4876%UCEC样本预测为OV,而2452%UCEC样本预测为BRCA。这可能是因为BRCAOVUCEC是激素依赖性肿瘤,许多报告指出,BRCAOVUCEC与雌激素和雌激素受体的变化有关。此外,卵巢和子宫的物理位置非常接近,这可能导致组织样本受到污染,难以区分UCECOV样本。

3. TCGA独立数据集CNA_origin和其他算法(LSTMRFXGboostCNA_zhang)的性能比较。

3.5.独立数据集的性能比较

为了比较独立数据的泛化性能,使用TCGA2016年发布的CNA数据集进行了实验。TCGA数据集分别有1080BRCA样本、611COADRAD样本、577GBM样本、528KIRC样本、552OV样本和533UCEC样本。使用GISTIC224776个基因CNA值进行预处理分析TCGA 数据集独立于训练数据,因为预处理分析,如质量控制、校准和变异检测,具有不同的系统偏差。如图4所示,CNA_origin在准确度、召回率、准确度和f1-score方面的总体表现在所有工具中最高,为0.74, 0. 85, 0. 790.77。根据图3所示的结果,可以得出结论,CNA_origin在独立的数据集中成功执行。

 

4.结论

CNA为肿瘤类型的识别和分类提供了一种新的方法。在这项研究中,提出了一种计算方法CNA_origin,用于根据基因CNA水平的信息预测起源组织。CNA_origin建立了一个以自动编码器和CNN为主的智能深度学习网络。该预测器成功地学习了基因拷贝数的有信息,在k交叉验证和独立数据集上表现出优于经典算法的性能。目前,仅使用CNA作为肿瘤可追溯性的生物标记物的准确性并不高。整合多种生物标记物,如CNADNA甲基化或基因表达数据,以追踪肿瘤是未来的目标。


Python社区是高质量的Python/Django开发社区
本文地址:http://www.python88.com/topic/123752
 
493 次点击