
摘要
原发部位不明癌症(CUPS)是一种无法确定肿瘤起源部位的转移性肿瘤。精确诊断转移性CUPS的组织来源对于制定治疗方案以改善患者预后至关重要。最近,有许多研究使用各种癌症生物标志物来预测原发组织(TOO)。然而,只有极少数使用拷贝数变异(CNA)来预测原发组织。本文介绍了一种名为CNA_origin的两步计算框架,用于从基因CNA水平预测肿瘤原发组织。CNA_origin建立了一个主要由自动编码器和卷积神经网络(CNN)组成的智能深度学习网络。根据公共数据库发布的真实数据集,CNA_origin在10倍交叉验证中的总体准确率为83.81%,在独立数据集上预测肿瘤起源的准确率为79%,与之前发表的论文方法相比,准确率提高了7.75%和9.72%。文章的研究结果表明,自动编码模型可以提取CNA的关键特征,而本文研究开发的CNN分类器模型可以稳健有效地预测肿瘤的起源。
1.介绍
肿瘤转移是指肿瘤细胞从原发部位脱落,进入循环系统,转移到身体其他部位并继续生长的过程。在大约3-5%的转移性肿瘤中,无法找到原发部位,这被称为原发部位不明癌症(CUPS)。被诊断为CUPS的患者接受广谱抗癌药物治疗,并且中位生存期很低,只有9-12个月。精确诊断转移性CUPS的起源组织对于决定改善患者预后的治疗方案至关重要。临床、影像学和病理检查用于检测起源组织,但这些方法只能确定约50–80%的CUPS患者的原发组织。
到目前为止,很少有研究调查基因组变异对CUPS起源组织的作用。基因组变异包括突变、插入、缺失(INEDL)和拷贝数变异(CNA)。作为基因组的主要遗传标记,CNA可通过基因剂量、基因断裂、基因融合和位置效应影响基因功能,与肿瘤的发生发展密切相关。CNA在肿瘤的个性化治疗和预后判断中也发挥着越来越重要的作用。在本文的研究中,提出了一种称为CNA_origin的计算方法,利用基因CNA水平的信息来预测起源组织。CNA_origin建立了一个主要由自动编码器和卷积神经网络(CNN)组成的智能深度学习网络。对于相同的基准数据集,该预测器成功地学习了基因拷贝数的固有信息,并表现出优于经典算法的性能。
2.材料和方法
2.1.数据集集合
基因拷贝改变数据由Affymetrix SNP 6.0阵列生成,用于癌症基因组图谱(TCGA)研究中的一组样品,由Firehose分析管道生成,数据集的预处理分析由GISTIC执行,并选择样本量大于400的数据集。表1总结了所有组织样本的详细信息,包括肿瘤状态、组织病理学细节和样本大小。
表1.CNA剖面的每个组织的样本数量

2.2.特征提取
每个样本有24174个基因水平的CNA值。高维和小样本已经严重掩盖了CNA数据的本质。在本文中,CNA_origin应用堆叠式自动编码器(SAE)提取CNA值的特征,通过训练具有小中心层的多层神经网络重构高维输入向量,将高维数据转换为低维向量组。SAE由一个自适应多层“编码器”网络和一个非对称“解码器”网络组成,在保持关键信息的同时,通过代码层中的隐藏节点实现高维抽象,以减少特征,如图1A所示。
对于基因CNA的特征提取,本文将对称隐藏层中的神经元数量分别设置为4096、1024、256、100、256、1024和4096。最中间的100个神经元代表提取的特征,因为发现超过100维的特征对提高分类器的性能没有帮助。初始学习率设置为0.01,批量大小设置为64,迭代次数设置为16。使用Adam算法对该自动编码器进行优化,以学习模型参数,另外损失函数为均方误差。
2.3.分类器构造
CNA_origin将样本的100个特征重塑为100×1向量;每个输入向量的宽度为100,高度为1,深度为1。采用一维卷积方法,用滤波器提取局部子序列,每个滤波器的大小为k×1,即滤波器的宽度为k,高度为1。CNA_origin利用1×1、3×1、5×1、7×1和9×1等多尺度卷积核提取不同层次的高阶特征,增加特征提取的多样性。其中,1×1卷积核改变了信道数,增加了特征的非线性变换,提高了网络的泛化能力。k×1后面括号中的数字48或64表示48或96个滤波器的卷积。CNA_origin通过在序列的首尾添加元素为零的k/2列来填充特征。
图1中的concat操作表示将每个分支的要素堆叠在一起。不同的卷积层和最大池层像Inception模块一样连接在一起,这增加了网络的深度,提高了CNN的鲁棒
性。在网络开始阶段,使用较大的卷积核来减少参数和计算的数量,如图1B所示。最后,网络连接了两个全连接层,并带有一个dropout层以避免过度拟合。辍学层通过移除网络中的一些连接帮助缓解了这一问题。
对于分类学习,多尺度卷积核数设置为64,批次大小设置为16,迭代次数设置为12。根据测试数据集的损失值动态调整学习率,初始值为0.01。辍学率设置为0.4,损失函数为稀疏分类交叉熵。

图1.CNA_origin的工作流程
3. 结果与讨论
3.1 绩效评估指标
这六个肿瘤数据集用于训练CNA_origin。为了了解泛化性能,CNA_origin还通过独立数据集进行了测试。在本文研究中,采用精确度(P)、召回率(R)、准确度(ACC)和F1-score来评估相应方法的性能。
3.2 CNA_origin性能
十倍交叉验证用于评估文章的算法和提取的100维特征。表2列出了十个测试数据集的四个指标P、R、ACC和F1分数的平均值。
表2.CNA_origin性能通过10倍交叉验证通过三个指标进行测量

3.3. 与其他算法的性能比较
在相同的基准数据集上,文章将该算法的性能与其他四种经典分类算法进行了比较。表3表明CNA_origin在BRCA、KIRC、OV和UCEC方面的性能优于LSTM、RF、XGboost和CNA_zhang。
表3. CNA_origin预测与其他算法的比较

利用六种肿瘤的精确性、F1评分、召回率和准确度的宏观平均值来评估文章的预测因子。对CNA_origin、LSTM、RF、XGboost和CNA_zhang进行了100次十倍交叉验证。结果如图2所示。

图2. CNA_origin和其他算法(LSTM、RF、XGboost和CNA_zhang)在10倍交叉验证100次的精度、F1-score、召回率和准确性的宏观平均值之间性能比较。
结果表明,UCEC的敏感性、准确性和特异性均明显低于其他肿瘤。对UCEC的结果进行了进一步分析,发现约48–76%的UCEC样本预测为OV,而24–52%的UCEC样本预测为BRCA。这可能是因为BRCA、OV和UCEC是激素依赖性肿瘤,许多报告指出,BRCA、OV和UCEC与雌激素和雌激素受体的变化有关。此外,卵巢和子宫的物理位置非常接近,这可能导致组织样本受到污染,难以区分UCEC和OV样本。
图3. TCGA独立数据集CNA_origin和其他算法(LSTM、RF、XGboost和CNA_zhang)的性能比较。
3.5.独立数据集的性能比较
为了比较独立数据的泛化性能,使用TCGA于2016年发布的CNA数据集进行了实验。TCGA数据集分别有1080个BRCA样本、611个COADRAD样本、577个GBM样本、528个KIRC样本、552个OV样本和533个UCEC样本。使用GISTIC2对24776个基因CNA值进行预处理分析。TCGA
数据集独立于训练数据,因为预处理分析,如质量控制、校准和变异检测,具有不同的系统偏差。如图4所示,CNA_origin在准确度、召回率、准确度和f1-score方面的总体表现在所有工具中最高,为0.74, 0. 85, 0. 79和0.77。根据图3所示的结果,可以得出结论,CNA_origin在独立的数据集中成功执行。
4.结论
CNA为肿瘤类型的识别和分类提供了一种新的方法。在这项研究中,提出了一种计算方法CNA_origin,用于根据基因CNA水平的信息预测起源组织。CNA_origin建立了一个以自动编码器和CNN为主的智能深度学习网络。该预测器成功地学习了基因拷贝数的原有信息,在k倍交叉验证和独立数据集上表现出优于经典算法的性能。目前,仅使用CNA作为肿瘤可追溯性的生物标记物的准确性并不高。整合多种生物标记物,如CNA和DNA甲基化或基因表达数据,以追踪肿瘤是未来的目标。