基于拷贝数变异预测肿瘤组织起源的深度学习框架

摘要

原发部位不明癌症（CUPS）是一种无法确定肿瘤起源部位的转移性肿瘤。精确诊断转移性CUPS的组织来源对于制定治疗方案以改善患者预后至关重要。最近，有许多研究使用各种癌症生物标志物来预测原发组织（TOO）。然而，只有极少数使用拷贝数变异（CNA）来预测原发组织。本文介绍了一种名为CNA_origin的两步计算框架，用于从基因CNA水平预测肿瘤原发组织。CNA_origin建立了一个主要由自动编码器和卷积神经网络（CNN）组成的智能深度学习网络。根据公共数据库发布的真实数据集，CNA_origin在10倍交叉验证中的总体准确率为83.81%，在独立数据集上预测肿瘤起源的准确率为79%，与之前发表的论文方法相比，准确率提高了7.75%和9.72%。文章的研究结果表明，自动编码模型可以提取CNA的关键特征，而本文研究开发的CNN分类器模型可以稳健有效地预测肿瘤的起源。

1.介绍

肿瘤转移是指肿瘤细胞从原发部位脱落，进入循环系统，转移到身体其他部位并继续生长的过程。在大约3-5%的转移性肿瘤中，无法找到原发部位，这被称为原发部位不明癌症（CUPS）。被诊断为CUPS的患者接受广谱抗癌药物治疗，并且中位生存期很低，只有9-12个月。精确诊断转移性CUPS的起源组织对于决定改善患者预后的治疗方案至关重要。临床、影像学和病理检查用于检测起源组织，但这些方法只能确定约50–80%的CUPS患者的原发组织。

到目前为止，很少有研究调查基因组变异对CUPS起源组织的作用。基因组变异包括突变、插入、缺失（INEDL）和拷贝数变异（CNA）。作为基因组的主要遗传标记，CNA可通过基因剂量、基因断裂、基因融合和位置效应影响基因功能，与肿瘤的发生发展密切相关。CNA在肿瘤的个性化治疗和预后判断中也发挥着越来越重要的作用。在本文的研究中，提出了一种称为CNA_origin的计算方法，利用基因CNA水平的信息来预测起源组织。CNA_origin建立了一个主要由自动编码器和卷积神经网络（CNN）组成的智能深度学习网络。对于相同的基准数据集，该预测器成功地学习了基因拷贝数的固有信息，并表现出优于经典算法的性能。

2.材料和方法

2.1.数据集集合

基因拷贝改变数据由Affymetrix SNP 6.0阵列生成，用于癌症基因组图谱（TCGA）研究中的一组样品，由Firehose分析管道生成，数据集的预处理分析由GISTIC执行，并选择样本量大于400的数据集。表1总结了所有组织样本的详细信息，包括肿瘤状态、组织病理学细节和样本大小。

表1.CNA剖面的每个组织的样本数量

2.2.特征提取

每个样本有24174个基因水平的CNA值。高维和小样本已经严重掩盖了CNA数据的本质。在本文中，CNA_origin应用堆叠式自动编码器（SAE）提取CNA值的特征，通过训练具有小中心层的多层神经网络重构高维输入向量，将高维数据转换为低维向量组。SAE由一个自适应多层“编码器”网络和一个非对称“解码器”网络组成，在保持关键信息的同时，通过代码层中的隐藏节点实现高维抽象，以减少特征，如图1A所示。

对于基因CNA的特征提取，本文将对称隐藏层中的神经元数量分别设置为4096、1024、256、100、256、1024和4096。最中间的100个神经元代表提取的特征，因为发现超过100维的特征对提高分类器的性能没有帮助。初始学习率设置为0.01，批量大小设置为64，迭代次数设置为16。使用Adam算法对该自动编码器进行优化，以学习模型参数，另外损失函数为均方误差。

2.3.分类器构造

CNA_origin将样本的100个特征重塑为100×1向量；每个输入向量的宽度为100，高度为1，深度为1。采用一维卷积方法，用滤波器提取局部子序列，每个滤波器的大小为k×1，即滤波器的宽度为k，高度为1。CNA_origin利用1×1、3×1、5×1、7×1和9×1等多尺度卷积核提取不同层次的高阶特征，增加特征提取的多样性。其中，1×1卷积核改变了信道数，增加了特征的非线性变换，提高了网络的泛化能力。k×1后面括号中的数字48或64表示48或96个滤波器的卷积。CNA_origin通过在序列的首尾添加元素为零的k/2列来填充特征。

图1中的concat操作表示将每个分支的要素堆叠在一起。不同的卷积层和最大池层像Inception模块一样连接在一起，这增加了网络的深度，提高了CNN的鲁棒性。在网络开始阶段，使用较大的卷积核来减少参数和计算的数量，如图1B所示。最后，网络连接了两个全连接层，并带有一个dropout层以避免过度拟合。辍学层通过移除网络中的一些连接帮助缓解了这一问题。

对于分类学习，多尺度卷积核数设置为64，批次大小设置为16，迭代次数设置为12。根据测试数据集的损失值动态调整学习率，初始值为0.01。辍学率设置为0.4，损失函数为稀疏分类交叉熵。

图1.CNA_origin的工作流程

3. 结果与讨论

3.1 绩效评估指标

这六个肿瘤数据集用于训练CNA_origin。为了了解泛化性能，CNA_origin还通过独立数据集进行了测试。在本文研究中，采用精确度（P）、召回率（R）、准确度（ACC）和F1-score来评估相应方法的性能。

3.2 CNA_origin性能

十倍交叉验证用于评估文章的算法和提取的100维特征。表2列出了十个测试数据集的四个指标P、R、ACC和F1分数的平均值。

表2.CNA_origin性能通过10倍交叉验证通过三个指标进行测量

3.3. 与其他算法的性能比较

在相同的基准数据集上，文章将该算法的性能与其他四种经典分类算法进行了比较。表3表明CNA_origin在BRCA、KIRC、OV和UCEC方面的性能优于LSTM、RF、XGboost和CNA_zhang。

表3. CNA_origin预测与其他算法的比较

利用六种肿瘤的精确性、F1评分、召回率和准确度的宏观平均值来评估文章的预测因子。对CNA_origin、LSTM、RF、XGboost和CNA_zhang进行了100次十倍交叉验证。结果如图2所示。

图2. CNA_origin和其他算法（LSTM、RF、XGboost和CNA_zhang）在10倍交叉验证100次的精度、F1-score、召回率和准确性的宏观平均值之间性能比较。

结果表明，UCEC的敏感性、准确性和特异性均明显低于其他肿瘤。对UCEC的结果进行了进一步分析，发现约48–76%的UCEC样本预测为OV，而24–52%的UCEC样本预测为BRCA。这可能是因为BRCA、OV和UCEC是激素依赖性肿瘤，许多报告指出，BRCA、OV和UCEC与雌激素和雌激素受体的变化有关。此外，卵巢和子宫的物理位置非常接近，这可能导致组织样本受到污染，难以区分UCEC和OV样本。

图3. TCGA独立数据集CNA_origin和其他算法（LSTM、RF、XGboost和CNA_zhang）的性能比较。

3.5.独立数据集的性能比较

为了比较独立数据的泛化性能，使用TCGA于2016年发布的CNA数据集进行了实验。TCGA数据集分别有1080个BRCA样本、611个COADRAD样本、577个GBM样本、528个KIRC样本、552个OV样本和533个UCEC样本。使用GISTIC2对24776个基因CNA值进行预处理分析。TCGA 数据集独立于训练数据，因为预处理分析，如质量控制、校准和变异检测，具有不同的系统偏差。如图4所示，CNA_origin在准确度、召回率、准确度和f1-score方面的总体表现在所有工具中最高，为0.74, 0. 85, 0. 79和0.77。根据图3所示的结果，可以得出结论，CNA_origin在独立的数据集中成功执行。

4.结论

CNA为肿瘤类型的识别和分类提供了一种新的方法。在这项研究中，提出了一种计算方法CNA_origin，用于根据基因CNA水平的信息预测起源组织。CNA_origin建立了一个以自动编码器和CNN为主的智能深度学习网络。该预测器成功地学习了基因拷贝数的原有信息，在k倍交叉验证和独立数据集上表现出优于经典算法的性能。目前，仅使用CNA作为肿瘤可追溯性的生物标记物的准确性并不高。整合多种生物标记物，如CNA和DNA甲基化或基因表达数据，以追踪肿瘤是未来的目标。