TORCH：深度学习用于胸腹水细胞学肿瘤溯源

原发不明肿瘤（Cancer of Unknown Primary, CUP）是一类经病理学确认为转移性恶性病变、但通过标准基线检查仍无法确定起源部位的恶性肿瘤，这类肿瘤以腺癌最为常见，通常表现为早期播散、侵袭性强、多器官受累，多数患者预后极差。临床上，免疫组化是预测 CUP 可能起源的常用手段，但仅有不到 30% 的病例能通过免疫染色组合被精确定位，CUP 因此始终是困扰临床的棘手难题。

在初诊 CUP 患者中，相当一部分以胸膜或腹膜转移为首发表现。胸腹腔浆膜腔是游离肿瘤细胞高发转移的部位，胸水或腹水中检出的游离肿瘤细胞或种植性细胞团，往往是某些实体瘤已进展至 IV 期的有力证据。

近年来，AI 在组织病理图像分析中屡获突破，但能够解读细胞学图像以预测肿瘤起源的深度学习模型鲜有报道。细胞学标本主要适用于无法手术或不能耐受穿刺活检的晚期患者，胸腹腔积液因其易获取性在定位肿瘤起源方面独具优势，但标本细胞数量不足、细胞退变以及判读者间差异等因素制约了诊断准确率。

基于此， TORCH（Tumor Origin differentiation using Cytological Histology）——一个基于胸腹水细胞学图像的深度学习模型，旨在从浆膜腔积液细胞学涂片中识别恶性并预测肿瘤的器官系统级起源。研究基于 57,220 例大规模数据集，在多个内外部测试集上进行了系统验证，并进一步开展了人机对比、AI辅助判读及临床生存获益分析。

数据集与研究框架

研究于 2010 年 6 月至 2023 年 10 月间，从天津医科大学肿瘤医院、郑州大学第一附属医院、苏州大学第一附属医院和烟台毓璜顶医院四家机构获取了 76,183 例患者的 90,572 张细胞学涂片图像。经排除缺乏原发灶证据的恶性图像及空白失焦图像后，最终数据集包含 43,688 例患者的 57,220 张图像。训练集由 20,638 例个体的 29,883 张图像构成，覆盖 12 种肿瘤亚型。三个内部测试集共纳入 12,799 张图像，两个外部测试集（天津前瞻性队列与烟台回顾性队列）包含14,538 张图像。

在分类体系上，研究将肿瘤按器官功能和起源归入 12 个亚组，随后根据胸腹腔转移的发生频率整合为五大类别：良性、消化系统、 女性生殖系统（含乳腺癌）、呼吸系统、血液和淋巴系统。真实诊断标签由五位资深病理医师（均 > 15 年经验）达成共识后确定。按证据强度，病例被分为高确定性组（有手术病理或免疫组化证实）和低确定性组（仅穿刺活检或凭临床影像推定）。

TORCH 采用弱监督多实例学习（MIL）框架。每张细胞学图像被视为一个“包”（bag），切分出的 224×224 像素图像块作为“实例”（instance）。研究先利用 TCGA 数据库的 1,360,892 个组织病理图像块和 29,883 张细胞学图像，以 MoCo 自监督学习方法训练 50 层 ResNet 作为特征提取器，将每个 patch 转化为 1024 维特征向量。在此基础上，研究训练了四种不同的深度神经网络——AbMIL、AbMIL-MB、TransMIL及 TransMIL with cross-modality attention，并分别以三种输入组合（细胞学特征+临床参数、组织学特征+临床参数、两者融合+临床参数）训练，最终获得 12 个模型，以集成平均预测概率的方式提升稳定性。年龄、性别、标本采样部位等临床参数被嵌入为向量与图像特征融合输入。

关键结果

1. 肿瘤起源预测与良恶性鉴别性能

TORCH 在五个测试集上展现出稳健且可泛化的分类性能。总体 micro average AUROC 在各测试集上均超过 0.95，内部与外部验证集之间表现高度一致，未见明显的性能衰减。在良恶性鉴别任务上，模型兼顾了高敏感性与高特异性。在肿瘤溯源方面，模型 top-1 准确率超过 80%，top-3 准确率接近 99%，意味着如果将模型给出的前三候选作为参考范围，几乎可以覆盖绝大多数病例的真实起源。值得关注的是，TORCH 在低确定性亚组中仍维持了与高确定性亚组相当的分类性能，提示其对不同证据强度的病例具有较稳定的决策能力。

2. TORCH 与病理医师的对比及 AI 辅助效果

在 495 例细胞学图像的人机对比中，TORCH 的 top-1 准确率显著高于全部四位病理医师，且在准确率、敏感性和精确率三个维度上全面优于医师平均水平。四位病理医师之间的 Fleiss' kappa 较低，提示在细胞学图像上主观判读肿瘤起源的一致性较差，即便是经验丰富的医师之间也存在明显差异。

在 AI 辅助评估中，初级医师获得 TORCH 预测结果作为参考后，其 top-1 准确率显著提升，达到了与资深医师相当的水平。对消化系统判读的改善最为明显，女性生殖系统判读的敏感性亦有大幅提高。诊断评分在辅助后显著增长，提示 AI 辅助能有效弥合初级与资深医师之间的经验差距，但仍未完全达到模型自身的独立表现水平。

3. TORCH 预测与 CUP 患者长期预后的相关性

在 391 例不确定性 CUP 患者的回顾性分析中，初始治疗方案与 TORCH 预测肿瘤起源一致的患者，中位总生存期显著优于背离组，差异近 10 个月。在接受姑息化疗或靶向治疗的亚组中同样观察到一致的生存获益趋势。按预测起源分层后，女性生殖系统起源的患者预后最佳，消化系统预后最差，反映出不同起源的生物学行为差异。治疗后功能状态评分和 RECIST 疗效评价均显示，一致组的临床获益显著优于背离组，部分缓解率和疾病稳定率均更高。多变量 Cox 回归进一步证实，TORCH 一致性是独立于年龄、性别、标本来源和转移灶数量的良好预后因素。

4. 错误模式分析

在五个测试集上，模型的总体假阳性率和假阴性率均保持在较低水平。假阳性误判主要集中于反应性增生间皮细胞、退变组织细胞以及急性炎症渗出等良性病变，因其形态与肿瘤细胞存在一定重叠而被模型误判。假阴性或类别误判多发生于细胞数量极少、黏液遮盖肿瘤细胞、制片质量欠佳或罕见亚型的病例中。这些错误模式提示，模型在极端或边缘性病例中的判断仍需谨慎，也为后续数据增强和模型优化提供了明确方向。

总结

研究开发并验证了基于胸腹水细胞学图像的深度学习模型 TORCH ，胸腹水细胞学涂片上实现良恶性鉴别，以及对恶性细胞进行器官系统层面的起源推断。它在多个测试集中取得稳健性能，人机对比中显著优于病理医师，且 AI 辅助能有效提升初级医师的诊断水平。生存分析进一步提示，TORCH 指导下的治疗决策可能为 CUP 患者带来预后改善。

本研究也存在若干局限。首先，模型基于细胞学涂片而非 WSI 构建，仅能在器官系统层面定位起源而无法精确定位具体器官。其次，当前模型尚不能识别间皮瘤及泌尿、神经、骨与软组织等少见系统的转移。第三，数据全部来自中国四家中心，缺乏跨国家、跨种族的外部验证。最后，数据规模与自然图像识别相比仍然有限，模型架构亦可能非最优。未来方向包括纳入更大规模多中心多国数据、融合影像组学与基因组学等多模态信息，并通过前瞻性随机对照试验进一步验证其临床效用。