深度学习实现基于液体细胞学模型的宫颈癌前病变及癌症检测

宫颈细胞学筛查已广泛应用于宫颈癌前病变及宫颈癌的早期检测，但在实际应用中仍面临若干问题，包括敏感度有限、不同阅片者之间一致性不足以及人工阅片耗时较长。本文基于液基细胞学（LBC）全切片数字图像，构建了一个用于识别 CIN2+（即宫颈上皮内瘤变2级及以上病变）的深度学习模型。与只在测试集上报告模型性能的研究不同，这篇文章还进一步进行了多中心泛化验证、多阅片者多病例（MRMC）研究，以及两类真实筛查场景下的应用评估，因此更接近临床实际使用场景。

整体研究流程

模型开发

从女性受试者获取宫颈样本，经过液基细胞学制片后形成 LBC slides，再将切片扫描为 whole digital slides。随后，对阴性细胞以及阳性细胞进行标注，其中阳性细胞同时覆盖鳞状细胞异常和腺上皮细胞异常。在此基础上，构建深度学习模型，用于完成液基细胞学数字切片的阴阳性判别。

分步外部验证

在模型开发完成后，作者进一步开展了分步外部验证，以评估模型在不同场景中的实际表现。首先，研究在来自 9 家医院的外部测试集中的泛化能力，并将模型结果与人工判读结果进行比较；随后，在 MRMC 研究中，比较细胞病理医师在无模型辅助和有模型辅助两种情况下的诊断表现与阅片效率；最后，又分别在社区有组织筛查和医院机会性筛查两类真实场景中评估模型的应用价值。

结果

1. 多中心泛化能力

首先在来自 9 家医院的外部数据中评估模型表现。整体来看，该模型在不同医院来源、不同阅片环境下都保持了较为稳定的诊断能力，说明它并不是只对单中心数据有效，而是具有一定的跨机构泛化能力。

进一步分层比较发现，在由初级细胞病理医师完成初诊的子集中，模型的优势更加明显；而在由资深细胞病理医师完成初诊的子集中，模型的敏感度与人工判读相近，但特异度略低。

2. MRMC研究结果

模型单独使用时已经表现出较强的诊断能力，但更重要的是，在加入模型辅助后，细胞病理医师整体的诊断表现进一步改善。这种提升主要体现在初级细胞病理医师中，而资深细胞病理医师在加入辅助后的改善相对有限。除了准确性提升以外，模型还明显缩短了阅片时间。

3. 在社区有组织筛查中的表现

在社区有组织筛查场景中，研究对象更接近一般筛查人群，病变患病率相对较低。在这一背景下，模型与资深细胞病理医师相比，敏感度基本相当，但特异度偏低。这说明模型在这类低患病率场景中具有较强的病变检出能力，但也更容易带来额外转诊。整体来看，它更适合用于尽量减少漏诊的筛查任务，但如果直接用于大规模初筛，仍需要结合具体策略权衡检出收益与转诊负担。

4. 在医院机会性筛查中的表现

与社区筛查相比，医院机会性筛查更接近日常临床工作流程。在这一场景中，初级细胞病理医师在模型辅助下，敏感度和特异度均得到明显提升，同时不必要的转诊负担也有所下降。这个结果说明，模型进入真实临床流程后，并不只是提供一个额外分数，而是能够直接改善经验相对不足医师的实际判读表现。

总结

这篇文章的价值，不仅在于构建了一个用于宫颈液基细胞学判读的深度学习模型，更在于较为系统地评估了它在真实临床流程中的应用潜力。整体来看，模型在不同医院数据中表现较为稳定，在阅片研究中能够明显提高初级细胞病理医师的诊断表现，并显著缩短阅片时间，在真实筛查场景中也表现出一定的辅助应用价值。

当然，这篇文章也存在一些局限。首先，并不是所有受试者都有活检结果，部分最终疾病状态是结合 HPV、细胞学和阴道镜结果推定的，这可能会对结局判断带来一定影响。其次，验证队列中 CIN2+ 的患病率高于一般筛查人群，因此相关性能指标在普通人群中的可推广性仍需谨慎看待。第三，在社区有组织筛查这类低患病率场景中，模型单独使用时特异度仍然不足，可能带来更多阴道镜转诊。第四，研究排除了图像质量较差的切片，而在真实基层环境中，切片制备、染色、扫描质量并不一定总能达到同样标准。最后，腺上皮异常病例数量有限，相关能力仍需进一步研究验证。

总体而言，深度学习模型作为辅助工具，能够在宫颈筛查和 HPV 阳性分流中发挥实际作用，尤其有望提升初级细胞病理医师的诊断水平与工作效率。