Nature Medicine | 剑桥大学团队开发基于病理图像深度学习的半自动化分类模型，助力食管癌癌前病变早期诊断

背景介绍

癌症的早期发现有助于患者及早进行有效治疗，进而显著提高生存率。目前，大多数可早期发现的癌前病变主要依赖于针对性的取样和病理学评估。病理评估程序往往费时费力，并有可能获得错误结果而影响患者的诊疗过程。近年来，包括人工智能 (AI) 在内的深度学习方法，在疾病诊断层面取得了优异的表现，但如何将这些技术更有效地整合到临床工作流程中，并评估它们带来的临床获益仍然是一个挑战。

食管癌是常见的消化道肿瘤，我国是世界上食管癌高发地区之一。食管癌可起源于一种称为巴来特食管（Barrett’s esophagus, BE) 的癌前病变。BE常发生在胃食管反流病患者中,其常规诊断需要上消化道的侵入性内窥镜检查。但对于胃食管反流病患者人群并没有常规的内镜筛查，因此，绝大多数BE患者未被诊断，这也就导致这种癌前病变并不能被很好的检测到。

近日，英国剑桥大学癌症研究所等单位的研究人员在Nature Medicine在线发表了题为“Triage-driven diagnosis of Barrett’s esophagus for early detection of esophageal adenocarcinoma using deep learning”的研究性文章。研究团队提出了一种基于深度学习的半自动分类系统来检测食管癌的癌前病变，该方法利用胃肠病理学家的决策模式定义了8种不同优先级的疾病分类，通过在低优先级的类别中用自动检查代替人工检查，可以减少病理学家57%的工作量，同时利用胃肠病理学家的决策规则来保持诊断准确性。

文章发表在Nature Medicine

主要研究内容

研究人员认为BE可作为食管癌早期检测的一个有效靶点。Cytosponge-TFF3是一种非内窥镜、微创诊断BE的检测方法，该方法获取的样本组成以鳞状细胞、胃柱状上皮细胞和呼吸道上皮细胞为主，如果存在肠上皮化生细胞，则会被检测到，这是BE的关键诊断生物标志物。

图1. Cytosponge-TFF3检测示意图，来源：Nature Medicine

研究团队利用深度学习方法对Cytosponge-TFF3得到的病理切片进行质量控制和诊断，并提出了一种基于深度学习的分类方法，同时利用专家胃肠病理学家的决策规则来保持诊断准确性。

该方法的第一步是基于和BE诊断相关的质量控制和不同类别细胞的详细检测。为了开发模型和内部验证，研究人员利用来自BEST2临床病例对照研究812例患者的Cytosponge-TFF3样本，这些样本均存在配对的病理和内镜数据。样本被随机分为训练集 (n = 100)、校准集 (n = 187) 和内部验证集 (n = 525)，同时使用来自另一个临床研究的独立数据集 (n = 1,519) 作为该方法的外部验证。

图2. 分类方案和数据汇总，来源：Nature Medicine

为了获得最优的模型，研究人员使用了目前最先进的几种深度学习方法，包括AlexNet、 DenseNet-121、Inception v3、ResNet-18、SqueezeNet和VGG-16，并在开发数据集上评估性能。结果发现，对于胃型柱状上皮，VGG-16、DenseNet和Inception v3的性能最高 (AUC分别为0.950、0.947和0.940)；对于杯状细胞，VGG-16、Inception v3和ResNet-18的性能最优 (AUC分别为0.919、0.919和0.912)。此外，研究团队还参考了来自病理学家所选择的典型样本切片，证实该模型得到的特征与病理学家用来识别不同组织类别的特征相似。

在质量控制方面，VGG-16在上皮细胞检测中性能最优。在诊断方面，VGG-16在杯状细胞检测中性能最优。研究团队通过将患者级别分类与内窥镜结果进行比较，并使用内部验证集检测了VGG-16的性能。结果显示，VGG-16在检测BE患者中性能最高，AUC为0.88，敏感性72.62% ，特异性93.13%。以上结果表明，与经验丰富的病理学家相比，全自动方法在内部验证队列中的结果显示了其优异的性能。

图3. 分类性能评估，来源：Nature Medicine

随后，研究团队将质量控制和诊断分类的BE样本合并为8个不同优先级的分类，以供手工检查。每一类的相对优先级由经验丰富的病理学家进行决策。样本质量可信度低的病例或诊断可信度低的病例应优先进行人类专家评估，具有高可信度的阳性或阴性证据的病例则可以使用自动分类模型。在内部验证队列中，研究发现只有13.0%的患者属于高优先级分类，87.0%的患者属于其他6个分类，表明该模型可以显著减轻临床病理学家的工作量。

图4.分类替代方案的分流驱动方法，来源：Nature Medicine

小结

临床决策支持系统的设计需要平衡其性能、工作量的减少及潜在的经济影响。虽然可以大大减少病理学家的工作量，但这种方法只有在AI性能绝对稳定和精确的情况下才可行。完全自动化和完全手工检查的现状之间就存在一个半自动化的方法，即使用计算方法来分类病人，仅向病理学家提出不明确的病例。半自动化的方法不会像完全自动化的方法那样大幅度减少工作量，但是其性能受益于现有的专家知识和启发式补充，更加有利于临床工作。

这项发表在Nature Medicine的研究提出了一种基于病理图像深度学习的疾病分类方法，通过使用深度学习技术分析来自Cytosponge-TFF3检测的样本，以检测食管癌的癌前病变。该方法结合了质量控制和病理切片的诊断指标，将患者分为8个分类，这些分类决定了患者样本是否需要手工检查或自动检查。

以往关于深度学习在医学图像上的应用主要集中在完全自动化的模型开发，该研究在基于分类的方法中结合现有的病理学家决策，可以很好地推广到独立的验证队列，为嵌入临床工作流程的定制、半自动决策支持系统奠定了基础。

参考文献

1. Gehrung, M., Crispin-Ortuzar, M., Berman, A.G. et al. Triage-driven diagnosis of Barrett’s esophagus for early detection of esophageal adenocarcinoma using deep learning. Nat Med (2021). https://doi.org/10.1038/s41591-021-01287-9

2. Hawkes, N. Cancer survival data emphasise importance of early diagnosis. Br. Med. J. 364, l408 (2019).

3. Yu, K.-H., Beam, A. L. & Kohane, I. S. Artificial intelligence in healthcare.

Nat. Biomed. Eng. 2, 719–731 (2018).

· END ·

热文推荐

万字长文：单细胞表观基因组学的黄金时代（数位华人科学家悉数登场）

Nucleic Acids Res | 基于多重原位方法的空间转录组技术，大大降低探针合成成本

Nat Commun｜单细胞ATAC-seq深度学习工具包AtacWorks，简单、高效且适用

PNAS | 陆舜/施奇惠/魏巍团队发现新型循环肿瘤细胞CTCs标志物，指导肺癌预后判断

喜欢别忘了点“在看”呦！