【深度学习】「粉红杀手」通缉令，AI 阅读乳腺 X 光片的能力已与医生相当

By 超神经

据世界卫生组织统计，2020 年全球新发乳腺癌病例 230 万例，在所有癌症中居首位，超越肺癌成为第一大癌。

然而，如果能够早期发现并加以及时治疗，在肿瘤转移之前杀死癌细胞，乳腺癌的致死率就可以大大降低。目前乳腺癌初筛的常用手段是乳腺 X 光，随后医生通过分析复核 X 光片对乳腺健康情况进行判断。但复核过程会消耗大量时间，影响其他患者的就诊。

为此，英国诺丁汉大学的研究者对比了商用 AI 与医生阅读乳腺 X 光片的能力，为 AI 在临床医疗的应用提供了新思路。

作者 | 雪菜

编辑 | 三羊、铁塔

据美国癌症协会统计，2022 年美国女性新发癌症病例数约 93 万例，其中新增乳腺癌患者约 29 万人，占比 31%。同时，癌症死亡病例中乳腺癌患者占比 15%，仅次于肺癌。

图 1：美国 2022 年新发癌症病例数（上）及癌症死亡数（下）

在中国，乳腺癌是 21 世纪女性患者中占比最高的癌症，且每年新增患者数量在不断增加。

图 2：2000-2016 年我国女性新增癌症病例数，

灰色为乳腺癌病例数

乳腺癌是异常乳腺细胞生长失控并形成肿瘤引起的疾病。如果不及时干涉，肿瘤会转移扩散，最终危及性命。但如果能在癌症初期发现局部肿瘤，并开始治疗，癌症的五年存活率可达 99%。

目前，医院一般通过乳腺 X 光进行乳腺癌初筛。然而，在初筛过程中可能会出现假阳性，使得没有癌症的患者进行不必要的检测。还会出现遗漏，延误患者最佳治疗时间。

因此，许多欧洲国家会对乳腺 X 光片进行复查，尽可能排除掉假阳性的病例。这一方法行之有效，在降低假阳性的同时，还将癌症的检测率提高了 6%-15%。

但是，对 X 光片进行阅读评估需要耗费相当的时间。在医患比偏低的地区，X 光片的复查不仅占用了医生的时间，而且会影响到其他患者的早期筛查。

AI 的应用部分缓解了医生的工作压力，然而将生命健康交给 AI 去评价似乎有些不太稳妥。对此，英国诺丁汉大学的 Yan Chen 教授表示，「将 AI 应用于临床医疗面临着很大的压力，但我们需要将这件事做好，以保护女性的健康」。

为此，Yan Chen 团队对比了商用 AI Lunit 与医生阅读乳腺 X 光片的准确率。结果显示，Lunit 分析乳腺 X 光片的能力与人类医师相当。这一成果已发表于「Radiology」。

论文链接：

https://pubs.rsna.org/doi/10.1148/radiol.223299#_i13

实验过程

数据集

PERFORMS 数据集

本研究选用两组 PERFORMS 数据集作为模型的测试集。每组 PERFORMS 数据集由 60 张具有挑战性的 X 光片组成，包括恶性肿瘤 (约占 35%)、良性肿瘤和正常结果。过去 30 年间，PERFORMS 数据集用于英国国家卫生服务乳腺筛查计划 (NHSBSP) 医生的入门测试和常规考核。

评价标准

标注 + 评分

在对 X 光片进行分析时，医生会在可疑的位置做出标注，最后做出 1-5 的评级，对应正常、良性、不确定、可疑及恶性。

AI 会对 X 光片的各个特征的可疑程度进行 1-100 的评分，最高分视为对整个 X 光片的评分。如果没有可疑特征，则视为 0 分。

图 3：医生与 AI 对乳腺 X 光片的分析结果

A：蓝色箭头为直径 8 mm 的不明肿块，后鉴定为组织学 2 级导管癌；

B：红色十字是 AI 发现的异常特征，蓝点是医生在分析时标注出的可疑区域。

对比结果

特异性 + 灵敏度

共有 552 名医生参与了这场比赛，占 NHSBSP 总人数的 68%，其中有 315 名放射科医生、206 名放射技师和 31 名临床医生。

在对两组 PERFORMS 数据集进行分析后，他们认为 161 个乳腺 X 光片结果是正常的，70 个乳腺中有恶性肿瘤，还有 9 个为良性肿瘤。恶性肿瘤的常见特征包括肿块 (64.3%)、钙化 (12.9%)、不对称 (11.4%) 和结构扭曲 (11.4%)，平均病变大小为 15.5 ± 9.2 mm。

表 1：PERFORMS 数据集结果

人类组的平均 AUC 为 0.88。AI 组的 AUC 为 0.93，对应人类组 96.8 百分位数，但两组的 AUC 没有明显差异。

图 4：医生组 AUC 直方图与 AI 的 AUC（黄线）

人类组的平均灵敏度和特异性分别为 90% 和 76%。在开发者推荐的阈值下，AI 的敏感性和特异性分别为 84% 和 89%。

表 2：医生组与不同阈值 AI 的判断结果

TP：真阳性；

FP：假阳性；

TN：真阴性；

FN：假阴性；

灵敏度 = TP / 总阳性数；

特异性 = TN / 总阴性数。

在 AI 的 ROC 曲线中，52% 的医生表现在曲线之上，36% 在曲线下方，12% 的表现与 ROC 曲线一致。

图 5：AI 的 ROC 曲线，其中蓝点是不同医生的表现

当 AI 的阈值为 3.06 时，AI 的灵敏度与医生一致，检测出了 63 例恶性肿瘤，仅遗漏了 7 例。此时 AI 的特异性与医生没有显著差异。

当阈值设置为 2.91 时，AI 与医生组的特异性一致，灵敏度为 91%。上述结果显示，Lunit 的 AI 分析乳腺 X 光片的灵敏度和特异性与人类医生相当。

图 6：不同阈值对 AI 判断结果的影响

A：蓝色箭头为不对称区域，后鉴定为组织学 2 级导管癌；

B：AI 阈值为 2.91 时的检测结果，红色十字最终鉴定为真阳性；

C：AI 阈值为 3.06 时的检测结果，没有发现明显异常特征。

Yan Chen 教授表示，「这一研究的结果为 AI 筛查提供了有力证据，说明 AI 对乳腺 X 光片的分析水平与人类医生相当」。

乳腺癌：隐匿的粉红杀手

2021 年 2 月 4 日世界癌症日上，世界卫生组织 (WHO) 属下的国际癌症研究所称，上一年新增 230 万例乳腺癌病例，占比 11.7%，首次超过了肺癌新增病例数，俨然成为「隐匿的粉红杀手」。

同时，乳腺癌发病率最高的群体是高收入国家的妇女，中低收入国家的女性发病率明显更低。而且，还有约 0.5-1% 的乳腺癌来自于男性。

不过，乳腺癌本身的致死率并不高。2016-2020 年诊断出乳腺癌并存活的女性达 800 万人，高于其他癌症。

目前 WHO 正在全世界推广全球乳腺癌行动，希望通过早发现、及时诊断和全面的乳腺癌管理来降低全球因乳腺癌死亡的人数。

图 7：AI 辅助的乳腺癌筛查

作为乳腺癌初筛的有力工具，AI 能够及时发现乳腺癌早期的特征，有望将「粉红杀手」扼杀于预备阶段。但现在大规模在临床中推广 AI 可能为时过早，因为环境和算法本身的变化会不断影响，导致 AI 的灵敏度和特异性随时间而下降。

Yan Chen 教授也认为，「一旦 AI 进入临床应用，我们就必须有一个机制对其进行持续的评价和监测」。现在，世界各国的研究团队正在对 AI 的检测结果进行评价，已经取得了令人满意的结果。未来在高效的 AI 和完善的监管机制的帮助下，各类疾病将「无处可藏」，我们的健康将得到更稳定的保障。

参考链接：

[1]https://acsjournals.onlinelibrary.wiley.com/doi/10.3322/caac.21708

[2]https://www.sciencedirect.com/science/article/pii/S2667005422000047

—— 完 ——





    
往期精彩回顾


    




适合初学者入门人工智能的路线及资料下载
(图文+视频)机器学习入门系列下载



    
机器学习及深度学习笔记等资料打印
《统计学习方法》的代码复现专辑

交流群
欢迎加入机器学习爱好者微信群一起和同行交流，目前有机器学习交流群、博士群、博士申报交流、CV、NLP等微信群，请扫描下面的微信号加群，备注：”昵称-学校/公司-研究方向“，例如：”张小明-浙大-CV“。请按照格式备注，否则不予通过。添加成功后会根据研究方向邀请进入相关微信群。请勿在群内发送广告，否则会请出群，谢谢理解~（也可以加入机器学习交流qq群772479961）