发布人:Google Health 软件工程师 Zaid Nabulsi 和 Po-Hsuan Cameron Chen
在医学成像中应用机器学习 (ML),为改善胸部 X 光 (CXR) 图像解读的可用性、延迟时间、准确率和一致性提供了绝佳的机会。事实上,我们已经开发了大量的算法来检测如肺癌、肺结核和气胸等特定疾病。 然而,由于这些算法是被训练用于检测特定疾病,其在普遍临床环境下的实用性可能会受到限制,因为这种环境下可能会出现各种各样的异常情况。 例如,我们无法通过气胸检测算法发现癌症结节,而肺结核检测算法可能也无法识别肺炎特有的症状。由于初始分诊步骤是确定 CXR 是否包含相关的异常,如果能使用一种通用算法,以识别包含任何异常情况的 X 光图像,即可大大简化工作流。然而,由于在 CXR 上出现的异常情况种类繁多,开发能识别所有异常情况的分类算法可谓充满挑战。 我们发表于《科学报告》的“深度学习用于区分正常和异常胸部放射照片,并泛化到两种未知疾病:结核病与新冠肺炎 (Deep Learning for Distinguishing Normal versus Abnormal Chest Radiographs and Generalization to Two Unseen Diseases Tuberculosis and COVID-19)”一文中提出了一个模型,该模型可以在多个去识别化的数据集和环境中区分正常和异常的 CXR。 我们发现,该模型在检测一般的异常情况以及结核病和新冠肺炎等未知病例方面表现良好。我们还针对公开可用的 ChestX-ray14 数据集发布了本研究中用到的测试集的放射科医生标签集[1]。
为了解深度学习模型在改善临床工作流方面的潜在实用性,我们模拟了在病例优先级方面该模型的应用,即“加急”异常病例,并将其放置在正常病例之前。在上述模拟操作中,系统将异常病例的周转时间减少了 28%。通过这种设置,我们可以重新确定优先级,将复杂的异常病例转交给心胸专科放射科医生,从而对可能需要紧急决策的病例进行快速分类,并有机会通过简化审查的方式对阴性 CXR 进行批量审查。 模拟基于深度学习模型优先级排序所带来的影响(与随机审查顺序对比):(A) 代表一般异常情况,(B) 代表结核病,(C) 代表新冠肺炎。红条中异常 CXR 序列为红色,正常 CXR 序列为粉色;左侧的红条密度较大,表示异常 CXR 会在正常 CXR 之前被审查。直方图表示平均周转时间得到改善 此外,我们发现该系统可以作为预训练模型来优化胸部 X 光片的其他 ML 算法,尤其是在数据有限的情况下。例如,我们在最近的研究中使用了正常/异常分类算法,以根据胸部 X 光片检测肺结核。在专业放射科医生或分子检测技术等资源匮乏的地区,异常情况和结核病的检测算法可以在初期诊断中发挥关键作用。
分享改进后的参考标准标签
要发挥 ML 的潜力,以在世界范围内辅助解读胸部 X 光片,我们还有很多工作要做。具体来说,在去识别化的数据上获得高质量标签可能是在医疗领域开发和评估 ML 算法的一个重要障碍。为了加速努力进程,我们通过发布在本研究中用到的标签,对之前发布的标签进行扩展,并将其用于公开可用的 ChestX-ray14 数据集。我们期待着社区在该领域开展未来的机器学习项目。