Nat. Commun. | AIDE：用于医学图像自动分割的标注高效深度学习模型

编译|吴庆文
审稿|李程

本文介绍由中国科学院深圳先进技术研究院为第一单位发表在 Nature Communications 的研究成果：本文作者提出了一个标注高效的深度学习开源框架，Annotation-effIcient Deep lEarning (AIDE)。AIDE可用于处理具有稀缺或噪声标注的数据集，以统一框架处理医学图像分析常见的半监督学习、无监督域适应和噪声标签学习任务。通过方法分析和大量实验评估，AIDE在具有稀缺或噪声标注的公开数据集上比传统的全监督模型表现出了更好的性能。通过真实的乳腺肿瘤分割案例研究进一步测试了AIDE的性能。基于来自三个医疗中心的11852张乳腺图像，AIDE仅利用10%的训练标注，生成的分割图与完全监督方法生成的或年轻放射科医生手动标注的结果较一致。乳腺肿瘤分割案例显示AIDE利用专家标注的效率可提高10倍，有助于促进AIDE在临床医学图像分析的广泛应用。

简介

准确的医学图像分割对各种医学成像应用至关重要，包括解剖学研究、疾病诊断、治疗计划和预后监测。在过去的十年中，深度学习在自动医学图像分割方面取得了很大进展。然而，缺乏大量具有高质量标注的训练数据集成为了有监督的深度学习在医学成像任务中应用的主要限制。深度学习在临床应用中常见的三个由不完善数据集引起的挑战包括：训练数据标注有限、缺乏目标域标注或标注包含噪声。这三个挑战引出了深度学习医学图像分割的三个常见任务：半监督学习（SSL）、无监督域适应（UDA）和噪声标签学习（NLL）。

在本文中，作者为医学图像分割开发了AIDE (Annotation-effIcient Deep lEarning)深度学习框架，用于处理各种类型的不完善数据集，旨在解决上述的挑战。借助AIDE，SSL和UDA通过使用在有限的标注数据或源域标注数据上训练的模型为未标记的训练数据生成低质量噪声标签，进而转换为NLL。为了在含有噪声的数据集上实现标注高效的网络学习，作者提出了一种跨模型自校正方法，协同训练两个网络进行跨模型信息交换。通过交换的信息，基于小损失准则，以级联的局部和全局步骤逐步进行低质量噪声标签的自我过滤和校正。

结果

AIDE：处理不完善训练数据集的深度学习框架

AIDE是一种深度学习框架，可利用不完善的训练集实现准确的图像分割。作者提出了一种跨模型标签自我校正机制，可以有效利用低质量的标签数据。这些标签或由预训练的低性能深度学习模型生成，或由无法保证质量的单个标注者提供。

AIDE的总体框架和本文使用的数据集图像示例如图1所示。AIDE用于解决因不完善的训练集导致的三个具有挑战性的任务（图 1a）：

1.带有有限标注训练数据的半监督学习（SSL）；

2.模型在可能存在较大差异的目标域和源域之间的无监督适应（UDA）；

3.考虑不同观察者提供标注差异的噪声标签学习（NLL）。

作者通过为 SSL和 UDA生成低质量噪声标签来实现任务标准化，通过一个框架解决三个任务。对SSL，模型使用有限的标注训练数据进行预训练，并为剩余的未标记训练数据生成低质量标签；对UDA，模型用源域标记的训练数据进行预训练，并为目标域未标记的训练数据生成低质量标签。

图1 AIDE框架

AIDE并行训练两个网络以进行跨模型协同优化（图 1b）。每次迭代，batch中被认为含有噪声标签的样本被过滤，并进行数据增强（随机旋转和翻转），然后通过提取增强的输入数据的预测生成相应的伪标签（图1b中的局部标签过滤）。这些伪标签与高质量标签一起用于训练网络。每个epoch之后，分析整个训练集的标签，如果满足更新标准（图 1b 中的全局标签校正），则更新与网络预测结果具有低相似性的标签。使用 AIDE，网络能更专注于图像内容，而非仅由标注引导提取图像特征。该模型也适用于多模态数据输入，作者采用的分割网络是典型的编码器-解码器结构，可从不同模态中提取图像特征。

本研究通过多个评估指标来描述分割性能，包括 DSC、RAVD、ASSD和MSSD。较高的 DSC 值和较低的 RAVD、ASSD 和 MSSD 表示更准确的分割结果。

AIDE相比传统的完全监督学习的优势

AIDE在处理低质量标注数据方面的有效性归因于以下三点。首先，局部标签过滤对可疑的低质量标注样本施加约束，生成与增强的输入数据一致的预测，既防止低质量标注的负面影响，又尽可能多地利用其中的有用信息。

其次，全局标签校正使网络在不同时间预测的结果趋于一致。直接进行标签校正替换前面步骤中预测的旧标签，旨在从框架自身的输出中找到有用的信息，这为框架提供了一种自我进化的能力。由于在大多数情况下，不同患者之间同一区域的医学图像看起来大致相似，作者认为这种更新部分疑似低质量标注的进化能力是合理和适用的，剩余的未更新样本可以保证网络的稳定训练。

第三，跨模型协同优化学习可以防止错误在一个网络中传播和积累。通过构建两个网络并进行信息交换，降低了网络过度拟合其自身预测的伪标签的风险。

训练样本标注严重稀缺的半监督学习

作者基于肝脏图像分割数据集CHAOS研究AIDE对于SSL的有效性。使用不同数量的高质量标注图像样本来训练网络得到的结果表明，以全监督的优化方式训练深度学习模型时，需要较多标记的训练数据才能获得满意的分割结果。

为了扩大训练数据集，作者使用基于极少量标注数据训练的模型生成低质量的噪声标签，并使用扩大后的数据集训练网络。在超过90%的噪声标签的实验设置下，基线方法的分割性能明显下降，而AIDE 仍表现出较好的性能（表1）。此外，基于30个标记和 954个未标记的训练图像样本，AIDE产生的结果（DSC：86.9%、RAVD：10.0%、ASSD：4.17 mm 和 MSSD：44.6 mm）与用 331个高质量标注样本的模型产生的结果（DSC：88.5%，RAVD：10.8%，ASSD：3.64 mm，MSSD：43.8 mm）基本一致，说明了AIDE可有效利用未标记数据来提升模型性能。

表1 不同SSL设置下的网络分割结果

标签自校正和模型输出的可视化如图 2 所示，校正后的标签更接近高质量的标注（图 2a、b），AIDE 生成的分割比相应的基线网络更准确（图 2c、d）。

图2 AIDE在SSL任务上的标签校正和分割结果的可视化

具有很大域间差异的无监督域适应

作者假定模型训练期间没有目标域标注数据，然后使用具有不同图像采集协议的前列腺数据集的三个域（域1、2和3）评估框架性能。域3是具有不同图像采集参数的混合数据集。当使用单个领域数据集进行训练时，网络会偏向于学习到数据的领域属性，而在其他领域数据上测试效果不佳。表2给出了模型在不同领域数据上测试的结果。当执行跨域测试（特别是对于使用域1或域2数据优化的模型）时，模型分割精度明显降低。

表2 模型使用不同领域前列腺数据集训练和测试的分割结果

作者采用与 SSL类似的策略，首先使用源域标记数据训练的模型生成目标域训练数据的低质量噪声标签，然后使用混合源域和目标域的训练数据的混合数据集从头开始训练模型，以促进模型适应新域。结果表明，AIDE可以提高分割性能，如图 3a 中DSC 的大幅增加和图3b中 RAVD 的显著降低。作为一种特殊情况，使用混合数据集（使用域1的高质量标注和域2的模型生成的低质量标签）进行模型优化时，直接以全监督学习方式训练的模型产生的结果比在域2数据上直接测试域1优化模型得到的结果更差，而AIDE可以将 DSC提高30%以上（从 45.8% 到 80.0%），说明了AIDE对域适应的有效性。对于UDA任务，虽然AIDE可以提升DSC和降低RAVD，但其对距离度量（图 3c 中的 ASSD 和图 3d 中的 MSSD）的改善并不明显。此外，即使使用AIDE，模型对域3数据的分割性能也比域1和域2的差。由于域3混合了不同采集参数得到的数据，作者推测使模型适应混合异质性数据集更加困难。

图3 针对UDA任务的前列腺分割结果

使用不同医师提供的标注进行噪声标签学习

作者基于具有多标注噪声标签学习数据集 QUBIQ研究了四个子任务，包括前列腺分割、脑生长分割、脑肿瘤分割和肾脏分割。作者将单个医师提供的标注视为噪声标签。根据QUBIQ的标准，使用不同阈值得到的分割结果表明，AIDE可以生成与多个医师提供的标注更加一致的分割结果分布（表 3-5）。尽管在相对较大的目标分割任务（表 3和表 4）上AIDE获得的改进很小，但 AIDE 在更具挑战性的小对象分割任务（表 5）上取得了更好的性能。

表3 任务1_前列腺分割结果

表4 任务2_脑生长分割结果

表5 任务3_脑肿瘤分割结果和任务_4肾脏分割结果

乳腺肿瘤分割的临床案例研究

为了分析AIDE处理原始临床数据的可行性，作者利用三个乳腺肿瘤分割数据集（广东省人民医院 GGH 数据集、贵州省人民医院 GPPH 数据集和河南省人民医院HPPH 数据集）对AIDE作了进一步评估。三家医院共收集乳腺动态增强磁共振图像（DCE-MR）872例（11852图像样本）。AIDE使用少量的训练标注实现了与相应的全监督模型相似的分割性能。对于 GGH 数据集，AIDE 分割结果的平均 DSC为 0.690±0.251，而全监督模型为 0.722±0.208（P=0.0608）（图 4a）。对于GPPH，AIDE为 0.654±0.221，全监督模型为0.678±0.260（P=0.2927）（图4b）。对于 HPPH，AIDE为 0.731±0.196，全监督模型为 0.738±0.227（P=0.6545）（图 4c）。配对t检验表明AIDE和全监督模型获得的分割结果的平均DSC值不存在显著性差异（p值分别为0.0608、0.2927和0.6545）。

图4 乳腺肿瘤分割结果

与年轻放射科医师手动标注的乳腺肿瘤分割结果想比较（图 4d-f），AIDE 可以获得相似的标注精度。对于 GGH 数据集，人工标注的平均 DSC 为 0.621±0.155，低于 AIDE（0.690±0.251）。对于GPPH，人工标注为0.861±0.086，AIDE为0.846±0.118。对于 HPPH，人工标注为 0.735±0.225，AIDE 为 0.761±0.234。配对t检验给出的p值分别为0.0098、0.3317和0.3079。

由于存在严重的类别不平衡问题（与整个乳房图像相比，肿瘤区域非常小）和高干扰背景信号（胸部器官和致密腺组织），DCE-MR图像中的乳腺肿瘤分割是一项具有挑战性的任务。作者提出的方法有希望用于临床实践，帮助放射科医生实现快速可靠的乳腺肿瘤分割。

总结与讨论

在这项研究中，作者提出了一种标注高效的深度学习框架 AIDE，用于具有不完善数据集的医学图像分割学习，以解决三个挑战：SSL、UDA 和 NLL。本文的目标不是设计一个更复杂的全监督学习模型，而是建立一个在没有足够标记数据的情况下也能正常工作的框架，从而减轻AI应用于医学成像时对人工标注的依赖。

未来方向：进一步完善AIDE，寻求适用于大规模自动医学图像分割的无监督深度学习方法。同时，AIDE可能适用于其他医学图像分析任务，例如图像分类。AIDE 在这方面的可行性也将在未来的工作中进行评估。

参考资料

Wang, S., Li, C., Wang, R. et al.. Annotation-efficient deep learning for automatic medical image segmentation. Nat Commun 12, 5915 (2021).

https://doi.org/10.1038/s41467-021-26216-9

代码链接：

https://github.com/lich0031/AIDE