机器学习 | 一种用于乳腺癌风险分层的多模态机器学习模型

Basic Information

英文标题：A multimodal machine learning model for the stratification of breast cancer risk
中文标题：一种用于乳腺癌风险分层的多模态机器学习模型
发表日期：04 December 2024
文章类型：Article
所属期刊：Nature Biomedical Engineering
文章作者：Xuejun Qian | Dinggang Shen
文章链接：https://www.nature.com/articles/s41551-024-01302-7

Abstract

Para_01

机器学习模型可用于乳腺癌的诊断，有助于预测癌症风险和其他临床任务中的患者管理。
为了使这些模型影响临床实践，它们应当遵循标准的工作流程，帮助解读乳腺X线摄影和超声数据，评估临床背景信息，处理不完整的数据，并且在前瞻性设置中进行验证。
在这里，我们报告了一种多模态模型的开发和测试，该模型利用乳腺X线摄影和超声模块对基于临床元数据、乳腺X线摄影和三模式超声（来自5,025名患者的5,216个乳房的19,360张图像）的乳腺癌风险进行分层。
这些患者在手术后病理得到证实，并来自不同的医疗中心和扫描设备制造商。
与经验丰富的放射科医生的表现相比，该模型在将肿瘤分类为良性或恶性方面表现相似，在病理水平上的鉴别诊断方面更为优越。
使用一个前瞻性收集的数据集，该数据集包含187名患者的191个乳房，多模态模型的整体准确性与初步病理医生级别的活检乳腺标本评估的准确性相似（分别为90.1%和92.7%）。
多模态模型可能有助于肿瘤学中的诊断。

Main

Para_01

乳腺癌是全球最常见的癌症，在2020年首次超过肺癌，并且是女性中癌症死亡的第二大原因1。
据报道，每年全球约有230万女性被诊断出患有乳腺癌，最终导致约68.5万人死亡。
由于早期诊断可以显著提高患者的生存率和预后，多年来乳房X线摄影一直被广泛推荐用于筛查和诊断人群2。
然而，对于乳腺组织致密的女性，乳房X线摄影的敏感性较低，因为乳腺极度致密的女性患乳腺癌的风险增加了四倍3。
超声波作为一种低成本且广泛可用的成像工具，已被用来描绘小的、在乳房X线摄影中未被发现的乳腺癌，从而提高了乳腺癌检测的敏感性4,5。
特别是，诸如彩色多普勒和弹性成像等先进的超声技术6,7现在已在临床上实施，以改善乳腺癌诊断的整体表现，尤其是减少假阳性率。
因此，利用各自的优势，乳腺X线摄影（MG）和超声波（US）作为互补组合在实际临床环境中筛查和诊断乳腺病变的常规应用已经普及，而不是单独使用乳腺X线摄影或超声波。

Para_02

为了规范放射科医生的影像解读并确定管理建议，美国放射学院建立了乳腺X线摄影和超声检查的乳腺影像报告与数据系统（BI-RADS）图谱10。
尽管已经推出了标准化术语和BI-RADS分类，但仍然存在乳腺X线摄影和/或超声专业人员短缺、影像发现的主观描述以及持续存在的观察者内部和外部差异等局限性11。
漏诊癌症会导致及时手术和治疗的延误，而假阳性结果可能导致患者焦虑和不必要的侵入性程序12。
因此，迫切需要一种有效的方法来协助临床医生提供及时诊断，并将患者转介到适当的临床护理。

Para_03

随着人工智能（AI）的不断发展，基于AI的方法可能在应对这一挑战方面具有独特的优势。
机器学习方法在过去十年中已被用于多种临床决策支持问题，包括帮助放射科医生解读乳腺X光片和乳腺超声。
由于手工特征在机器学习中的特性难以跨不同协议和制造商的图像进行泛化，这一代AI软件未能在实际操作中提高临床医生的表现。
近期深度学习技术的突破15使算法能够根据图像本身学习适当的预测特征，从而在医学AI领域引发了一场复兴16,17。
值得注意的是，研究表明深度学习提高了医学图像分析的效率和可重复性，并且与由认证医学专家解读的结果相比，敏感性和特异性相当18,19,20。
为了提供一种更先进、更智能的医疗问题解决方案，已经开发了多模态AI模型21,22,23，这些模型整合了遗传学、影像学、临床和文本数据，促进了人机之间的自然交互，在临床转化方面显示出比单模态AI模型更大的潜力。

Para_04

关于乳腺疾病，现有的AI研究已经证明了将深度学习应用于乳腺X线摄影或乳腺超声的可行性。
尽管这些单模态模型在早期显示出潜力，但由于三个关键挑战，这项技术的临床应用仍然受到限制。
首先，先前的AI研究设计偏离了既定的诊断标准，该标准要求包括乳腺X线摄影的头尾位（CC）和内外斜位（MLO），以及三模式超声成像（即B型、彩色多普勒和弹性成像）的横断面和纵断面图像，以进行全面的乳腺评估。
更重要的是，除了医学影像外，医生还必须考虑临床背景信息，如患者的人口统计学特征（年龄和身体质量指数（BMI））和主要症状（现病史和既往病史），而这些在先前的研究设计中被忽略了，以便做出准确的诊断决策。
其次，大多数先前的AI研究既没有在前瞻性环境中经过不同医疗中心和扫描仪制造商的测试，也没有考虑到现实世界场景中缺失或不完整数据的影响。
此外，很少有研究在临床环境中与专家放射科医师和病理学家进行对比评估，从而引入了高风险的偏差。
最后，之前的AI研究主要集中在区分良性或恶性肿块上，未能提供乳腺疾病的鉴别诊断，这可能有助于制定最佳后续管理。
例如，理想情况下应解决以下问题：是否应向患者建议随访或活检，对于可疑乳腺是否应推荐使用真空辅助活检（VAB）或核心针活检（CNB），对于恶性乳腺是否应进行手术切除、保乳手术（BCS）或乳房切除术。

Para_05

为了超越现有AI研究的局限，并促进其在临床环境中的发展，我们开发了一个统一的混合深度学习系统，通过多模态数据方法（即标准视图乳腺X线摄影、三模式正交视图超声和临床元数据）来改进乳腺癌风险分层和患者护理。
我们在一个前瞻性连续患者的环境中公平地比较了该AI系统的性能与人类专家的性能，结果显示AI系统的性能优于经验丰富的放射科医生，其表现接近初步病理学家对活检标本的解释水平。
此外，我们使用多中心代表性数据集进一步评估了AI系统，在单模态、双模态或三模态数据可用的情况下评估了其性能，这在临床上通常是常见的。
这项工作的最重要贡献是通过乳腺疾病的树状分类法增强了临床应用性。
这种分类法同时提供了多层次的预测能力，包括高度通用疾病类别的双向分类和五个不同程度严重性的鉴别诊断，所有这些都可能建议更好的临床结果。
我们证明，该AI系统具有提供可靠诊断、良好的泛化能力和高效部署的潜力，所有这些都将大大加速多模态乳腺AI系统在临床工作流程中的广泛应用。

Results

Para_01

AI系统总体研究设计，名为乳腺钼靶超声网络（BMU-Net）模型，如图1所示。BMU-Net模型严格遵循BI-RADS指南中描述的临床标准（补充表1），同时利用了钼靶和乳腺超声各自的优点（补充表2）。通过钼靶模块提取整个乳房的全局特征，通过超声模块获取最可疑的乳房病变的局部特征，随后通过变压器块并行处理，并融合临床上下文信息（补充图1-3和表3）。基于先前的研究28和我们的研究30，我们选择了ResNet-18作为最有效的特征提取框架。
该BMU-Net模型严格遵守BI-RADS指南中的临床标准（补充表1），并同时利用了钼靶检查和乳腺超声各自的优势（补充表2）。通过钼靶模块提取整个乳房的全局特征，通过超声模块获取最可疑的乳房病变的局部特征，然后使用变压器块进行并行处理，并融合临床背景信息（补充图1-3和表3）。根据之前的研究28和我们的研究30，我们选择了ResNet-18作为最高效的特征提取框架。

Fig. 1: The overall study design for breast cancer risk stratification and patient care.

- 图片说明

◉ 顶部：统一的BMU-Net模型使用混合深度学习架构（结合卷积神经网络和变压器框架，补充图1）在乳腺X线摄影（CC和MLO视图）、三模式超声图像（B模式、彩色多普勒和弹性成像，包括横截面和纵向视图）以及临床元数据（补充表3）上进行了开发。◉ 底部：提出了一种树状结构的乳腺疾病分类法，以利用细粒度的T1-T5训练类别（不同严重程度，补充表4），并通过推理算法实现多层次的临床评估潜力。◉ 红色表示恶性，绿色表示良性，蓝色表示边界状态。◉ 需要注意的是，在这项研究中没有考虑边界状态和罕见类型的乳腺癌。

Para_02

为了高效构建BMU-Net模型，我们首先使用单独的乳腺X线摄影和超声图像数据集分别训练两个模块（乳腺X线摄影模块和超声模块），从而得到针对提取特定模态特征的稳健图像编码器。
随后，我们利用多模态数据集对BMU-Net模型进行微调，初始化图像编码器的权重使用预训练的乳腺X线摄影和超声模块权重，而表格编码器的权重则随机初始化。
详细的患者人口统计学特征和乳腺病变特征总结在表1中，数据使用流程图包括患者纳入和排除标准如扩展数据图1所示。

Table 1 Summary of patient demographics and breast lesion characteristics 表1 患者人口统计学和乳腺病变特征摘要

Para_03

通过开发一个树状分类法，将个体乳腺疾病映射到不同的训练类别，我们已经能够创建一个能够提供多层次乳腺癌风险预测的人工智能系统。
具体而言，我们的AI系统直接在细粒度疾病划分上进行训练，利用我们乳腺疾病树的二级节点作为五个训练类别（T1-T5）。
因此，AI系统可以内在地输出从T1到T5的概率分布，如补充表4所述，这有助于知情决策，以确定活检偏好和后续管理。
为了恢复高度泛化的乳腺疾病类别的概率（即我们乳腺疾病树的一级节点，具有二元类别：良性或恶性），以便进行粗粒度评估，我们实现了一种推理算法，该算法汇总了细粒度训练节点的概率作为其后代，而无需重新训练模型。

Mammography module performance and its comparison to mammographers

乳房X线摄影模块性能及其与乳腺专家的比较

Para_01

MG_H1 数据集中的患者被随机分配到三个队列之一：训练队列（70%）、验证队列（10%）和内部测试队列（20%）。
乳腺X线模块使用乳腺X线图像的CC和MLO视图以及五种经乳腺外科病理确认的T1至T5训练标签进行训练。
在模型评估之前，我们首先展示了乳腺疾病树方法的优势使用。
为了实现这一目标，我们使用推理算法从我们的乳腺X线模块生成恶性概率得分（即，Pmalignant = PT3 + PT4 + PT5），而无需重新训练该模块，并且从直接使用二元标签训练的重建模块生成。
通过推理算法训练到更细的疾病分类的模块获得了接收器操作特征曲线（ROC）的曲线下面积（AUC）为0.825（95%置信区间（CI）：0.759–0.890），
这比直接在二元类别上训练的模块的AUC更好，后者为0.811（95% CI：0.744–0.877），如补充图4所示。

Para_02

我们通过两种方法评估了乳腺X线摄影模块的性能。
在第一种方法中，我们在内部测试队列中对五位经验丰富的乳腺X线摄影医师（即平均有10年乳腺X线摄影经验的放射科医生）进行了两部分乳腺X线摄影读者研究。
在读者研究的第一部分，读者被迫从T1、T2、T3、T4或T5中选择一个预测，计算混淆矩阵（图2和扩展数据图2），然后使用Cohen的线性加权kappa比较与乳腺X线摄影模块的一致性水平。
如表2所示，乳腺X线摄影模块达到了0.398的Cohen kappa值（95%置信区间：0.291-0.505），这优于所有乳腺X线摄影医师的结果。
在读者研究的第二部分，读者被要求报告BI-RADS评级，正如他们在临床实践中所解释的那样。
我们测量了读者在四个截断点上的准确性、敏感性、特异性和F1分数（表2和补充表5），这些截断点分别对应于BI-RADS 3-对比4a+、BI-RADS 4a-对比4b+、BI-RADS 4b-对比4c+以及BI-RADS 4c-对比5。
观察到五位读者的评估位于乳腺X线摄影模块的ROC曲线下方（图3a），表明我们的乳腺X线摄影模块在某种程度上表现更优。
为了进一步评估该模块在个别BI-RADS类别的性能，扩展数据图3和图4分别展示了原始乳腺X线摄影数据集中BI-RADS 4和BI-RADS 5病例的粗略评价。
值得注意的是，当使用完整的乳腺X线摄影数据集并结合BI-RADS类别时，乳腺X线摄影模块在最具挑战性的BI-RADS 4类别中的表现超过了读者的平均表现，超出幅度显著。

Fig. 2: The confusion-matrix comparison between our AI system and human experts at fine-grained breast disease partition.

- 图片说明

◉ MG_H1内部测试队列中158名患者159个乳房的MG模块和平均乳腺X线摄影性能。◉ US_H1M1内部测试队列中146名患者146个乳房的US模块和平均超声技师的性能。◉ 五位单独乳腺X线摄影医师和四位超声技师的结果展示在扩展数据图2中。◉ MGUS_H1内部测试队列中187名患者191个乳房的BMU-Net模型（配对乳腺X线摄影、超声和临床元数据）和病理学家（评估相应患者的乳腺活检标本，也称为初步病理）的性能。

Table 2 The performance of our AI system, radiologists and pathologists in multilevel clinical assessment comparison 表2 我们的AI系统、放射科医生和病理学家在多级临床评估比较中的表现

Fig. 3: Performance of individual modules and readers at highly general coarse-grained breast cancer assessment via inference algorithm.

- 图片说明

◉ a, 与个体乳腺X线摄影医师和平均乳腺X线摄影医师相比，MG模块在MG_H1的内部测试队列中的表现。◉ b, MG模块在两个外部测试队列中的表现。◉ c, 与个体超声医师和平均超声医师相比，US模块在US_H1M1的内部测试队列中的表现。◉ d, US模块在三个外部测试队列中的表现。◉ 95%的置信区间是基于数据的1,000次自助法计算得出的。◉ 放射科医生读者的敏感性和特异性是在四个BI-RADS截断点上确定的。◉ 数据来源

Para_03

在第二种方法中，我们通过外部的各种医疗中心和扫描设备制造商增强了通用性。
因此，我们回顾性地收集了三个乳腺X线摄影数据集作为外部测试队列，即MG_H2（来自501名患者的518个乳房），MG_H3（来自761名患者的783个乳房）和MG_Hx（来自1,228名患者的1,232个乳房，仅癌症人群）。
图3b和扩展数据图5分别显示了通过ROC曲线进行粗粒度预测的表现和通过混淆矩阵进行细粒度预测的表现。
在使用统一扫描仪的MG_H2数据集上，我们获得了0.794的AUC（95％置信区间：0.756-0.833）。
在具有不同扫描配置的MG_H3数据集上，我们达到了0.812的AUC（95％置信区间：0.781-0.843）。
这些结果与MG_H1内部测试队列的表现一致，显示出乳腺X线摄影模块的良好可扩展性。

Para_04

我们基于临床意义为乳腺X线摄影模块应用了三个操作点。
第一个操作点是约登指数，它在医学研究中广泛用于通过平衡敏感性和特异性来确定最佳模型性能（参见补充表6）。
第二个操作点被调整以匹配MG_H1内部测试队列中BI-RADS 3-与4a+之间的读取者平均特异性（临床实践中用于活检建议的截断值，请参见方法）。
我们发现我们的乳腺X线摄影模块的假阴性率为13.2%，显著低于读取者的平均假阴性率29.9%（P<0.05）。
为了避免由于模拟读取环境或放射科医生在BI-RADS评分中的变异性导致的主观评估，第三个操作点是使用传统的2%阈值来定义活检建议生成的。
因此，我们的乳腺X线摄影模块在由MG_H1+MG_H2+MG_H3组成的组合测试队列上达到了99.7%的灵敏度，在仅癌症的MG_Hx队列上达到了99.8%的灵敏度，所有这些都表明我们的乳腺X线摄影模块在潜在临床场景中很少遗漏癌症。

Ultrasound module performance and its comparison to sonographers

超声模块性能及其与超声医师的比较

Para_01

不同于乳腺X线摄影中通常使用CC和MLO视图扫描图像，在临床实践中三模式超声图像可能没有全面保存（弹性成像可能缺失），有时相应的视图描述也不清晰标注。
因此，在我们的超声研究中，所有患者都是根据预先定义的超声扫描协议前瞻性招募的，并且总共保留了六张标准超声图像（B模式、彩色多普勒和弹性成像的横截面和纵截面视图）。
对于超声模块开发，US_H1M1数据集中的患者被分配到三个队列之一：训练队列（70%）、验证队列（10%）和内部测试队列（20%）。
超声模块使用所有六张超声图像和五种经乳腺外科病理确认的T1-T5训练标签进行训练。
如补充图5所示，通过二元训练标签重建的超声模块达到了0.911的AUC（95%置信区间：0.856-0.967），而推理算法则实现了更高的AUC分数0.916（95%置信区间：0.865-0.968），这表明我们提出的乳腺疾病树方法的有效性。

Para_02

我们以与之前乳腺X线模块相同的方式评估了超声模块的性能。
具体来说，在两部分超声读片研究中，招募了四位专家超声技师（即有15年平均经验的专门从事超声图像的放射科医生）参与US_H1M1的内部测试队列。
对于细粒度预测任务，如表2所示，超声模块获得了更好的Cohen's kappa值0.571（95%置信区间：0.476-0.666），优于所有经验丰富的超声技师。
对于高度一般的粗粒度疾病预测，我们观察到四位读者的评估结果略低于图3c中超声模块的ROC曲线，这表明我们的超声模块具有非劣效性能。
扩展数据图3和图4分别展示了原始超声数据集中BI-RADS 4和BI-RADS 5病例的粗粒度预测结果。

Para_03

为了证明超声模块的良好泛化能力，在模型开发后，前瞻性地对三个外部测试队列进行了预测：US_H1M2（104个乳房来自103名患者），US_H2（173个乳房来自146名患者）和US_H3（89个乳房来自85名患者）。这些队列的数据来自于三个医疗中心，使用了不同的制造商和超声换能器。
如扩展数据图6所示，我们的超声模块在这几个队列上获得了具有竞争力的表现，包括Cohen’s kappa系数分别为0.383（95%置信区间：0.230-0.537），0.546（95%置信区间：0.450-0.642）和0.441（95%置信区间：0.306-0.575）。
就粗粒度预测而言，我们的超声模块在US_H1M2数据集上的AUC为0.908（95%置信区间：0.838-0.978），在US_H2数据集上的AUC为0.908（95%置信区间：0.859-0.957），在US_H3数据集上的AUC为0.916（95%置信区间：0.861-0.971）。
综上所述，超声模块在外部测试队列中的细粒度或粗粒度评估表现与内部测试队列一致，表明超声模块具有良好的泛化能力。

Para_04

类似于乳腺X线摄影模块，我们将超声模块的操作点设置为约登指数以实现最优模型性能（补充表6）。
至于超声模块的活检推荐，在BI-RADS 3-与4a+之间的截断点下，其假阴性率为4.8%，而读者平均值为2.0%。
在临床实践中传统的2%阈值下，我们的超声模块达到了几乎不存在的假阴性率，反映了其在准确识别乳腺癌病例方面的高度敏感性。

BMU-Net model performance and its comparison to pathologists

BMU-Net模型性能及其与病理学家的比较

Para_01

尽管单独的乳腺X线摄影模块和超声模块已经显示出能够达到甚至超越经验丰富的放射科医生在医学图像解释方面的水平，我们研究的最终目标是帮助临床医生做出更好的临床决策，例如最佳的活检选择、手术或治疗计划（如果需要的话）。
例如，我们应该建议对可疑的乳房进行VAB还是CNB，或者应该对恶性乳房进行BCS还是乳房切除术。
换句话说，潜在的病理分类推荐在临床工作流程和患者护理中特别有用。
因此，我们提出了一种统一的BMU-Net模型，该模型结合了乳腺X线摄影、三模式超声和附加的临床背景信息，旨在提高初步病理医生级别的评估能力。

Para_02

我们首先展示了模态特定图像编码器的有利使用，这些编码器的权重分别从乳腺X线摄影和超声模块转移，用于BMU-Net模型开发。
在MGUS_H1的内部测试队列中，随机权重初始化的整体准确率为35.1%，而从ImageNet36预训练权重进行微调的准确率为46.1%。
在粗粒度预测中，AUC分别为0.807（95%置信区间：0.743–0.870）和0.916（95%置信区间：0.875–0.956）。
相比之下，从我们预先训练的乳腺X线摄影和超声模块转移的权重显著提高了双模态BMU-Net（输入包括乳腺X线摄影和超声图像）的性能，细粒度准确率提高到53.4%（P < 0.05），AUC提高到0.945（95%置信区间：0.914–0.977，P < 0.05），这表明了模态特定预训练权重在多模态医学AI模型开发中的重要性。

Para_03

临床元数据使医生能够在适当的临床背景下解释潜在发现，促进更全面的鉴别诊断，并优化患者预后。
为了增强具有临床相关性的决策制定，我们已经将上下文信息整合到BMU-Net模型的开发中。
通过添加非图像元数据，多模态BMU-Net模型最终在内部测试队列中达到了最先进的性能，在细粒度上Cohen's kappa达到0.643（95%置信区间：0.562–0.724，P<0.05），在粗粒度分辨率上AUC达到0.948（95%置信区间：0.916–0.980）。
我们BMU-Net模型的泛化能力进一步在一个外部MGUS_H2测试队列（包含59名患者的62个乳房，这些数据来自不同的医疗中心）上进行了评估。
如扩展数据图7所示，多模态BMU-Net模型达到了Cohen's kappa为0.643（95%置信区间：0.491–0.796）和AUC为0.942（95%置信区间：0.880–1），这表明了我们BMU-Net模型的良好可靠性。

Para_04

在现实世界的临床实践中，经常会遇到不完整的多模态数据。如图4所示，我们在微调阶段通过随机屏蔽策略解决了缺失模态的问题，并在测试阶段严格评估了BMU-Net在面对缺失数据时的表现。
作为最基本和具体的任务，我们发现单模态BMU-Net模型（仅输入乳腺X光片或超声图像）在MG_H1测试队列中的表现与乳腺X光模块相当，在US_H1M1测试队列中的表现与超声模块相当，这证明了我们稳健的多模态融合策略的有效性。
在MGUS_H1的内部测试队列中，多模态BMU-Net实现了显著改进的细粒度预测（P < 0.05），并且粗粒度性能略高，但不明显，与双模态BMU-Net相比。
换句话说，临床变量的加入对于细粒度评估比粗粒度评估更有优势，这表明临床元数据在鉴别诊断中的潜在作用强于一般的二元疾病分类。
与图像数据不同，非图像临床变量由于患者在临床环境中的不配合更容易缺失。
因此，我们进一步研究了个体临床变量（补充表7）和临床变量组（补充表8）对多模态BMU-Net模型整体性能的影响。
结果显示，在本研究中，年龄（P < 0.05）、BMI（P < 0.05）和病灶大小是最重要的三个组成部分，随着缺失临床变量数量的增加，BMU-Net模型的表现会下降。

Fig. 4: The adaptability of the BMU-Net model for breast cancer risk stratification to real-world clinical settings.

- 图片说明

◉ 在BMU-Net模型开发的微调阶段，随机屏蔽了钼靶、超声和临床元数据等模态，以增强模型处理不完整数据的能力。◉ BMU-Net模型的有效性通过四种评估指标在各种临床场景下进行了测试，包括细粒度准确性、细粒度kappa分数、粗粒度准确性和粗粒度AUC。◉ 单模态、双模态和多模态BMU-Net分别代表了仅钼靶或超声的临床输入、钼靶加超声以及钼靶加超声加临床变量的组合。

Para_05

为了调查我们的BMU-Net模型在初步病理学水平评估中的潜在价值，我们进行了一项乳腺活检标本观察研究，该研究涉及一组三名经验丰富的病理学家在同一内部测试队列MGUS_H1中，如图2c所示。
值得注意的是，病理学家的观察基于活检标本的一小部分，即临床实践中初步的病理学记录（参见方法）。
根据多数投票标准，病理学家在细粒度预测中获得了显著的Cohen's kappa值0.785（95%置信区间：0.727-0.843），并且在粗粒度评估中有92.7%的整体准确性。
相比之下，我们的多模态BMU-Net模型在粗粒度评估中达到了90.1%的准确性，接近初步病理学的表现水平。

Interpretability of the BMU-Net model

BMU-Net模型的可解释性

Para_01

为了使临床医生能够基于AI系统审查建议，我们引入了一种事后方法来解释其原理。
如扩展数据图8和补充图6所示，热图可能通过教育反馈增强AI系统的临床应用可能性。
例如，如果AI的预测与临床医生的原始评估一致，这将增加临床医生在做决策时的信心水平。
否则，如果存在差异，热图可以帮助临床医生理解AI决策预测的基础，然后引导他们检查高亮区域的特征。

Discussion

Para_01

在这项研究中，我们开发了一个临床适用的BMU-Net模型，该模型能够同时在粗粒度（即恶性风险概率）和细粒度（即鉴别诊断）分辨率上提供全面的乳腺癌风险分层，使用了来自5,025名患者中的5,216个乳房的19,360张图像。
在将乳腺疾病分类为良性或恶性这一高度通用的临床任务中，乳腺X线摄影模块和超声波模块的表现不亚于经验丰富的放射科医生。
在鉴别诊断能力方面，这两个模块的表现均优于经验丰富的放射科医生，并且具有更高的Cohen's kappa一致性水平。
由于融合了医学图像和非图像元数据，多模态BMU-Net在所有与临床相关的任务中实现了最先进的性能。
我们展示了我们的AI系统在各种外部测试队列中的泛化能力和可扩展性，这些队列代表了多个医疗中心和扫描设备制造商。

Para_02

在高效构建BMU-Net模型之前，我们首先使用仅包含图像的乳腺X线摄影和超声波数据集建立了两个模块。
对于乳腺X线摄影模块，我们在一个内部测试队列（MG_H1）的158名患者中的159个乳房中展示了其优于五位经验丰富的乳腺X线摄影师的表现，并且在两个外部乳腺X线摄影数据集（MG_H2, MG_H3）中也表现出可扩展性。
至于超声波模块，在一个内部测试队列（US_H1M1）的146名患者中的146个乳房中，其表现不逊色于四位经验丰富的超声技师。
通过多个外部测试队列（US_H1M2, US_H2, US_H3），在各种扫描仪和换能器上，进一步证明了超声波模块的可靠性和普适性。
这些经过良好建立的模块作为稳健的图像编码器，提供了有价值的模态特定权重初始化，有助于多模态医学人工智能模型的发展。

Para_03

我们工作的最重要贡献是通过树状分类法提供了同时多层级乳腺疾病预测。
我们的深度学习模型使用详细的乳腺外科病理结果作为标签进行训练，这使得它们能够内在地对具有不同后续管理的亚型病理组进行差异诊断。
我们观察到，与所有放射科医生和超声医师相比，我们的模块具有更优的Cohen's Kappa一致性，这突显了AI在病理级别医学图像解释方面超越经验丰富的放射科医生的能力。
为了促进AI作为临床决策支持系统来辅助放射科医生进行常规恶性或良性肿瘤识别，我们实现了一种推理算法（该算法的表现优于直接在二元标签上训练的模块），用于粗粒度风险预测而无需重建模块。
在这些条件下，无论是钼靶还是超声模块在粗粒度评估中的表现都不逊色于经验丰富的放射科医生的解读。

Para_04

在标准骨干框架下，超声模块的表现优于乳腺X线摄影模块，这与我们的预期相符，原因如下。首先，文献显示，具有高达30%恶性风险的临床上不可见病例普遍存在，这导致了影像解释的挑战。值得注意的是，一项大规模的乳腺X线摄影研究表明，包括BI-RADS 0类在内的32.8%的活检病变，在乳腺X线片上即使在回顾性分析中也不可见，但使用超声或MRI可以识别出来。其次，乳腺X线摄影从整个乳房的投影中描绘出全局特征，而超声仅专注于局部可疑区域。因此，在乳腺X线摄影上进行广泛的特征提取更具挑战性，这与先前的一项荟萃分析研究一致。最后，乳腺X线摄影制造商采用的可变窗口宽度和中心级别参数被确定为影响放射影像解释的障碍，可能会损害普适性。

Para_05

从数据分布的角度来看，与回顾性收集的乳腺X线摄影数据集不同，超声和多模式数据集中的患者是在预定义的扫描协议下前瞻性招募的，因此保留了高质量的医学图像和临床变量用于模型开发。
根据美国放射学院的BI-RADS指南，通常需要对被诊断为BI-RADS 4a或更高级别的患者进行活检，而那些被诊断为BI-RADS 3或更低级别的患者大多与阴性结果或随访建议相关。
因此，在病理结果可用的前提下，我们的数据集中包含了大量的BI-RADS 4和5患者（MG_H1为80.6%，US_H1M1为90.2%，MGUS_H1为94.2%）。
包括BI-RADS 4患者的参与极为有益，因为我们的AI系统可以在临床实践中为放射科医生提供更深入的见解，尤其是在他们对BI-RADS 2、3和5类别的罕见误判方面。

Para_06

从技术角度来看，我们通过随机掩码策略构建了一个统一的深度学习模型，从而实现了处理各种模态输入的强大能力，并保持了高标准的性能。
例如，与单独的乳腺X线摄影和超声模块相比，单模态BMU-Net模型在仅乳腺X线摄影和超声图像队列上达到了等效的性能。
此外，Transformer块能够统一处理多模态输入，这可能减轻模态通路不平衡（即，乳腺X线摄影有两个通路而超声有六个通路）的影响，并促进更好的跨模态特征融合。
此外，选择了三个代表敏感性和特异性之间权衡的操作点，以推进BMU-Net模型在临床部署的可能性，这些操作点基于最大Youden指数、本研究中读者的平均表现以及传统的2%活检推荐阈值。

Para_07

关于非图像元数据的贡献，我们证明了临床元数据是精确诊断任务中不可或缺的组成部分。
具体而言，多模态BMU-网模型（即结合乳腺X线摄影、超声和临床元数据输入）在细粒度评估中的表现显著优于双模态BMU-网模型（即仅使用乳腺X线摄影和超声图像输入），Cohen's Kappa一致性水平从'中等'提升到'实质性'，准确率提高了约10%（P<0.05）。
在各个临床变量的重要性方面，尽管随着缺失数据量的增加，多模态BMU-网模型的性能逐渐下降，但在包含年龄（P<0.05）、BMI（P<0.05）和病灶大小这三项最重要的组件时，该模型仍能产生不逊色的多层次预测性能。
这些结果共同表明，该模型具有巨大的潜力来革新乳腺疾病的鉴别诊断。

Para_08

应该强调的是，基于活检的病理学（即初步病理记录）专注于分析肿瘤的一小部分，这可能与手术病理结果（即最终病理记录）支持的事实相矛盾，因此留下了改进的空间。
换句话说，我们的多模态数据整合提供了弥合医学影像解释和初步活检结果之间差距的机会。
在我们对乳腺活检标本观察的研究中，我们的多模态BMU-Net模型在细粒度上的总体准确率为62.8%，在粗粒度上的总体准确率为90.1%，接近病理科医生对相应患者的乳腺活检标本的观察，其准确率分别为72.3%和92.7%。
这些结果进一步突显了多模态数据整合作为提供更好临床结果的潜在手段的重要性。

Para_09

大多数现有的利用深度学习进行乳腺疾病自动诊断的工作都是基于回顾性收集的单一模态影像数据，如乳腺X线摄影或超声检查结果。
具体来说，ResNet系列模型（即ResNet-18（参考文献28）、ResNet-22（参考文献26）和ResNet-34（参考文献27））以及DenseNet模型43以前被用于基于乳腺X线摄影的乳腺癌检测或诊断任务，AUC值在0.65到0.95之间。
由于缺乏共同基准，很难直接比较以前的工作。
例如，研究使用了不同的数据集（即筛查人群和活检诊断人群之间的范围）甚至不同定义的标签（即像素级、图像级、乳腺级或检查级）。
与乳腺X线摄影相比，超声检查通常是在局部区域进行，这使得模型开发相对容易。
然而，由于私有数据集和模型的存在，乳腺超声分类的表现仍然有很大的AUC变化范围，从0.88到0.97（参考文献29、30、31、32）。
举例来说，我们之前的三模态超声AI研究30通过包含大量BI-RADS 3患者达到了0.955的AUC。
相比之下，我们的BMU-Net模型整合了乳腺X线摄影和三模态超声图像的多视角信息以及临床元数据，为通过乳腺疾病的树状结构分类来实现最先进的乳腺癌风险分层提供了机会。
我们的BMU-Net模型的表现不仅与经验丰富的乳腺X线摄影师、超声技师和病理学家进行了比较，还在多个具有代表性数据集的队列上进行了外部测试。
总之，我们希望通过发布我们的代码和模型来使我们的工作更容易进行直接比较。
我们研究有一些局限性。
虽然我们从五个医疗中心的几家扫描设备制造商处收集了更广泛的乳腺X线摄影和超声图像的变异性，但目前的数据集仅限于中国人群。
一个更大的数据集，尤其是包含不同种族的人群，将有助于进一步提高BMU-Net模型的鲁棒性。
另一个局限性是深度学习不可避免地存在不平衡数据，特别是在与医学相关的前瞻性研究中。
BMU-Net模型的进一步优化应该集中在收集更具代表性的数据集上，例如罕见病例。
最后，本研究中使用的非图像元数据数量有限，未来的发展中应考虑具有统计显著性的综合元数据。
总之，我们开发了一个临床适用的深度学习模型，用于提供乳腺疾病的鉴别诊断，以优化临床结果。
这样一个多模态人工智能模型已经在多个医疗中心和制造商处进行了前瞻性测试，表现出良好的通用性和可扩展性。
乳腺X线摄影、三模式超声和临床元数据的融合符合标准工作流程，标志着朝着临床实践中自动化乳腺癌筛查和诊断迈出了一步。

Methods

Ethics approval

伦理批准

Para_01

我们的这项回顾性研究得到了医院机构审查委员会（IRB）的批准，并且免除了知情同意的要求。对于前瞻性研究，所有参与者签署了由三家参与医院的IRB开发和批准的知情同意书。
我们研究中的所有医院都是中国的三级医疗中心。临床研究的预定义扫描协议在www.chictr.org.cn上提前注册（识别号：ChiCTR2100047685）。所有图像和临床元数据在用于本研究前均已去识别化。

The mammography dataset

乳腺X线摄影数据集

Para_01

乳腺X线扫描通常采用标准成像协议进行双侧内外斜位和头尾位的乳房拍摄。
乳腺模块的开发数据集是从2019年1月至2022年4月期间，在安徽医科大学第一附属医院仅患有乳腺疾病的经外科病理确诊的患者中回顾性收集的。
乳腺X线图像由三位放射科医生之一采集，每位医生均有超过10年的乳腺X线经验，使用GE Senographe DS乳腺X线系统（642个乳房）或HOLOGIC Selenia Dimensions乳腺X线系统（158个乳房）。
因此，共有来自788名患者的800个乳房（458个癌症阳性）的1600张乳腺X线图像被纳入MG_H1数据集并分配。
MG_H1数据集的纳入和排除标准如扩展数据图1所示。
详细的患者人口统计学和乳房特征列于表1。
为了开发乳腺模块，MG_H1数据集中的患者被随机分配到训练队列（70％），验证队列（10％）和内部测试队列（20％）。

Para_02

为了评估我们的乳腺X线摄影模块的一般化性能，我们进一步探索了两个乳腺X线摄影数据集作为外部测试队列。
特别是，从2017年12月到2022年6月，回顾性收集了阜阳市肿瘤医院（MG_H2）的501名患者中的518张乳腺X线照片（302例阳性病例），这些图像仅在HOLOGIC Selenia Dimensions乳腺X线摄影系统上获取。
MG_H3数据集是从安徽医科大学第一附属医院的另一个分院回顾性收集的，收集时间为2016年2月至2022年6月。
具体来说，共有761名患者的783只乳房（537例阳性病例）使用了不同的制造商/设备进行成像，包括GE Senographe DS乳腺X线摄影系统（277只乳房）和HOLOGIC Selenia Dimensions乳腺X线摄影系统（506只乳房）。

Para_03

准确识别乳腺癌至关重要，因为它能够及时进行干预，从而有可能挽救患者的生命并改善其预后。
乳腺X线摄影作为筛查或诊断人群中的第一种影像学检查方法，在临床环境中需要保持低假阴性率。
因此，我们收集了一个额外的外部测试队列，即MG_Hx，仅用于评估我们的乳腺X线摄影模块在活检推荐方面的敏感性。
与MG_H2和MG_H3外部队列不同，MG_Hx队列仅包含癌症患者，共有来自参与医疗机构的1,232个乳房（患者1,228人）（标识符：ChiCTR2100047685）。

The ultrasound dataset

超声数据集

Para_01

所有乳腺超声数据集均于2019年9月至2023年8月期间前瞻性地从安徽医科大学第一附属医院（US_H1M1, US_H1M2）收集，2020年5月至2022年3月期间从宣城人民医院（US_H2）收集，以及2022年11月至2023年8月期间从南京医科大学附属南京医院（US_H3）收集。
数据采集由六名具有超过10年乳腺超声经验的放射科医生之一进行，使用了SUPERSONIC Aixplorer超声系统（SL15-4, SL10-2换能器），MINDRAY Resona 8超声系统（L14-5WU, L9-3U, L11-3U换能器）或SIEMENS Acuson（18L6换能器）及其预设设置。
详细的患者人口统计学和乳腺特征列于表1。
患者仅在超声检查当天被诊断为乳腺疾病，并在两周内通过乳腺外科病理确认。
根据扩展数据图1中描述的纳入和排除标准，仅分析了每个乳房中最可疑的病变。

Para_02

作为医院临床常规的一部分，每例乳腺检查拍摄了10到20张图像，包括每种超声B模式、彩色多普勒或弹性成像3到6张图像。
为了避免具有相似特征特性的多个超声图像，经验丰富的放射科医生手动选择了每个乳腺病变的总共6张标准图像（横断面和纵断面视图的超声B模式、彩色多普勒和弹性成像图像）用于我们的研究。
US_H1M1包含来自731名患者819只乳房（其中264只为癌症阳性）的总计4,914张超声图像，用于开发超声模块。
患者被分配到训练队列（70%）、验证队列（10%）和内部测试队列（20%），采用时间分割策略。
使用匿名患者ID确保训练、验证和测试队列之间没有乳房重叠，从而防止由于先前访问病例的存在而导致的潜在标签泄露。

Para_03

为了进一步评估超声模块的可靠性和可扩展性，我们前瞻性地招募了来自三个医疗中心的患者，使用了三家超声扫描仪制造商的五种探头，代表了临床环境的变化。
不同于US_H1M1，US_H1M2包含104个乳房（14个癌症阳性）来自103名患者，是从同一个中心收集的，但使用了不同的扫描仪制造商。
其他的外部测试队列包括US_H2，包含146名患者的173个乳房（75个癌症阳性），以及US_H3，包含85名患者的89个乳房（41个癌症阳性）。

The multimodal dataset

多模态数据集

Para_01

为了构建一个统一的BMU-网模型，该模型能够处理多种临床场景，并且能够在单模态、双模态和多模态患者数据可用的情况下运行，我们从安徽医科大学第一附属医院招募了患者，时间范围是从2021年1月到2023年8月（MGUS_H1），以及从宣城人民医院招募了患者，时间范围是从2022年3月到2023年8月（MGUS_H2），遵循之前提到的相同入选标准。
那些已经被纳入本次研究的乳腺X线摄影数据集或超声数据集中的患者被排除在外，同样，那些被诊断出患有非乳腺疾病或其他非乳腺手术条件的患者也被排除。
MGUS_H1由来自623名患者的5,088对图像（636个乳房，其中326个癌症阳性）组成，根据病例招募日期按70%：30%的比例分为细调队列和内部测试队列，用于BMU-网模型。
MGUS_H2由来自59名患者的496对图像（62个乳房，其中34个癌症阳性）组成，作为外部测试队列。

Para_02

此外，在多模式数据集中登记的患者被要求填写一份问卷，以在乳腺X线摄影和乳腺超声检查前获得临床背景信息。
元数据包括患者的年龄、BMI、主诉以及影像学发现，并在补充表3中有详细描述和可能的值。
除病灶深度和病灶位置外，所有其他临床变量均具有统计学意义（P < 0.05）。
然而，病灶深度已被证明是影响超声图像质量的最重要因素之一（与图像解释相关）。
同样，病灶位置（即乳腺癌最常见的发生部位是外上象限）也是乳腺癌的一个重要预后因素，同时也是乳腺手术不可或缺的指标。
因此，所有这些临床变量都被纳入了BMU-Net模型的开发。

Ground-truth labelling and imaging preprocessing

真实标签和成像预处理

Para_01

我们乳腺X线摄影数据集（MG_H1、MG_H2、MG_H3和MG_Hx）、超声数据集（US_H1M1、US_H1M2、US_H2和US_H3）以及多模态数据集（MGUS_H1和MGUS_H2）的标准既不是由放射科医生通过BI-RADS分类评估确定的，也不是基于活检标本的初步病理记录（即，病理学家对一小部分活检组织进行的初步分析，不包括免疫组化、分子检测或细胞遗传学分析等附加测试）来评价的。
相反，真实性是根据乳腺外科病理确认的结果或最终病理记录的手动审查来标记的。这是因为通过全面评估整个病变得出的乳腺外科病理结果比基于小部分活检组织的病理结果更准确41,42。
如图1所示，在本研究中实施了五个训练标签：T1（常规检查良性）、T2（需要关注的良性）、T3（原位癌）、T4（CIS-IC：原位癌与浸润性成分共存）和T5（浸润性癌）。

Para_02

图像预处理使用了Torchvision（v.0.15.2）和Pillow（v.9.4.0）。
为了提高训练效率，我们利用了DCMTK库中的dcmj2pnm程序（v.3.6.4）及其+on2标志将DICOM格式转换为PNG16文件。
具体到乳腺X线摄影设备，HOLOGIC与PHILIPS具有相似的窗口宽度和中心级别参数，因此我们在图像转换中使用了‘+Ww’标志。
而GE则具有不同的窗口宽度和中心级别参数，我们采用了‘+Wl’标志进行图像转换。
所有图像均被归一化以实现零均值和单位方差。

Para_03

额外的步骤通过一个自定义注释工具应用于超声图像（使用Electron 5.2作为其用户界面框架用JavaScript编写）。
该注释工具由乳腺放射科医生应用，用于裁剪原始超声图像，以消除无关信息，如文本和仪器设置。
因此，仅保留了病变的三模式超声图像的感兴趣区域用于模型开发。
详细方法已在我们之前的研究中描述。

BMU-Net model development

BMU-Net模型开发

Para_01

补充图1展示了我们提出的统一BMU-Net模型的详细架构，其中乳腺X线摄影模块和超声模块分别在补充图2和补充图3中呈现。
对于乳腺X线摄影或超声模块，采用了ResNet-18网络作为骨干来提取特定视角的图像特征。
在每个特定视角路径的末端，1×1 2D平均池化层从空间域聚合特征，随后是全连接层和softmax函数用于乳腺癌风险预测任务。
卷积层中的权重在不同成像模式之间没有共享，但在同一成像模式下的不同视角之间是共享的。
为了开发乳腺X线摄影和超声模块，首先使用了Mirai模型中更大领域特定数据集的预训练权重以及我们之前建立的模型的预训练权重进行初始化，然后分别使用我们的乳腺X线摄影和超声数据集进一步训练。

Para_02

由于注意力机制学习成像模式之间的关联和相互依赖性，并通过全面和丰富的特征表示，transformer块（补充表9）被应用于BMU-Net模型。
具体来说，乳腺X线摄影模块和超声模块的预训练权重被转移到BMU-Net模型相应的图像编码器部分，然后是注意力层（一个用于乳腺X线摄影路径，一个用于超声路径）以形成相同维度的特征向量。
接下来，应用额外的注意力层来聚合乳腺X线摄影和超声图像特征，并随后使用晚期融合技术与临床元数据融合。
我们的多模态数据集通过随机模态掩蔽策略进入BMU-Net模型的微调阶段，如图4所示。
BMU-Net模型没有使用任何其他放射科医生提供的诊断报告作为输入。

Para_03

我们在 PyTorch (v.2.0.1) 深度学习框架上开发了我们的 BMU-Net 模型，使用了 2 颗英特尔至强 CPU 和 1 块 NVIDIA A100 80 GB GPU 进行训练、验证和测试。
学习目标是将标签平滑损失的总和最小化，其性能优于交叉熵损失和焦点损失，在解决类别不平衡问题方面表现更好（补充表 10）。
为了避免过拟合，在全连接层中实施了概率为 0.5 的 dropout 和系数为 0.1 的 L2 正则化。
模型优化通过自适应矩估计 (ADAMW) 优化器完成，批量大小为 32，初始学习率为 0.0001。
进行了两个时期的线性预热，然后采用余弦函数学习率。
最大迭代步数设置为 100 个时期，并且由于损失没有进一步改善，采用了提前停止标准来终止训练。

Para_04

鉴于数据集的类别不平衡，除了损失函数的选择外，我们在训练阶段通过以相等的概率采样五个类别的样本（补充表11）实现了类别平衡24。
特别是，我们通过上采样罕见案例（如T3类）和下采样丰富案例（如T2类）来满足这一标准。
为了提高泛化能力，我们应用了数据增强技术，例如随机翻转（超声模块为水平翻转，乳腺X线摄影模块为垂直翻转）、旋转（-20°到20°）以及仿射变换（0, (0.1, 0)）。
还对元数据特征应用了随机丢弃，以帮助提高对缺失值或潜在数据错误的鲁棒性。

Reader study

读者研究

Para_01

我们通过读者研究将模块的鉴别诊断与经验丰富的放射科医生的鉴别诊断进行了比较。
具体来说，我们的读者研究包括乳腺X线摄影读者研究和超声波读者研究。
每个研究都是两部分的研究，其中第一部分设计用于细致的五类比较，而第二部分用于粗略的两类评估。
读者们彼此不知情，也不知原始放射科医生的解读结果以及深度学习模型的评估结果。

Para_02

每位读者都被要求独立审查同一组病例，并在不限时的情况下完成两项任务。
一项任务是报告一个使用1、2、3、4a、4b、4c和5值的第5版BI-RADS评级，就像他们在常规实践中解释图像一样。
为了将每位读者的BI-RADS评级转换为相应的灵敏度和特异性，我们通过考虑BI-RADS类别4a或以上作为恶性肿瘤测试阳性（BI-RADS 3-对4a+），BI-RADS类别4b或以上作为恶性肿瘤测试阳性（BI-RADS 4a-对4b+），BI-RADS类别4c或以上作为恶性肿瘤测试阳性（BI-RADS 4b-对4c+），以及只有BI-RADS类别5作为恶性肿瘤测试阳性（BI-RADS 4c-对5）来生成了四个截止点。
我们在四个截止点上计算所有单个读者的平均灵敏度和特异性。
另一项任务是表明从五个候选组中选择一个乳腺疾病组的偏好（即，常规检查良性、需要关注的良性、原位癌、CIS-IC和浸润性癌），这些与AI系统的T1至T5训练标签一致。

Para_03

这项乳腺X线读片研究招募了五名专门从事乳腺X线检查的放射科医生，他们的平均临床经验超过10年（分别为10年、8年、5年、14年和15年）。
来自MG_H1数据集内部测试队列158名患者的159个乳房的配对CC位和MLO位乳腺X线影像被随机呈现给读者。
与临床实践中双侧乳腺观察不同，只向读者展示了发现问题的单侧乳房。
如果提供了双侧乳腺信息，可能读者的表现基准会更高；然而，我们的研究设计是为了公平地比较读者表现与乳腺层面的乳腺X线模块性能，而不是患者层面的风险预测。

Para_04

超声读图研究包含了US_H1M1数据集内部测试队列中的146名患者的146个乳腺病变。
对于每个乳腺病例，向读者展示了总共六张标准图像，包括横截面和纵截面的超声B模式、彩色多普勒和弹性成像图像，这些图像是随机顺序呈现的。
参与这项研究的四位读者平均拥有15年的超声专业经验（分别为13年、10年、19年和18年）。

Breast biopsy specimen observation study

乳腺活检标本观察研究

Para_01

为了评估BMU-网模型通过多模态数据分析在指导更好的临床结果方面的优势，而非仅仅进行癌症风险预测，在MGUS_H1内部测试队列中的187名患者的191个乳房中进行了一项活检标本观察研究。
为了实现这一目标，对活检乳房的标本（即可疑病变的一小部分）进行了手动审查和分析，由三位经验丰富的病理学家完成，他们平均拥有15年的经验。
为了与手术病理结果或最终病理报告（本研究中的真实情况）区分开来，我们将我们的观察分析称为活检病理结果或初步病理报告。

Para_02

根据真实情况，从三位病理科医生的多数表决中确定了三个指标。
具体来说，如果活检观察结果与最终病理报告一致，则赋予指标‘1’。
如果活检观察结果正确地指出了其良性或恶性特征，但错误地指出了亚分类（例如，最终病理报告是浸润性乳腺癌，但初步病理报告是导管内癌），则分配指标‘0’。
最糟糕的情况是，即指标‘−1’，是指活检观察结果与最终病理报告之间存在矛盾事件（即相反的良性/恶性分类）。
‘0’和‘−1’是互斥事件，因此概率总和等于100%。
综上所述，指标‘1’和指标‘0’的整体概率分别定义为活检标本观察的细粒度准确性和粗粒度准确性。

Evaluation approaches and metrics

评估方法和指标

Para_01

使用混淆矩阵评估了细粒度五类预测性能。
通过测量混淆矩阵的科恩线性加权卡帕一致性水平（范围从-1到1，数值越大表示一致性越高）作为评估指标。
根据Cohen52的建议，卡帕结果应按以下方式解释：值≤0表示没有一致性，0.01-0.20表示轻微，0.21-0.40表示公平，0.41-0.60表示中等，0.61-0.80表示实质性，0.81-1.00表示几乎完全一致。
对于粗粒度两类分类，原生生成的连续分数表示恶性存在的可能性。
因此，通过在0-1区间内改变阈值概率来绘制模型的ROC曲线，其中AUC是模型的性能，最大值为1。

Para_02

我们实现了一个推理算法18，用于从细粒度模型输出生成粗粒度预测，而无需重新训练模型。
如图1所示，每个训练类别在我们的乳腺疾病树中由一个二级节点表示，推理类别（即良性或恶性）更为通用，并且由一个或多个训练类别组成。
例如，恶性乳腺包括原位癌（T3），CIS-IC（T4）和浸润性癌（T5）。
给定一个经过训练的深度学习模型，其输出是在训练节点上的概率分布。
为了恢复任意一级推理节点的概率，我们只需将其后代训练节点的概率相加（即，Pmalignant = PT3 + PT4 + PT5）。
为了展示乳腺疾病树和推理算法的优势使用，我们将推理算法的性能与一个新的模型进行了比较，该新模型直接在二元标签上进行训练：良性或恶性。

Selection of operating points

操作点的选择

Para_01

为了计算AI系统的敏感性和特异性，我们将恶性评分进行阈值处理以生成类似二元诊断决策。
基于最大Youden指数53生成了一个独特的操作点，以实现敏感性和特异性之间的最佳平衡。

Para_02

为了便于与人类读者的预测进行比较，我们选择了一个实用的操作点来评估我们的AI系统的活检推荐敏感性。
具体而言，这个操作点基于读者在截止点BI-RADS 3−对4a+的平均表现而启动，这相当于放射科医生临床实践中对于BI-RADS 4a或以上类别建议活检的做法。
因此，我们将模型特异性的阈值调整为匹配读者的平均特异性，然后将相应的敏感性与读者的平均敏感性进行了比较。

Para_03

为了进一步促进我们的AI系统在现实世界中的部署适用性，我们没有将以前读者的主观BI-RADS评估二分化，而是应用了传统的2%阈值——这是美国放射学院对活检推荐敏感度测量的原始定义。
对于乳房X线摄影模块，该阈值应用于MG_H1、MG_H2和MG_H3的综合测试队列以及仅包含癌症的MG_Hx测试队列。
对于超声波模块，该阈值应用于整个测试队列，结合内部测试队列与三个外部测试队列。
使用1-敏感度计算假阴性率。

Interpretability of the AI system

AI系统的可解释性

Para_01

为了确保人类专家的信任，在临床实践中需要一个可理解的决策过程。
梯度加权类激活映射（Grad-CAM）技术作为CAM的一种推广，被发现可以应用于更广泛的卷积神经网络模型族而无需进行架构变更或重新训练，从而为模型决策提供了有希望的文字解释。
因此，基于我们之前的经验，这里采用了Grad-CAM技术从测试图像的最后一层卷积层创建热图，这有助于人类专家理解AI系统对乳腺癌风险预测的理由。

Statistical analysis

统计分析

Para_01

乳腺X线摄影模块、超声模块和基于推理算法粗粒度评估及二元重建模块分类的BMU-Net模型的表现通过AUC表示，并使用Delong检验和二项精确置信区间进行比较。
通过线性加权Kappa统计计算了混淆矩阵的一致性。
置信区间的计算基于对样本的1,000次非参数自助抽样。
逻辑回归用于评估每组临床元数据的重要性。
Hosmer-Lemeshow拟合优度检验用于评估逻辑回归的拟合效果。
t检验用于比较不同方法之间指标的差异。
所有统计分析均为双侧分析，P<0.05被认为是统计显著性的阈值。
所有统计分析均使用MedCalc v.19.0.7、SPSS v.22.0和Python包进行。

Reporting summary

报告摘要

Para_01

关于研究设计的更多信息，请参阅本文链接的Nature Portfolio报告摘要。
,

Data availability

Para_01

支持本研究结果的主要数据在论文及其补充信息中提供。
安徽医科大学第一附属医院（两个分院）、宣城市人民医院、南京医科大学附属南京医院以及中国阜阳肿瘤医院的乳房X线摄影、超声和多模式数据集受到患者隐私保护，但一些数据可以根据合理请求和医院的许可从相应作者处获得用于学术目的。
图2和图3的数据源随论文一起提供。

Code availability

Para_01

本研究中使用的代码可在 GitHub 上获取，网址为 https://github.com/Qian-IMMULab/BMU-Net（参考文献 55）。
乳腺摄影模块的预训练权重公开可用——Mirai 模型28。
用于 AI 系统部署的自定义代码和注释工具可根据合理请求从通讯作者处获得，供研究使用。

机器学习 | 一种用于乳腺癌风险分层的多模态机器学习模型

Basic Information

(adsbygoogle = window.adsbygoogle || []).push({}); Abstract

Para_01

Main

Para_01

Para_02

(adsbygoogle = window.adsbygoogle || []).push({}); Para_03

Para_04

Para_05

Results

Para_01

Para_02

(adsbygoogle = window.adsbygoogle || []).push({}); Para_03

Mammography module performance and its comparison to mammographers

Para_01

Para_02

Para_03

Para_04

Ultrasound module performance and its comparison to sonographers

Para_01

Para_02

Para_03

Para_04

BMU-Net model performance and its comparison to pathologists

Para_01

Para_02

Para_03

Para_04

Para_05

Interpretability of the BMU-Net model

Para_01

Discussion

Para_01

(adsbygoogle = window.adsbygoogle || []).push({}); Para_02

Para_03

Para_04

Para_05

Para_06

Para_07

Para_08

Para_09

Methods

Ethics approval

Para_01

The mammography dataset

Para_01

Para_02

Para_03

The ultrasound dataset

Para_01

Para_02

Para_03

The multimodal dataset

Para_01

Para_02

Ground-truth labelling and imaging preprocessing

Para_01

Para_02

(adsbygoogle = window.adsbygoogle || []).push({}); Para_03

BMU-Net model development

Para_01

Para_02

Para_03

(adsbygoogle = window.adsbygoogle || []).push({}); Para_04

Reader study

Para_01

Para_02

Para_03

(adsbygoogle = window.adsbygoogle || []).push({}); Para_04

Breast biopsy specimen observation study

Para_01

(adsbygoogle = window.adsbygoogle || []).push({}); Para_02

Evaluation approaches and metrics

Para_01

Para_02

Selection of operating points

Para_01

Para_02

Para_03

Abstract

Para_03

Para_03

Para_02

Para_03

Para_04

Para_04

Para_02