【文献导读】（24-2）袁澜斌：基于PET/CT影像和深度学习的高代谢性肺部病变检测及诊断

2026年4月2日，由中国医师协会核医学医师分会青年学组举办的第五届【文献导读】（第二十四期）活动圆满完成。本次导读活动由遵义医科大学附属医院和兰州大学第二医院共同承办，通过腾讯会议在线上开展，华中科技大学同济医学院附属协和医院核医学科张晓主持了本次活动，遵义医科大学附属医院核医学科黄琦和兰州大学第二医院核医学科黄乐乐两位青委担任指导教师。重庆医科大学附属第一医院核医学科庞华主任和兰州大学信息科学与工程学院青年研究员付钰莅临指导，并进行了精彩点评。

各位老师下午好，非常荣幸能在这里和大家分享一篇发表于《欧洲核医学与分子影像杂志》2025年刊的前沿研究，题目是《基于PET/CT影像和深度学习的高代谢性肺部病变检测及诊断》，该研究由上海交通大学医学院瑞金医院核医学科等多中心团队联合完成，核心是通过构建深度学习模型，提升PET/CT在高代谢肺部病变诊断中的效率与精准度。

接下来我将从研究背景、研究方法、研究结果和研究讨论这4个部分展开本次分享。

首先来看研究背景。

肺部疾病类型繁多，从良性结节到恶性肿瘤表现多样，影像上极易混淆，误诊风险较高。PET/CT借助¹⁸F-FDG示踪剂，能结合解剖成像和代谢活性分析，通过SUVmax等指标辅助良恶性鉴别，但肺癌、淋巴瘤、肺转移瘤及部分良性病变等高代谢肺部病变，形态和代谢摄取表现复杂，仅依靠传统影像标准难以精准区分。

而在人工智能快速发展的背景下，深度学习已成为PET/CT影像分析的重要工具，能实现精准的特征提取、分割和分类，但目前相关研究多聚焦于肺结节良恶性鉴别、肿瘤亚型区分等，且大多针对单结节场景，缺乏对临床中形态多样、不典型的高代谢肺部病变进行病灶级的多分类研究，也难以满足真实临床的诊断需求。这也是本研究想要解决的核心临床痛点。

基于上述研究背景，本研究明确了三个核心研究目标：第一，搭建一套从自动分割、检测到精准分类的完整深度学习框架，将高代谢肺部病变分为良性病变、肺癌、肺淋巴瘤、肺转移瘤四类，这四类病变对应不同的治疗科室和方案，具有重要临床意义；第二，验证模型的泛化能力，在不同中心数据集、甚至不同型号PET/CT设备的数据集上测试模型性能；第三，探究模型的临床应用价值，分析模型假阳性结果，验证其能否辅助医生优化诊断流程，为临床决策提供参考。

接下来是本次研究的核心部分——研究方法。

本研究为回顾性研究，纳入了2015年1月至2024年2月国内5个中心的647例患者，其中男性409例、女性238例，将数据集分为瑞金医院的内部数据集（426例）、其他四家机构的外部测试集I（151例）和瑞金医院全新全身PET/CT设备的外部测试集II（70例），同时制定了严格的纳入和排除标准，保证数据的有效性。

接下来我将详细介绍本研究的方法学部分。该研究采用了一个两阶段的深度学习框架，整个流程可以概括为四个核心步骤，对应PPT右侧的四个模块，左侧的流程图也直观展示了从建模到评估的完整链路。

第一步是影像采集与预处理。该研究收集了多中心的PET/CT数据，统一完成格式转换、图像配准，再通过半自动化分割标注病灶，确保训练数据的高质量和一致性，为后续模型训练打下可靠基础。

第二步是核心的模型构建，分为分割+分类两个阶段：先用3D UNet网络精准定位、分割病灶，再搭建3D+2D CNN的多维联合网络，融合病灶的局部特征和全身代谢特征，最终实现良性病变、肺癌、淋巴瘤、肺转移瘤这四类病变的精准分类。

第三步是模型训练与优化。采用OneCycle学习率调度策略和SGD优化器，对分割模型和分类模型进行独立训练、参数调优，让两个子模型都能达到最优性能。

最后一步是模型评估与对比。从体积、计数两个维度评估分割性能，用AUC、准确率等指标评估分类效果，同时和传统的放射组学SVM模型做对比，充分验证深度学习模型的优势。

影像采集与预处理环节，该研究纳入了5个中心共647例患者的 PET/CT数据，严格遵循标准流程。预处理统一做了格式转换、配准重采样，用LIFEx软件半自动化分割病灶，并通过双盲验证保证标注可靠，为模型训练打好了基础.

核心的模型构建，分为分割+分类两个阶段：

分割阶段：用带残差模块的3D UNet，自动定位、分割肺内高代谢病灶，输出ROI；

分类阶段：搭建3D+2D CNN多维联合网络，融合病灶3D特征和PET 2D投影特征，最终把病灶精准分为良性、肺癌、淋巴瘤、转移瘤四类。

接下来是模型的训练和评估。该研究给分割和分类模型分别设置了不同的训练参数，用SGD优化器和OneCycle调度来训练，保证模型充分收敛。评估上，分割模型从体积、计数两个维度打分，分类模型用AUC、准确率这些核心指标，同时和传统的影像组学SVM模型做对比，验证我们深度学习方法的优势。

接下来是研究结果。

研究结果主要从病例特征、分割效率、分类效率和假阳性病灶评估四个方面呈现。

本研究的病例与病灶基础特征：该研究共纳入 647 例患者，分为内部训练集、外部测试集 I 、外部测试集 II ，通过双外部验证保障模型的多中心泛化能力。病变亚型上，肺癌以腺癌为主（>65%），淋巴瘤以弥漫性大B细胞淋巴瘤和结外边缘区B细胞淋巴瘤为主，转移瘤以结直肠癌来源为主（>50%），完全贴合临床实际。病灶数量上，内部集超 1000 个，外部集分别为 363、174个，且四类病变分布均衡，避免了类别偏倚。从右侧柱状图可见，三个数据集的病变类型分布高度一致，无明显偏移，为模型的稳定性能提供了可靠的数据基础。

该研究从体积维度（DSC 系数）和计数维度（病灶检测率）两个核心维度，全面评估了模型的表现：

· 体积维度上，内部测试集 DSC达 0.6587，外部测试集 I 为 0.6503，即使是新型全身 PET/CT 的外部测试集 II，DSC 也达到 0.5595，分割精度稳定、泛化性好；

· 计数维度上，三个数据集的病灶检测率全部保持在 75% 以上，同时每例假阳性数控制在 0.55 左右，误检率极低，完全贴合临床需求。综上，我们的分割模型在多中心、多设备数据上表现稳健，尤其是病灶识别能力优异，能够有效辅助临床诊断。

接下来介绍分类模型的性能评估与对比。以AUC 为核心指标，在三个独立数据集上，将深度学习模型与传统放射组学模型进行了全面对比：

· 内部测试集：深度学习 AUC 达 88.4%，显著高于放射组学的 72.1%；

· 外部测试集 I：深度学习 AUC 为 80.7%，放射组学为 65.3%，跨中心泛化能力优异；

· 外部测试集 II（新设备）：深度学习 AUC 为66.6%，仍优于放射组学的 58.9%。核心结论非常明确：该研究深度学习模型性能显著优于传统放射组学，在多中心、多设备数据上都展现出了优秀的泛化能力和鲁棒性，能够为临床提供更精准的辅助诊断。

分析了假阳性的主要来源：占比最高的是邻近区域的高代谢病灶，比如肺门、纵隔淋巴结，其次是胸壁骨骼高代谢，以及脏器病变等其他因素。更关键的是，该研究发现这些假阳性并非无效干扰，反而具备极高的临床价值：

· 超过 80% 的假阳性都是临床可疑病灶，是医生阅片的重点关注区域；

· 模型对这些病灶的分类结果，和人工判断契合度达 42.3%-67.7%，能提供辅助线索；还能提示微小可疑病灶，帮助医生减少漏诊，提升阅片效率和全面性。总结来说，模型的假阳性，本质上是为医生提供了额外的诊断线索，进一步提升了模型的临床实用性。

总结来看，第一，检测分割效果好：基于 PET/CT 的深度学习模型，能有效检测和分割肺部高代谢病灶，检测率稳定在 75% 以上。

第二，多分类性能优异：在四类病变分类任务中，模型最高 AUC 达 88.4%，明显优于传统放射组学方法。

第三，泛化能力强：多中心、多设备的外部测试验证了模型的泛化性，能适配不同临床场景。

第四，假阳性有临床意义：模型的假阳性多为临床可疑病灶，能给医生提供额外诊断线索，提升诊断全面性。

最后是文献的研究结果部分。

接下来介绍这篇文献中模型的核心临床价值：第一，该研究是首个基于 PET/CT 的肺部病变病灶级四类多分类大尺度研究，填补了现有研究仅聚焦良恶性二分类的空白；第二，模型基于多中心、多设备、数据训练验证，具备优异的跨中心、跨设备泛化能力，贴近真实临床场景；第三，模型可精准处理合并多种病理类型的复杂病例，辅助复杂诊断；第四，模型能自动检测分割减少人工工作量，同时通过假阳性提供额外诊断线索，提升诊断效率与全面性，降低漏诊风险。综上，该模型真正贴合临床需求，具备极高的应用价值。

这项研究的局限性：第一，研究为回顾性设计，受医院专科特色影响存在选择偏倚，可能导致模型在不同中心表现存在差异；第二，模型在新型全身 PET/CT 设备上性能下降，对不同厂家、类型设备的适配性有待优化；第三，仅使用了PET/CT 影像数据，未整合临床、实验室等多维度信息，限制了模型性能提升；第四，模型仍处于研究阶段，未完成临床产品化，缺乏真实世界大规模应用测试。