Py学习  »  机器学习算法

影像+深度学习就可以发Nature子刊?真相可能并不简单!

解螺旋 • 8 月前 • 86 次点击  

1


整体感知

 

1

题目要素拆解

        

文章题目提供了三条信息:

    1)预测变量:PET/CT影像组学

    2)结局:EGFR靶向治疗和免疫治疗的预后

    3)研究对象:非小细胞肺癌(NSCLC)

2

文章基本信息

        

     


3

核心要素

  

    研究对象(P):非小细胞肺癌病人 (n = 837),来自四家医院,影像数据可以联系通讯作者获取。

    预后模型(I/C):深度卷积神经网络(CNN)

    结局指标(O):病人的无进展生存期(PFS)

    研究类型(S):回顾性队列研究,预后类型

    研究目的:开发基于PET/CT的深度学习模型和影像标志物,用于对NSCLC病人根据EGFR靶向治疗和免疫治疗的响应进行分组。

4

变量分析


本文有两项任务

a. 分类任务

    预测变量(X):PET/CT影像

    结局变量(Y):  是否发生EGFR突变(二值变量)

注:本文也对PD-L1的表达水平构建了预测模型,但主体部分集中在EGFR突变的分析评估上。

b. 预后分析任务

    预测变量(X):深度影像标志物(deep learning score, DLS)

    结局变量(Y):  病人接受靶向治疗(EGFR-TKI)和免疫治疗(ICI-TKI)后的预后(PFS)

    协变量(Z):临床变量,包括年龄、性别、分期、病理、吸烟情况、SUVmax。(但注意本文重点是病人分组,协变量并非重点)

5

研究背景


    临床问题:靶向药物和免疫治疗为NSCLC带来了新的希望,判断EGFR突变情况是疗法选择的重要依据。

    目前方法不足:目前临床上通过肿瘤活体组织检查判断EGFR突变状态,但需要依靠活检等侵入式方法,且对肿瘤的采样是有偏的,对肿瘤特性的刻画不够全面。

    本文解决方式:基于此,本文从影像组学入手去预测EGFR突变状态,考虑到预定义的影像特征对精准的肿瘤边界勾画要求较高,本文采用深度学习的方法提取影像特征。作者构建了EGFR突变状态的深度影像标志物,并将其与预后相关联,最终提出了基于影像组学的疗法选择依据。

   

2


模型构建

1

workflow展示


本文的研究主要分为以下几个部分:

    ① ROI分割与预处理(包括CT和PET)

    ② 模型训练与验证

    ③ 基于深度影像标志物的病人分组

    ④ 构建病人治疗方案的决策流程

2

纳入排除标准建立 


第一部分:文章方法部分解读

纳入标准

    ① 经组织病理学确认为原发性肺癌

    ② 有EGFR的病理检验

    ③ 有PET/CT影像

    ④ 病人基线临床数据完整

排除标准

注:根据研究目的,不同队列的排除标准存在差异

Shanghai Pulmonary Hospital (SPH) + Fourth Hospital of Hebei Medical University (HBMU)

    ① 无EGFR突变记录

    ② 接受过预治疗

    ③ 成像和进行免疫组化活检之间的间隔超过1个月

Fourth Hospital of Harbin Medical University (HMU)

    ① 病人患有幽闭恐惧症,处于妊娠、哺乳期或胸部有金属植入物

    ② 无治疗前PET/CT影像

H. Lee Moffitt Cancer Center and Research Institute (HLM)

    ① 成像和免疫治疗之间的间隔超过3个月,或之间接受过其他治疗

    ② 随访时间少于6个月

    ③ 同时接受了免疫治疗和化疗

第二部分:PICOS原则梳理

P:

    年龄:不限制;

    性别:不限制;

    疾病状态:初次治疗;

    疾病分期:TNM I~IV期均有;

    治疗方案靶向治疗(EGFR-TKI)和免疫治疗(ICI-TKI);

    诊断标准:病理诊断;

I/C:

    影像设备18F-FDG-PET/CT;

    靶区:肿瘤及周围区域;

    影像检查时间点:术前;

    层厚:3.75 mm(CT),3.27mm(PET);

O:

    模型训练的output是EGFR突变状态(二值)

    临床研究的outcome是病人接受治疗的PFS

第三部分:纳排及分组结果

最终,共纳入4个队列的837名患者,并从中获得PET/CT影像数据、EGFR突变情况PD-L1表达情况、随访信息及临床特征资料:

Shanghai Pulmonary Hospital (SPH) + Fourth Hospital of Hebei Medical University (HBMU):共616例患者,用于模型训练和验证,两个队列组合后划分为训练和验证集(429+187)

Fourth Hospital of Harbin Medical University (HMU):72例,分别用于EGFR突变预测模型的外部验证,和靶向治疗响应的研究,两项研究涉及的患者有重合。

H. Lee Moffitt Cancer Center and Research Institute (HLM):HLM:149例患者,用于免疫治疗响应的研究

详见原文Fig. 1:

原文Fig. 1

注:

    本文的队列设计看起来比较复杂,可以这样理解:本文有两个相互关联的任务:EGFR突变预测和预后分析,因此队列中同时包含了EGFR突变信息和治疗后的预后数据。

    两项任务的关联在于:通过预测EGFR突变,从影像中提取了EGFR突变的信息,构建得到深度影像标志物EGFR-DLS。由于EGFR突变和靶向治疗(TKI)有关,因此可以基于EGFR-DLS研究病人接受TKI治疗后的预后,也可以结合PD-L1信息分析免疫治疗的预后。

3

图像分割(+图像预处理)


PET和CT首先使用ITK-SNAP软件(version 3.6.0)进行配准,之后由3位经验丰富的放射科医生完成ROI区域标注,再进行膨胀处理以包括肿瘤周围区域。最后缩放到64x64像素用于模型输入。

原文Fig. S9

原文在Fig. S9中给出了图像分割部分的流程:

    步骤a:手动标注肿瘤区域,标注的方式可以使用矩形框,也可以用不规则的边界框。由于深度学习模型的输入是正方形,因此对肿瘤区域的标注不必是像素级的segmentation;

    步骤b:重采样图像和标注掩模到同样的体素间距(1mm),这样可以保证不同样本图像的像素表征的实际物理距离是一致的;

    步骤c:使用正方形框定位肿瘤区域;

    步骤d:将标注区域向外扩展20mm,以便纳入肿瘤周围区域;

    步骤e:将肿瘤(含周围区域)影像缩放到64x64像素,因为深度学习模型要求的输入大小是一致的。之后将CT和PET影像融合到一起到Fusion ROI;

    步骤f:将CT、PET和融合后的影像作为3个通道输入深度学习模型。

 

4

特征提取 


本研究使用深度学习策略提取影像特征,由于CNN模型是端到端(end-to-end)的形式,特征提取会在训练中自动加以优化,而非经由固定的公式计算得出。

5

特征选择

 

CNN模型在经过训练后,其模型参数具有特征选择作用。这一过程也经由端到端的学习实现,没有显式的特征选择步骤。

6

模型建立

  
   作者参考经典的CNN网络——ResNet-18的结构,基于防止过拟合的考量,减少了卷积运算中滤波器(filter)的数量,构建了端到端的SResCNN(small-residual-convolutional-network)模型。原文在Fig. S8中给出了模型结构的图示。

原文Fig. S8

模型训练的一些细节:

l初始学习率:0.0001

l优化器与参数:Adam,beta_1 = 0.9, beta_2 = 0.999

l学习率衰减策略:如果验证集loss连续10个epoch不下降,则学习率降为原来的1/5

l防过拟合策略:

    1)数据扩增;

    2)加入正则项;

    3)加入Dropout;

    4)Early stop(验证集loss连续30个epoch不下降则停止训练)

模型训练完成后,对于每个样本的输出即为该样本的deep learning score,由于预测的变量是EGFR突变,因此命名为EGFR-DLS,用于下游分析验证其临床价值。

此外,为了比较EGFR-DLS和临床变量及其互补性, 作者还使用临床变量构建了clinical signature(CS),以及二者结合的combined signature(CMS)。构建方法为训练集上对自变量进行logistic regression(标签仍为预测EGFR突变),之后取模型输出作为signature。

3


模型评价

1

模型预测效果的评估

  

Fig. 2展示了每个Signature预测效果的ROC曲线及其AUC水平的差异

原文Fig. 2

结果显示

EGFR-DLS能够很好地预测EGFR突变状态,且多中心泛化性良好。其性能优于临床指标(CS),将二者结合能够取得更好的预测效果(CMS)。上述预测性能的提升在统计学上是显著的。

注:这里的MPG指的是18F-MPG (N-(3-chloro-4-fluorophenyl)-7-(2-(2-(2-(2-18F-fluoroethoxy) ethoxy) ethoxy) ethoxy)-6-methoxyquinazolin-4-amine),是近年来新提出的一种研究肿瘤中EGFR突变情况的方法,它基于PET影像,能够将肿瘤EGFR突变的情况以影像的方式定量化地呈现。详情见参考文献2。

2

EGFR-DLS鲁棒性的分析

  


Fig. S2展示了不同放射科医生标注肿瘤对实验结果的影响

原文Fig. S2

结果显示

根据三位放射科医生标注计算出的EGFR-DLS差别不大(图a,每个坐标轴为一位医生标注计算得到的DLS,三组DLS构成了一个三维坐标系,数据点分布在立方体的主对角线说明了三组DLS的一致性较好),且基于三组EGFR-DLS预测EGFR突变的效果相近(图b)。以上结果说明了算法对肿瘤区域标注的鲁棒性。

3

EGFR-DLS与临床变量之间的关联

     

Fig. 3a、b展示了EGFR-DLS和肿瘤特性之间的相关性

原文Fig. 3

结果显示

EGFR-DLS与肿瘤的分期、病理亚型、病人是否吸烟以及性别之间存在着显著的关联(图a)。此外,在NSCLC常见的亚型——腺癌(ADC)和鳞癌(SCC)中,EGFR-DLS与EGFR突变也有着显著关联(图b)。

4

深度学习模型可视化分析

     

Fig. 3c、d对深度学习模型进行了可视化,并展示了对应的组织病理学结果

图像说明:对于子图c和d,

    第一行:CT/PET/18FDG  PET-CT;

    第二行:上述图像中的ROI,即肿瘤区域;

    第三行左侧:模型关注区域;

    第三行右侧:正负向滤波器(正负向指与预测目标是否一致);

    第四行:CT/PET/18F-MPG PET-CT;

    第五行:HE染色和免疫组化染色图像(分别为total-EGFR, phospho-EGFR, and L858-specific EGFR)。

结果显示

    对比第三行左侧与第二行,说明了模型关注的区域与肿瘤区域重合

    对比第三行左侧与第四行,说民乐模型关注的区域与18F-MPG图像热点区域重合;

    对比子图c和子图d的第三行右侧图,说明了正向滤波器在EGFR突变肿瘤中被激活,负向滤波器在EGFR未突变肿瘤中被激活;

    对比第三行左侧与第五行,说明了模型对EGFR突变情况的判断与组织病理学检验结果一致

注1:深度学习模型的可视化可以查阅参考文献3。

注2:由于18F-MPG图像反映了肿瘤EGFR突变的情况,因此预测模型关注的区域和MPG图像热点区域一致说明了模型从影像上捕捉EGFR突变信息的有效性。

Fig. S1将ROI扩展到肿瘤周围区域进行模型可视化(可视化的肿瘤与Fig.3一致)

原文Fig. S1

结果显示

将ROI扩展到肿瘤周围区域结果与之前一致(第一、二行:与Fig.3相同;第三、四行:ROI扩展到肿瘤周围区域的可视化结果)

5

EGFR-DLS的预后价值分析

     

Fig. 4a、b展示了EGFR-DLS和MPG、TKI治疗效果之间的关联

原文Fig. 4

结果显示:

EGFR-DLS越高,MPG图中的SUVmax数值越高,发生EGFR突变的肿瘤更容易对TKI产生治疗响应。

Fig. 4c、d展示了EGFR-DLS针对靶向和免疫治疗病人的分层情况

原文Fig. 4

结果显示

EGFR-DLS可以显著区分接受靶向(图c)或免疫治疗(图d)病人的预后。

Fig. S3 补充说明了EGFR-DLS和EGFR突变状态的一致性

原文Fig. S3

结果显示

使用EGFR-DLS和使用EGFR突变状态对病人分层, 获得的生存曲线十分接近,说明EGFR-DLS能够很好地指示EGFR突变状态。

Fig. 4e 展示了EGFR-DLS针对不同NSCLC亚型且接受免疫治疗病人的分层情况

原文Fig. 4

结果显示

不论是在腺癌还是鳞癌的亚组中,EGFR-DLS都能够显著区分接受免疫治疗预后有显著差异的病人。

Fig. S4 展示了EGFR-DLS和PD-L1表达水平之间的关联

原文Fig. S4

结果显示

EGFR-DLS与PD-L1表达水平之间存在较强且显著的相关性(三个子图分别为训练、验证和测试三个子队列)。

Fig. 4f、S5 展示了EGFR-DLS针对不同PD-L1水平且接受免疫治疗病人的分层情况

原文Fig. 4

原文Fig. S5

结果显示

EGFR-DLS较高且PD-L1水平较低的情况下,病人接受免疫治疗的效果较差(Fig. 4f),这一结论在腺癌还是鳞癌的亚组中均成立(Fig. S5)。

Fig. S5 展示了EGFR-DLS与不同疗法疗效之间的关系

原文Fig. 4

结果显示

EGFR-DLS高的组更适合使用靶向治疗(红线vs紫线);EGFR-DLS低的组更适合使用免疫治疗(青线vs绿线)。

Fig. S7 展示了影像标志物结合使用对接受两种疗法的病人的分层情况

Fig. S7 

结果显示

首先说明:可以根据EGFR-DLS的算法同样去构建PDL1-DLS,二者可以结合起来将病人分为四组。左侧为EGFR-DLS较高(>0.5, H)的生存曲线,右侧为EGFR-DLS较低(L)的生存曲线。

EGFR-DLS较高时,应当考虑使用靶向治疗;当EGFR-DLS较低,且PDL1-DLS较高时,应当考虑使用免疫治疗。

铺垫了这么多,作者基于影像组学的方法,进一步提出了NSCLC治疗方案选择的新参考,往下看:

Fig. 4h、S6 分别展示了基于影像组学标志物和2020版指南的治疗方案选择流程

原文Fig. 4

原文Fig. S6

结果显示

影像组学标志物可以作为治疗方案选择的参考依据!

注:EGFR-DLS的阈值为训练集中样本DLS的中值,PDL1-DLS的阈值选取方式相同。


4


全文总结

 

1

一句话文章总结


 

本文基于NSCLC的PET/CT影像,开发了用于预测EGFR突变状态的深度影像标志物EGFR-DLS,并验证了其对病人预后的指示作用和辅助选择治疗方案的能力 

2

优点


 这篇文章将深度学习应用在了影像组学中,于是发表在了Nature子刊上。文章是做到了什么让整个过程得以入围顶刊范围呢?我认为原因在以下几点:

    ① 早鸟优势。文章发表于2020年,彼时深度学习刚开始应用于医学影像之中,且深度影像标志物的思路也不常见。如果搜索近期类似的工作,就会发现吃螃蟹的人越来越多了。

    ② 研究的广度。本文涉及到了EGFR靶向治疗和免疫治疗两种疗法,纳入了多中心的病人队列,且队列中病人的数量也较多。

    ③ 完备性。套路应有的步骤,文章基本都具备了,实现了比较完整的论述。

    ④ 临床价值新颖。肿瘤治疗方案的选择是临床研究的热点问题,本文从影像组学的角度给出了全新的诊疗方案,并与现有的指南进行了对比,实现了对结果的升华。

3

局限性


从文章总体的内容来看,做的比较规范、系统,质量佳,是个学习的好模板,工作量大。但从玩法上来说,本文也有一些可提升之处:

    ① 从信息获取的层面来说,只用了肿瘤的2D特征,应当进一步扩展到3D以更好地捕捉肿瘤特性(这一点在当下的影像组学研究中非常常见了)。

    ② 从病人队列的层面来说,本文受回顾性研究以及需要保证病人数量的制约,几个队列的纳入排除标准并不完全统一。

    ③ 从研究扩展性的层面来说,本文收集的队列中肿瘤大部分是10~20mm的,对于其他尺寸的肿瘤可能扩展性较差。

4

结语


好啦,本期的文献分享到这里,对于追求子刊的小伙伴是不是又一次的冲击呢?继续跟紧君莲数据库的平鑫而论专栏,我们下期见吧~~

参考文献

[1] Mu, W. et al. Non-invasive decision support for NSCLC treatment using PET/CT radiomics. Nat Commun 11, 5228 (2020).

[2] Sun, X. et al. A PET imaging approach for determining EGFR mutation status for improved lung cancer patient management. Sci. Transl. Med. 10, eaan8840 (2018).

[3] Selvaraju, R et al., Grad-CAM: Visual explanations from deep net- works via gradient-based localization, 2017 IEEE International Conference on Computer Vision (ICCV) : 618-626.       

END
撰文丨外简
审核丨鑫仔
排版丨阿洛


往期推荐



影像组学+免疫治疗=Radiology?回味经典,开创未来!

Python社区是高质量的Python/Django开发社区
本文地址:http://www.python88.com/topic/160727
 
86 次点击