Py学习  »  机器学习算法

多种机器学习分类器影像组学+二分类问题就能发在欧放?OMG!

解螺旋 • 1 年前 • 228 次点击  





一、整体感知

01
题目要素拆解

1)预测变量:CT影像组学
2)结局:肿瘤良恶性
3)研究对象:腮腺肿瘤
02
文章基本信息

杂志

European Radiology

分区

2区

IF

7.034

发表时间

2022.04.29

  

03
核心要素

研究对象(P):经病理证实的腮腺肿瘤患者(n=388);


预后模型(I/C):从平扫、动脉期和静脉期的CT图像中提取影像组学特征。降维和筛选后,通过逻辑回归( LR )、支持向量机( SVM )和随机森林( RF )构建影像组学模型,采用ROC曲线分析筛选最佳影像组学模型;应用单因素和多因素logistic回归分析临床-影像学征象并确定用于建立临床模型的变量;整合影像组学和临床特征构建联合模型;通过ROC曲线分析评估模型性能,决策曲线分析( DCA )评估模型的临床价值;


结局指标(O):腮腺肿瘤良性或恶性


研究类型(S):回顾性队列研究,诊断预测类型;


研究目的:探讨和验证不同影像组学模型在术前鉴别腮腺肿瘤良恶性的价值。


04
变量分析   

预测变量(X):CT影像组学特征


结局变量(Y):腮腺肿瘤良性或恶性


协变量(Z):年龄、病程、症状、性别、吸烟/饮酒情况、住院次数、术后病理诊断、肿瘤最大直径、肿瘤数目、分布、形状、边缘、肿瘤位置、密度、钙化、囊变、强化峰值相位、强化程度、强化均匀度、同侧淋巴结肿大、周围组织浸润

05
研究背景

临床问题:腮腺肿瘤是最主要的唾液腺肿瘤,其中约80 %为良性,20 %为恶性。其组织病理学类型复杂多样。不同组织学类型的腮腺肿瘤决定了不同的治疗决策和预后。因此,术前准确评估腮腺肿瘤的良恶性对于制定治疗决策至关重要。


目前方法不足:目前术前鉴别腮腺良恶性肿瘤主要依靠细针穿刺活检(FNAB )和影像学检查。但FNAB具有携带肿瘤细胞移植和诱发腮腺炎的风险,且有限的取材有时会使组织细胞学诊断无定论;超声检查易受肿瘤位置及邻近骨质的影响,诊断效能有限;CT和MRI腮腺肿瘤良恶性征象重叠,鉴别诊断困难。


本文解决方式:应用基于不同机器学习算法的CT影像组学模型鉴别腮腺肿瘤的良恶性,并比较不同模型的鉴别效能。





二、模型构建

01
workflow展示

我们先来看一下流程图



ROI分割



特征提取(包括形态特征、直方图特征、纹理特征和变换特征)




特征筛选(影像组学特征:ICC值超过0.9、mRMR算法、LASSO算法;临床-影像学征象:t检验、卡方检验或Fisher精确检验、单因素与多因素logistic分析)




模型构建(影像组学特征运用LR、SVM和RF算法)



模型分析(ROC曲线和DCA曲线)


02
纳入排除标准建立



#第一部分:文章方法部分解读

纳入标准

①患者术前行CT平扫及动脉期、静脉期增强扫描

②无FNAB、放疗、化疗史

多形性腺瘤(PA)、Warthin瘤(WT)、基底细胞腺瘤(BCA)、恶性腮腺肿瘤均经术后病理确诊且临床资料完整。

排除标准

①图像存在严重运动伪影或明显噪声

②肿瘤最大径小于1.0 cm

③合并其他肿瘤疾病。

#第二部分:PICOS原则梳理

P:

年龄:不限制

性别:男性222人,女性166人

疾病状态:患有腮腺肿瘤

治疗方案:接受腮腺切除术

诊断标准:病理诊断

I/C:

影像设备:CT

扫描序列:平扫、动脉期(注射后40秒)、静脉期(注射后100秒)

靶区:腮腺肿瘤全瘤

影像检查时间点:术前

层厚:5mm

对比剂:非离子型碘对比剂,以1.5ml/kg为剂量,3.5ml/s的速度静脉注射

O:
  腮腺肿瘤良性或者恶性
#第三部分:纳排及分组结果

最终,共纳入自2014年1月至2021年月共388名患者,并按照7:3划分训练集和测试集,其中训练集272例,测试集116例。


03
图像分割(+图像预处理   

感兴趣区域ROI的图像分割由两名分别具有5年和12年诊断经验的放射科医生在不知道病理结果的情况下,使用ITK-SNAP软件在CT图像(窗宽400HU,窗位40HU)独立手动完成。肿瘤在轴位多期CT图像上沿边缘逐层勾画,排除邻近正常组织、钙化及血管。


图像预处理:

通过重采样和标准化对图像和数据进行预处理,保证结果的可重复性。 


04
特征提取(+数据预处理)

特征提取


工具:使用AK软件(Artificial Intelligence Kit, version 3.2.2, GE Healthcare)。


特征类型:包括形状特征、直方图特征、Haralick特征、灰度共生矩阵( GLCM )、灰度游程矩阵( GLRLM )、灰度大小区域矩阵( GLSZM )。最终一共提取2874个影像组学特征。

05
特征选择     
特征的一致性评价

在第一次勾画后的1个月由放射科医师1再次随机选择116例患者(良性肿瘤93例,恶性肿瘤23例)进行ROI分割,ICC大于0.9表示一致性较好。


特征降维和选择
①对提取的特征进行方差分析( ANOVA ),选择具有统计学意义且ICC评分> 0.9的特征

②采用最大相关最小冗余 ( mRMR )算法选择与肿瘤分类相关性最高且冗余度最小的特征

③采用10倍交叉验证的最小绝对收缩和选择算子( LASSO )回归模型选择非零系数的特征

所有的特征选择过程都在训练集上执行,并用于测试集。

 

06
模型建立

影像组学模型:本研究选择了3种机器学习算法训练模型,包括逻辑回归( LR )、支持向量机( SVM )和随机森林( RF );


临床模型:对训练集中每个预测变量(包括临床和影像学特征)进行单变量logistic回归分析,然后对筛选出的具有统计学意义的特征进行多变量logistic回归分析,获得最终的预测变量(如表3所示,最终预测变量为症状、形态、边缘及肿大淋巴结;多变量logistic回归分析使用基于赤池信息准则( AIC )的向前逐步选择);


融合模型:临床模型加上最佳影像组学模型构建融合模型。






三、模型评价

01
预测模型的评价 



图4:展示了三种机器学习算法的影像组学模型在训练集和测试集中的ROC曲线




结果显示:在训练集,RF模型表现最佳,AUC值为0.986,在测试集中,SVM模型表现最佳,AUC值为0.840。这表明, RF模型有过拟合的趋势。为保证影像组学模型的稳定性和可持续性,最终选择SVM模型作为最佳影像组学模型。


注:推测腮腺肿瘤数据可能是非线性的,因此采用线性算法的LR模型效率不如非线性RF和SVM;RF是一种通过集成学习集成多棵决策树的算法,在处理小样本队列时泛化能力较差,可能出现过拟合现象;SVM以较少的训练样本获得了与大量训练样本几乎相同的性能,具有令人满意的稳定性和效率[1,2]






图5:展示了SVM影像组学模型、临床模型和融合模型在训练集和测试集中的ROC曲线




结果显示:在训练集和测试集中,融合模型的鉴别诊断能力明显优于影像组学模型和临床模型,具有更高的AUC (训练队列0.904 ; 0.854)。




表1:展示了三种机器学习算法的影像组学模型、临床模型以及融合模型的诊断效能






图6:展示影像组学模型、临床模型以及融合模型的决策曲线分析(DCA)曲线



结果显示:融合模型在训练集和测试集中对腮腺肿瘤分类的净获益最高,即临床效能最

02
生物学意义
以GLCM特征为主的纹理特征在区分腮腺良恶性肿瘤方面存在显著差异,由此推测恶性肿瘤生长迅速,容易引起坏死和微出血,使其异质性高于良性肿瘤。





四、全文总结

本文基于CT图像,运用了三种机器学习算法构建影像组学模型并进行比较,根据测试集表现选择SVM为最佳,后采用SVM算法构建融合模型,并在区分腮腺肿瘤良性恶性上表现出良好的鉴别诊断能力。

这是一篇于2022年4月发表于European Radiology上的文章。难以相信,套路如此常规和简单的文章能发表在影像学领域大名鼎鼎的ER上。其中必定有些细节和亮点值得我们注意和学习。

亮点:
◀  本研究应用了三种机器学习方法,即LR、SVM和RF,构建影像组学模型并进行诊断效能的比较,得出了SVM算法模型效果最佳,并给出了合理科学的解释;

◀  本文共纳入了388例,样本量相对较大,得出的结果更加科学合理;

◀  筛选的影像组学特征是ICC值超过0.9的10个特征,一是这些特征的可重复性更高,泛化能力更强,二是纳入的特征数目不会太多导致模型过于复杂;

◀  本研究纳入的临床数据和影像学征象详细,很好的提供临床信息,且研究流程完整

      当然这篇文章也存在一些局限性:

◀  本研究为回顾性单中心研究,可能存在潜在的选择性偏倚;

◀  在定义手动分割的边界时,具有主观性仍存在争议,希望在未来能够通过深度学习实现完全自动化;

◀  本研究中只采用了CT增强扫描的动脉期和静脉期的,而在其他研究中提出5或8分钟的延迟CT增强扫描同样具有价值[3,4],并提出将进行前瞻性研究以探讨和验证延迟期影像组学是否可以改善模型性能。

本研究仅运用单中心的数据,对腮腺肿瘤进行良恶性二分类鉴别,就能发到ER,真的太令人羡慕了!


本研究运用了三种机器学习方法构建影像组学模型并进行比较,这在腮腺肿瘤影像学研究领域可能还是比较新颖的,但在其他肿瘤已经是很常见的研究方法了。


所以我们也可以多多思考和积累,或者在其他肿瘤常用且成熟的方法,在自己研究病种中还有运用和进一步创新的空间呢?这样是不是又能写出新的文章了!


好啦,本期的文献分享就到这里啦,影像组学虽然存在框架和套路,但是其中的方法细节经过严谨和认真的设计还是能玩出很多不同结果的!继续跟紧君莲数据库的平鑫而论专栏,我们下期再见~~




参考文献


[1] Huang S, Cai N, Pacheco PP, Narrandes S, Wang Y, Xu W (2018) Applications of support vector machine (SVM) learning in cancer genomics. Cancer Genomics Proteomics 15:41–51

[2] Sanz H, Valim C, Vegas E, Oller JM, Reverter F (2018) SVM-RFE: selection and visualization of the most relevant features through non-linear kernels. BMC Bioinformatics 19:432

[3] Jin GQ, Su DK, Xie D, Zhao W, Liu LD, Zhu XN (2011) Distinguishing benign from malignant parotid gland tumours: low-dose multi-phasic CT protocol with 5-minute delay. Eur Radiol 21:1692–1698

[4] Reginelli A, Clemente A, Renzulli M et al (2019) Delayed enhancement in differential diagnosis of salivary gland neoplasm. Gland Surg 8:S130–S135

          

END

撰文丨小      戴
审核丨鑫仔老师
责编丨小张老师


影像组学列线图预测局部晚期鼻咽癌诱导化疗应答——跟着7+文章学套路



Python社区是高质量的Python/Django开发社区
本文地址:http://www.python88.com/topic/153060
 
228 次点击