戴正行,胡春洪,王希明,陈琦,夏菁,姚柳,刘稳. 基于DenseNet网络深度学习法CT图像人工智能分析技术判断肺结节良恶性[J].放射学实践,2020,35(4):484-488. DOI:10.13609/j.cnki.1000-0313.2020.04.017
【摘要】目的:通过与单纯人工阅片进行比较,探讨基于DenseNet网络深度学习的人工智能肺结节自动检测系统鉴别肺结节良恶性的价值和优势。方法:搜集2015年1月-2017年12月本院510例肺结节CT检查病例,由医师组(按照从事胸部CT诊断的年限分为高级医师组和初级医师组)和人工智能组(基于DenseNet网络深度学习的人工智能系统)分别对所有肺结节进行良恶性的诊断,以病理结果为金标准,分别统计各组在不同大小肺结节(直径≤10mm、10mm<直径≤20mm以及直径>20mm)良恶性诊断上的敏感度、特异度及符合率,并通过卡方检验进行统计分析。结果:在510例肺结节的诊断中,人工智能组诊断敏感度(93.14%)与高级医师组(91.14%)间差异无统计学意义(P>0.05),与初级医师组(61.43%)间的差异具有统计学意义(P=0.000);而诊断特异度(95.63%)及符合率(93.92%)均高于医师组(初级56.25%、59.80%;高级58.75%、80.98%),差异均有统计学意义(P=0.000)。在≤10mm的肺结节中,人工智能组的诊断敏感度、特异度及符合率均高于高级医师组(90.38%,92.96%,91.43%;78.85%,64.79%,73.14%;所有P=0.000);在10mm<直径≤20mm和直径>20mm肺结节组中,人工智能组的诊断敏感度(92.25%,97.12%)与高级医师组(95.77%,97.12%)间的差异均无统计学意义(P=0.211和1.000),但诊断特异度(98.33%,96.55%)及符合率(94.06%,96.99%)均高于高级医师组(51.67%,58.62%;82.67%,88.72%),差异均有统计学意义(P<0.05)。在不同大小的三组结节中,人工智能组的诊断敏感度、特异度及符合率均高于初级医师组(敏感度:90.38%vs. 17.31%,92.25%vs. 70.42%,97.12%vs. 93.27%;特异度:92.96%vs. 85.92%,98.33%vs. 43.33%,96.55%vs. 10.34%;符合率:91.43%vs. 45.14%,94.06%vs. 62.38%,96.99%vs. 75.19%),除两组在≤10mm肺结节中的诊断特异度(P=0.361>0.05)和>20mm肺结节中的诊断敏感度(P=0.211>0.05)的差异无统计学意义外,其它指标的组间比较均有统计学意义(P均<0.05)。结论:相较于人工诊断,应用人工智能(DenseNet网络深度学习)技术对肺结节的良、恶性进行诊断具有良好、可靠的诊断准确性。
【关键词】体层摄影术,X线计算机;人工智能;DenseNet网络;深度学习;肺结节
【中图分类号】R814.42;R734.2
肺癌是危害人类生命健康的最常见恶性肿瘤之一。早期疾病筛查是降低肺癌死亡率的重要手段。计算机辅助诊断系统(computer aided diagnosis,CAD)是近年来应用于肺结节筛查的新技术应用,可辅助放射科医师更好地检出微小肺结节,在一定程度上可避免对可疑肺结节的漏诊[1-3]。随着人工智能(artificial intelligence,AI)技术的进步,通过深度学习算法能够提取影像图像上肺结节的主要特征,对病变性质等进行预测[4-5]。本文旨在探讨基于DenseNet网络深度学习算法的人工智能诊断系统对肺部肿瘤的诊断价值。
材料与方法
1、临床资料
回顾性分析2015年1月-2017年12月在苏州大学附属第一医院就诊的510例孤立性肺结节患者的病例资料。所有患者于术前行CT扫描,并经手术切除或穿刺活检获得病理诊断结果。入组标准:(1)肺内孤立性结节,不伴有肺不张、胸腔积液等表现;(2)CT检查前未接受过穿刺活检和手术、放疗等相关治疗;(3)CT检查后一个月内行CT引导下穿刺活检或手术,获得明确的病理诊断;(4)有完整的临床病历记录和CT影像资料。排除标准:(1)缺乏1mm及以下薄层CT图像;(2)CT图像中存在影响结节观察的运动伪影或金属伪影。510例中男233例,女性277例;年龄20~82岁,平均(58.29±10.71)岁;良性病变160例,恶性病变350例。
2、CT检查方法
所有患者行胸部CT平扫。使用GELight-speed 16层螺旋CT、SiemensSomatom Sensation 64层螺旋CT和SiemensSomatom Definition双源CT进行扫描。扫描范围自肺尖至肺底水平,扫描参数:层厚5.0~7.0mm,层距8.0mm,管电压120kV,管电流110~450mAs。扫描结束后对病灶部位行肺窗薄层CT重建,层厚0.75~1.00mm。
3、AI图像分析与处理
对510 例患者肺结节CT图像序列提取结节2D图像。采用“取标注点最相近五层”的方法切割CT图像,以候选位置为中心获取图像块,提取横轴面、矢状面和冠状面图像。考虑到大部分结节大小,选择每个图像块感受野大小为64×64。截取CT值为-1000~400HU,并将它们归一化到0~1,然后减去平均灰度值,来适应网络。共获得样本7570个,包括恶性样本5200个,良性样本2370个。随机选取2370个恶性样本,与2370个良性样本一起作为分析数据集,并分为2组数据:训练数据(包括恶性样本
2133个,、良性样本2133个)和测试数据(恶性样本237个,良性样本237个),使用DenseNet-BC网络,通过十折随机实验对所有样本进行训练及测试,得出510例肺结节的良恶性判别结果。AI组应用DenseNet网络的相关参数见表1。
表1 DenseNet-BC网络参数
层名 | 输出大小 | DenseNet网络 |
Convolution | 32×32 | 7 × 7 conv, stride 2 |
Pooling | 16×16 | 3 × 3 max pool, stride 2 |
Dense Block | 16×16 |
|
Transiton Layer | 16×16 | 1 × 1 conv |
8×8 | 2 × 2 average pool, stride 2 |
Dense Block | 8×8 |
|
Transiton Layer | 8×8 | 1 × 1 conv |
4×4 | 2 × 2 average pool, stride 2 |
Dense Block | 4×4 |
|
Classification Layer | 1×1 | 2 ×2 global average pool fully-connected, soft-max |
4、图像分析和诊断
采用2种方式对图像进行分析和诊断。(1)医师组采用单纯人工阅片(artificial reading,AR)方式。由2位从事胸部CT诊断工作满2年的住院医师组成初级医师组(AR1组)、2位从事胸部CT诊断工作满5年的医师组成高级医师组(AR2组),分别采用双盲法对510例患者的胸部
CT图像进行独立诊断,如组内两位医师的诊断有分歧,则经过讨论达成一致意见。医师组通过肺结节的影像特征来进行良、恶性的判断,主要观察征象包括结节大小、密度、形态、边缘以及含气支气管征等。(2)AI组(深度学习):将510例患者的肺结节CT图像输入至由中国科学院苏州生物医学工程技术研究所(苏州医工所)基于DenseNet网络开发的AI系统中,通过网络学习自动提取结节特征,并通过特征对结节进行分类归纳,最终获得对肺结节良、恶性的判断。
5、统计学方法
使用SPSS17.0软件进行统计分析。计数资料在统计分析之前,对所有数据进行加权,判断数据是否满足统计检验中对样本量的要求。若满足样本量大、任一预测频数>5,采用卡方检验进行组间比较;若不满足上述要求(如预测频数<5),则采用Fisher精确检验。分析医师组(初级、高级)及AI组对510例良、恶性肺结节的诊断敏感度、特异度和符合率等并进行比较。以P<0.05为差异具有统计学意义。
结 果
初级、高级医师组和AI组对510例肺结节的诊断结果及组间比较见表2。AI组中仅诊断敏感度与高级医师组间的差异无统计学意义(P>0.05),其它诊断指标值均高于2个医师组,差异均具有统计学意义(P<0.05)。
表2三组中对510例肺结节的诊断结果及组间比较
诊断指标 | AI组 | AR1组 | AR2组 | AI组vs. ARI组 |
| AI组vs.AR2组 |
| ARI组vs. AR2组 |
χ2值 | P值 |
| χ2值 | P值 |
| χ2值 | P值 |
敏感度 | 93.14% | 61.43% | 91.14% | 100.265 | 0.000 |
| 0.967 | 0.325 |
| 85.411 | 0.000 |
特异度 | 95.63% | 56.25% |
58.75% | 67.879 | 0.000 |
| 61.778 | 0.000 |
| 0.205 | 0.651 |
符合率 | 93.92% | 59.80% | 80.98% | 166.905 | 0.000 |
| 38.915 | 0.000 |
| 54.868 | 0.000 |
根据肺结节的直径(D),将510个病灶进一步分为3组:A组175例,D≤10mm;B组202例,10mm;C组133例,D>20mm。
初级、高级医师组和AI组对直径≤10mm结节的诊断结果及组间比较见表3。三组间两两比较,敏感度和符合率的差异均有统计学意义(P<0.05)。高级医师组的特异度低于低级医师组(P<0.05)。初级医师组与AI组的诊断符合率相近(P>0.05)。直径≤10mm的肺结节缺乏较典型的影像学表现,以下3个病例在初级医师组和高级医师组中均诊断为良性,AI组不但准确诊断为恶性结节,并分别精确到原位癌、微浸润性癌及浸润性癌的诊断(图1a~c)。
表3 三个诊断组对直径≤10mm结节的诊断结果及组间比较
诊断指标 | AI组 | AR1组 | AR2组 | AI组vs. ARI组 |
| AI组vs.AR2组 |
| ARI组vs. AR2组 |
χ2值 | P值 |
| χ2值 | P值 |
| χ2
值 | P值 |
敏感度 | 90.38% | 17.31% | 78.85% | 111.738 | 0.000 |
| 5.318 | 0.021 |
| 78.886 | 0.000 |
特异度 | 92.96% | 85.92% | 64.79% | 1.864 | 0.172 |
| 16.905 | 0.000 |
| 8.531 | 0.003 |
符合率 | 91.43% | 45.14% | 73.14% | 86.56 | 0.000 |
| 20.072 | 0.000 |
| 28.389 | 0.000 |
三个诊断组对结节直径>10mm且≤20mm的诊断结果及组间比较见表4。AI组除了诊断敏感度与高级医师组之间无明显差异(P>0.05)之外,其它指标均高于高级医师组和初级医师组(P<0.05)。高级医师组的诊断特异度稍高于低级医师组(51.67%vs. 43.33%),但差异无统计学意义(P>0.05);而敏感度及符合率均显著高于初级医师组(P<0.05)。
表4 三个诊断组10mm<直径≤20mm结节的诊断结果及组间比较
诊断指标 | AR1组 | AR2组 | AI组 | ARI组vs. AR2组 |
|
AI组vs. ARI组 |
| AI组vs. AR2组 |
χ2值 | P值 |
| χ2值 | P值 |
| χ2值 | P值 |
敏感度 | 70.42% | 95.77% | 92.25% | 32.492 | 0.000 |
| 22.292 | 0.000 |
| 1.564 | 0.211 |
特异度 | 43.33% | 51.67% | 98.33% | 0.835 | 0.361 |
| 43.926 | 0.000 |
| 34.844 | 0.000 |
符合率 | 62.38% | 82.67% | 94.06% | 20.881 | 0.000 |
| 59.507 | 0.000 |
|
12.737 | 0.000 |
三个诊断组对直径>20mm肺结节的诊断结果及组间比较见表5。直径>20mm的肺恶性结节具有较典型的影像学表现(图2a~c),3组的诊断敏感度比较接近,在三组间两两比较差异均无统计学医院(P>0.05)。在诊断特异度及符合率方面,均表现为AI组>高级医师组>初级医师组,且组间差异均有统计学意义(P<0.05)。表5 三组对直径>20mm肺结节的诊断结果
诊断指标 | AR1组 | AR2组 | AI组 | ARI组vs. AR2组 |
| AI组vs. ARI组 |
| AI组vs. AR2组 |
χ2值 | P值 |
| χ2值 | P值 |
| χ2值 | P值 |
敏感度 | 93.27% | 97.12% | 97.12% | 1.684 | 0.195 |
| 1.684 | 0.195 |
| 0 | 1.000 |
特异度 | 10.34% | 58.62% | 96.55% | 14.958 | 0.000 |
| 43.309 | 0.000 |
|
11.997 | 0.001 |
符合率 | 75.19% | 88.72% | 96.99% | 8.236 | 0.004 |
| 26.402 | 0.000 |
| 6.858 | 0.009 |
图1 直径<10mm肺结节的薄层CT 图像。 a)右上肺原位癌,AI组诊断正确,而初级和高级医师组均误诊为良性结节;b)右上肺微浸润性癌,AI组诊断正确,而初级和高级医师组均误诊为良性结节;c)左上肺浸润性癌,AI组诊断正确,而初级和高级医师组均误诊为良性结节。
图2 直径>20mm肺结节的薄层CT 图像,3组均诊断为恶性结节,与病理诊断相符。a))右上肺原位癌;b)右上肺微浸润性癌;c)右上肺浸润性癌。
讨 论
肺结节是指肺内直径≤3cm的类圆形或不规则形病灶,影像学表现为密度增高影,边界清晰或不清晰[6]。根据肺结节的密度,可分为实性、亚实性和磨玻璃密度结节三类。不同密度的肺结节,其为恶性的概率有所不同,其中以亚实性结节为恶性的概率最高。目前对肺结节的检出主要采用影像学手段(以胸部CT为主)。在人工阅片中,放射科医师根据自己的理论知识及实践学习对肺结节进行诊断,当常见的恶性征象(如分叶、毛刺、胸膜牵拉凹陷、含气支气管征和小泡征、偏心性厚壁空洞等)出现时,肺结节可被诊断为恶性病变[7-8]。然而,对于直径较小、上述恶性征象未见明确显示的肺结节,判断其良恶性的难度加大,常出现漏诊和误诊。虽然人工智能技术(DenseNet网络深度学习)对于CT图像的解读也是在对既往病例进行对照、学习的基础之上,但它可以在短时间内对大量数据进行处理和学习,并能够对人眼所不能观察到的影像征象进行学习。本研究中单纯人工阅片(影像医师)对160例良性肺结节的诊断符合率不足60%(分别为初级医师56.25%、高级医师58.75%),对于边缘清楚、边界光滑、密度均匀等具有典型良性表现的结节的诊断可能没有问题,但对于一些具有毛刺、分叶等征象的结节,人工阅片方式有一定的局限性,尤其是对于直径≤10mm的恶性肺结节的诊断准确率不高(分别为初级医师17.31%,高级医师组为78.85%)。笔者认为导致上述结果的主要原因是由于细小的恶性结节缺乏特征性影像表现,定性诊断存在一定难度,并且人工阅片依赖于诊断者的经验等主观因素,而人工智能技术不仅可以在短时间内通过大量学习来自动总结分析肺结节的判断特征,相对于人工阅片方式而言更为客观,因此对不同直径结节的良、恶性判断均能达到较高的准确性。本研究结果显示,在10mm<直径≤20mm和直径>20mm两组结节中,高级医师组与AI组诊断敏感度的差异无统计学意义(P>0.05)。笔者认为主要原因是随着结节的增大,恶性结节的影像征象趋向明显、典型,较初级医师更有经验的高级医师的检出敏感度增高,而AI组同样具有良好的诊断敏感度。虽然高级医师组对直径>20mm结节的诊断符合率与AI组间的差异无统计学意义(P>0.05),但其特异度不及AI组,可见AI组在对结节良恶性的判断上是优于医师组的。基于上述结果,我们可以推演,AI在大范围的肺部CT体检中较人工阅片方式具有更大的优势,可以减少假阳性率。目前,人工智能已成为国内外医疗领域的研究热点。2017年,刘士远团队的一项相关研究结果显示,基于深度学习的人工智能技术较高年资医师能更加有效地检出肺部的亚实性结节,而且耗时更短(仅17s),远低于影像医师组的50min 24s[9]。Setio
等[10]应用深度学习卷积网络对提取的888例肺结节的CT图像进行分类判断,其敏感度高达85%。Cicero等[11]对35000多张胸部X线平片应用深度学习卷积网络进行分析,结果显示AI技术对肺部常见病变(如肺实变、气胸和胸腔积液等)均显示出较高的敏感度和特异度(均达到70%以上),表现出良好的临床应用潜能。
总而言之,应用基于深度学习的人工智能技术可以有效地辅助影像医师对肺结节进行更加准确、可靠的诊断,缩短诊断时间,提高影像医师的工作效率。
参考文献:
[1] 鄂林宁, 马大庆. 肺内小结节的影像诊断和处理[J]. 中华放射学杂志. 2009, 43(3): 332-334.
[2] 唐威, 王建卫, 吴宁, 等. 计算机辅助检测系统在低剂量肺癌筛查结节检出中的应用价值[J].中华放射学杂志, 2012, 46(7): 619-623.
[3] 王晓华, 马大庆. 计算机辅助诊断在肺结节中的应用进展.中华放射学杂志[J]. 2006, 40(4):443-445.
[4] HintonGE, Osindero S, Teh YW. A fast learning algorithm for deep belief nets[J].Neural Comput, 2006, 18(7): 1527-1554.
[5] LeCunY, Bengio Y, Hinton G. Deep learning[J]. Nature, 2015, 521(7553): 436-444.
[6] Hansell DM, Bankier AA, MacMahon H, et al. Fleischner Society: glossary of terms for thoracic imaging[J].Radiology, 2008, 246(3): 697-722.
[7] 奚日泉, 谢道海, 胡春洪, 等. 45例肺结节CT扫描灶周影像研究[J]. 临床放射学杂志, 2000, 19(4): 260-261.
[8] 李辉, 阚晓婧, 宁培刚, 等. HRCT常见恶性征象对孤立性肺结节的定性诊断[J]. 放射学实践, 2014, 29(12): 1405-1408.
[9]刘凯, 张荣国, 涂文婷, 等. 深度学习技术对胸部X线平片亚实性结节的检测效能初探[J]. 中华放射学杂志, 2017, 51(12): 918-921.
[10]Setio AA, Ciompi F, Litjens G, et al. Pulmonarynodule detection in CT images: false positive reduction using multi-viewconvolutional networks[J]. IEEE Trans Med Imaging, 2016, 35(5): 1160-1169.
[11]Cicero M, Bilbily A, Colak E, et al. Training and validating a deepconvolutional neural network for computer-aided detection and classification ofabnormalities on frontal chest radiographs[J]. Invest Radiol. 2017,52(5): 281-287.
(收稿日期:2019-06-30,修回日期:2019-10-27)