Python社区  »  机器学习算法

MIT用深度学习预测乳腺癌患病概率,五年内准确率几乎翻倍!

麻省理工科技评论APP • 3 月前 • 37 次点击  


随着近年来乳腺癌的发病率逐渐上升,在现代医学的众多研究领域中,如何尽早发现和治疗乳腺癌,早已成为了一个十分重要的核心课题。


近日,麻省理工学院计算机科学与人工智能实验室(CSAIL)和马萨诸塞州综合医院(MGH)合作,共同打造了一个新的深度学习模型,可以通过分析乳房 X 光图像,找出人眼不易察觉的特征和规律,从而预测女性是否可能在未来五年内罹患乳腺癌注意:是预测而非诊断


(来源:fda.gov)


训练结果显示,该模型的预测准确率约为31%,远超传统预测方法的18%。研究团队认为,以深度学习驱动的预测系统有望推动新的乳腺癌筛查计划,可以将基于年龄的传统筛查建议,变成基于风险因素的更加科学的个性化筛查建议。


该研究成果以论文的形式发表于期刊 Radiology 上。


不完善的传统筛查建议


乳腺 X 线摄影技术,是目前医疗领域最常用的乳腺癌临床检查方法,经过一个世纪的发展,已被证明可以降低乳腺癌的死亡率。但由于 X 光的强辐射性和乳腺本身的敏感性,业内对筛查频率和何时开始仍有争议。


美国癌症协会建议,所有女性都应该从 45 岁开始进行年度筛查。不过因为每个人的体质和生长环境不同,罹患乳腺癌的风险也不一样,以年龄划分筛查频率过于泛化,很容易错过乳腺癌的早期状态,错失最佳的治疗时机(早期乳腺癌的5年生存率高达 98-100%)。


图 | 乳腺X线摄影技术


在麻省理工学院的研究人员看来,相比采用一刀切的方式,如果能够预测出女性罹患乳腺癌的风险系数,就可以制定更完善的个性化筛查方案,比如让高危人群在 30 多岁时就每年检查一次,低危人群则每三年检查一次,那么或许可以将更多的乳腺癌扼杀在摇篮中,抑制它的发病率增长趋势。


这种预测类型的任务,非常适合使用深度学习技术。实际上,已经有很多关于乳腺癌的研究团队,正在尝试使用人工智能和深度学习,帮助他们诊断乳腺癌(详情请见:神经网络的巧妙组合,乳腺癌诊断准确率竟媲美专业医生)。


与众不同的是,MIT团队想要打造的是预测模型,并非诊断模型。换句话说,当 X 光照片还没有出现乳腺癌的症状时,诊断模型只能给出没有患病的结论,但预测模型应该给出未来一段时间内的患病概率,其难度可想而知。


设计预测模型


研究人员首先联合了美国马萨诸塞州综合医院,获得了超过 6 万名患者的 9 万余张乳房 X 光图像,以及她们是否在 5 年内被诊断出乳腺癌的信息,其中有 2.1 万人没有跟踪检查信息或者出现了其它癌症,因此被排除在外。由于很多女性进行了多次 X 光扫描和跟踪筛查,所以每一次扫描的图像都会被分离出来,成为一个独立的扫描案例。


之后,他们总结出了一系列与乳腺癌和个体有关的风险因素,包括族裔、年龄、体重和身高等基本信息,还有初次月经年龄、乳房密度、是否生产、初次怀孕年龄、是否患有卵巢癌、家族乳腺癌史等高度差异化的信息,甚至精确到家族中患有乳腺癌的是父母,姐妹,还是兄弟。


图 | 神经网络通过细微特征预测是否会出现乳腺癌(来源:MIT)


获得这些精准信息,可以让预测模型考虑的因素更加全面。每一个风险因素都会经过独热编码(one-hot encoding)——一种在机器学习中常见的变量转换机制,可以将某一变量的状态用 0 和 1 组成的二进制向量表示出来——将所有编码整合起来,就组成了一个大的风险因素向量,作为逻辑回归模型(Logistic Regression,预测模型的一部分)的输入值。


在此基础上,研究人员又开发了一套以卷积神经网络(CNN)为核心的图片识别模型,使用的是开源的预训练模型 ResNet-18 。他们并没有根据图片分辨率变化调整模型,而是直接以1664 x 2048 像素的乳房 X 光图片作为输入值。


最后,他们整合了逻辑回归和图像识别两个模型,制作了一个混合模型(Hybrid Model)。结合风险因素和图像信息,该模型开始学习预测五年内是否会出现乳腺癌。


训练和测试结果显示,混合模型的 3-5 年患癌预测准确率约为 31.2%。乍看之下这一数字似乎不够亮眼,但要知道,目前业界主流的Tyrer-Cuzick(TC)乳腺癌风险预测模型,在相同测试中的准确率只有 18.2%,不及麻省理工学院深度学习模型的六成。


图 | 四套模型的准确率(AUC)对比:TC传统模型,逻辑回归模型,图像识别模型和混合模型(来源:MIT/Radiology)


更重要的是,深度学习模型对不同族裔女性的预测准确率相同,而包括Tyrer-Cuzick 模型在内的很多现有模型大多依照白人女性数据建立,对非白人族裔的预测效果较差,可能有超过10%的差距。在深度学习的帮助下,这一误差或将不复存在。


混合模型还发现了一些与现有认知矛盾的现象,比如业界主流声音认为,乳房密度与乳腺癌风险相关,致密型乳房患癌风险较高(原因未知)。


但该模型预测结果显示,存在有致密型乳房的低风险人群,也有低密度乳房的高风险人群,两者患病率相差较大,因此仅凭乳房密度判断患癌风险有失偏颇,可能会影响医疗决策。


图 | 致密型乳房 + 低风险人群患癌率1.4%(左下)VS 低密度乳房 + 高风险人群发病率4.0%(右上)(来源:论文)


仔细分析和比对结果后,研究人员认为这一模型拥有巨大潜力。经过改进的版本有望替代现有的传统乳腺癌风险预测模型,甚至是推动乳腺癌筛查策略的进步,制定更科学的医疗建议。


下一步,他们将着重突破现有研究的局限性,比如收集更全面的患者信息,并且与更多医疗机构合作,拓展 X 光图像的来源,获得不同设备拍摄的 X 光图像,从而更好地改进预测模型的准确率。他们希望有朝一日,可以将其大规模拓展,用来预测心脑血管或胰腺癌等其它疑难疾病。


-End-


参考:

http://news.mit.edu/2019/using-ai-predict-breast-cancer-and-personalize-care-0507

https://pubs.rsna.org/doi/10.1148/radiol.2019182716


Python社区是高质量的Python/Django开发社区
本文地址:http://www.python88.com/topic/32753
 
37 次点击  
分享到微博