最近有小伙伴反映收不到推送,因为公众号改了推送算法,现在需要加星标,多点赞、点在看,才能准时收到推送哦。
导语 :胰腺癌是一种侵袭性疾病,通常出现较晚,预后较差,这表明需要早期发现。
作图丫不仅文章解读的好,课题做得也出色,已与国内多家知名医院的老师和名牌大学实验室达成合作。欢迎有生信分析需求的老师垂询,公共数据库数据挖掘或自测数据分析均可。

今天小编为大家带来的这篇文章,作者培训了机器学习模型,涉及临床历史中疾病代码的顺序,并在增量时间窗口(Cancerrisknet)内测试了癌症发生的预测。文章发表在《nature medicine》上,文章题目为:A deep learning algorithm to predict risk of pancreatic cancer from disease trajectories。

图 1
本研究包括丹麦600万患者(24000例胰腺癌病例)(丹麦国家患者登记处(DNPR))和美国300万患者(3900例)(美国退伍军人事务部(US- va))的临床数据。本研究使用了来自DNPR的疾病轨迹,以及来自中央人口登记处(CPR)的人口统计信息。全民健康保险覆盖约860万患者,医院诊断2.29亿例,平均每位患者有26.7个诊断代码。对于训练,本研究使用了国际疾病分类(ICD)诊断代码的轨迹,直到ICD层次结构中的三个字符类别,并为1977年1月至2018年4月的每个医院接触提供了明确的时间戳,经过标准过滤,共有620万患者,包括23,985例胰腺癌病例(图2a,b,d)。

图 2
为了在另一个医疗保健系统中进行验证,本研究同样使用了来自US-VA CDW的1999年至2020年的纵向临床记录,该数据库集成了全国范围内的电子病历和癌症登记数据(图2a,c,e)。对于训练,本研究使用了来自选定数据集的轨迹,该数据集共有300万患者,包括3,864例胰腺癌病例。平均而言,US-VA数据集中的健康记录较短(US-VA的中位数为12年,而DNPR的中位数为23年),但疾病史更为密集(US-VA的中位数为每位患者188条,而DNPR的中位数为22条)。这些差异可能反映了人口(丹麦的全体人口与美国退伍军人)和医疗保健系统实践(如转诊、文件和账单)的差异。
本研究使用接收器操作特征(AUROC)和相对风险(RR)曲线下的区域在DNPR中训练的不同模型的预测性能(图3)。所有绩效指标均基于将每个训练有素的风险评估模型应用于测试集的基础。
在训练和超参数搜索过程中,严格扣留了测试组。在测试集中不同类型的ML模型的最终性能评估中,该模型明确使用和编码疾病代码的时间顺序(即GRU和Transformer)由AUROC最高(图3a,b)。为了预测评估日期的3年(风险预测日期),Transformer模型的性能最佳,其次是GRU(AUROC = 0.852(0.850-0.854) )。
图 3
为了更好地直观了解将模型应用于实际情况的影响。本研究还报告了ML模型预测的高危组癌症患者的RR评分(图3b、d、f、h)。RR评分在给定的操作决策点定义。这是评估预测方法比随机模型做得更好的因素。Transformer模型36个月预测区间的RR(含时间序列)为104.7,在一个由100万患者中n = 1,000名最高风险患者定义的操作点(最高风险0.1%;符号:N1000)。
为了评估该模型在其他医疗保健系统中的预测性能,本研究将在丹麦数据集上训练的最佳ML模型应用于美国va数据集中患者的疾病轨迹,除了将ICD代码从一个系统映射到另一个系统外,没有进行任何调整。评估后36个月内癌症发生的预测性能,从丹麦训练的Transformer模型应用于DNPR患者数据(测试集)的AUROC为0.879 (0.877-0.880),RR = 104.6,下降到应用于US-VA患者数据的相同模型的AUROC为0.710 (0.708-0.712),RR = 57.4(图4b)。与丹麦相比,两种系统之间输入数据最显著的差异是US-VA轨迹中的疾病史更短、更密集(图2b,c)。

图 4
由于在US-VA数据集上测试丹麦衍生模型时性能下降,本研究从零开始在US-VA数据集上训练和评估模型。对于独立训练的模型,其性能明显高于交叉应用,对于36个月内发生的癌症,测试集AUROC为0.775(0.772-0.778),在N1000操作点(最高风险0.1%)的RR = 80.4(图4c)。在两个医疗保健系统中,独立训练模型的表现差异可能部分是由于医疗和报告实践或人口统计数据的差异,包括不同的年龄和性别分布。
本研究提出了一个框架,通过将深度学习应用于真实世界的疾病轨迹纵向数据集,来预测低发病率但非常具有侵袭性的癌症的风险。本研究旨在明确使用疾病事件的时间序列,并评估用于风险预测的疾病轨迹结束和癌症发生之间的间隔增加的预测癌症风险的能力。研究结果表明,将病史中的时间序列作为模型的输入,而不仅仅是任何时间的疾病发生,可以提高AI方法预测胰腺癌发生的能力,特别是对于最高风险组。
码字不易,欢迎读者分享或转发到朋友圈,任何公众号或其他媒体未经许可不得私自转载或抄袭。由于微信平台算法改版,公众号内容将不再以时间排序展示,建议设置“作图丫”公众号为星标,防止丢失。星标具体步骤为:(2)点击右上角的小点点,在弹出界面选择“设为星标”即可。