欢迎来看雪球讲套路、讲文献!大家的研究进程有没有被SEER禁用事件影响?变动时期,雪球建议大家加快分析,做多手准备。——说到加快分析,大家想必第一时间能联想到机器学习;至于做多手准备,今天这篇文献也能给出一种回答。
这篇来自eClinicalMedicine(IF=9.6,柳叶刀子刊,双一区Top)的文章,三个月从投稿到接收,咱们来好好分析一下。
想get同款思路,加速发文?多手准备?
可添加雪球 回复“个性化”咨询
Development and validation of an explainable machine learning model for mortality prediction among patients with infected pancreatic necrosis
可解释机器学习模型在感染性胰腺坏死患者死亡风险预测中的开发与验证
期刊:eClinicalMedicine
IF:9.6
发布时间:2025/01/22
研究前证据:使用 PubMed、Scopus 和 Medline 进行了广泛的文献检索,重点关注截至 2024 年 11 月 20 日发表的研究。使用搜索词 “pancreatitis”、“machine learning” 和 “mortality”,排除了 9 项采用机器学习预测急性胰腺炎患者死亡率的队列研究。最终,仅确定了一项利用机器学习预测感染性胰腺坏死患者死亡率的研究,且该研究受到其回顾性、单中心设计的限制,缺乏外部验证。此外,机器学习模型缺乏解释和部署。
附加价值:据团队所知,这是首次且最大规模的针对感染性胰腺坏死患者的死亡率,比较10种机器学习模型,并开发一个具有最佳预测性能的可解释机器学习模型的研究。(10种机器学习算法都专门基于生存分析)此外,本研究还首次提供了两个可公开访问的网络工具,以促进基于机器学习的感染性胰腺坏死死亡率预测模型的临床应用。
研究设计与人群选择:
确定了两个不同的数据集,一个用于模型开发(推导队列),一个用于模型验证(外部验证队列)。
数据预处理和候选变量选择:
收集了31个基于数据可用性和临床知识的候选变量,涵盖人口统计学、临床和治疗及并发症相关属性。
模型和特征选择:
通过基准测试,随机生存森林(RSF)模型展现出最佳的预测性能。采用序贯前向选择方法确定了包含10个特征的最佳特征子集。
模型构建和验证:
最终RSF模型在推导队列和外部验证队列中均展现出优秀的性能,C-index分别为0.863和0.857,表明模型具有良好的判别能力。
模型解释和部署:
利用SHAP方法对模型进行解释,确定了与死亡风险增加相关的9个最重要的预后特征,并揭示了这些特征之间的非线性交互作用。最终模型被部署为交互式基于网络的Shiny应用程序,提高了模型在临床环境中的实用性。
Fig 2 10个基于C指数(A)和Brier评分(B)的机器学习模型选择
Fig 3 随机生存森林模型与最佳特征集在训练队列(A, B, C)和外部验证队列(D, E, F)的表现
Fig 4 结合训练队列中所有特征的随机生存森林模型的SHAP摘要图
Fig 5 基于训练队列中主要 SHAP 值的前 9 个重要特征的 SHAP 依赖图
Fig 7 基于训练队列中交互 SHAP 值的 9 个特征对的 SHAP 依赖图
这篇机器学习+SHAP+Shiny套路组合的正文部分就拆完了。现在再来说说中提到的模型部署。
比起一般的模型建立,该研究多了一步模型解释和模型在线部署;比起一般的模型在线部署仅提供一个网页,该研究还开发了一个替代方案。真是你不上分谁上分!
考虑到收集 APACHE II 评分所需的所有变量可能具有挑战性,并且可能会限制模型的临床适用性,开发没有APACHE II 评分系统的替代在线模型。两个在线交互模型网址都包含shinyapps,表示其为借助shiny方法搭建。
生信分析/临床数据挖掘套路千千万,如果有体系化的方法论支持,脚踏实地的实操复现练习,我们都可以一步步将其转化为自己的科研实力。现在有一个既能达到医学硕博毕业要求、又能内化科研实力的蜕变机会——硕博学位陪跑计划,推荐给为毕业升学发愁的你!
专属教练1v1指导 | 独家量身定制科研成长蓝图 | 不限基础与年龄
添加雪球回复“硕博”咨询
假如你已经不需要忧心硕博毕业的问题,也可以找雪球陪跑科研SCI。想迈出科研发文第一步,可以来;想冲刺个人代表作,可以来;想丰富基金申请前期背景,可以来......添加雪球,回复“个性化”定制吧!
✅立足科研 守正创新
✅上下限跨度广
✅适合优化分析/进阶分数段/丰富前期背景等需求
✅涵盖众多实用创新套路
✅量身定制,绝无量产,绝不敷衍