Py学习  »  机器学习算法

山大学者这篇文章,你们要看!它是机器学习方法临床应用2026年最集大成者

医学论文与统计分析 • 4 天前 • 53 次点击  

源自风暴统计网:一键统计分析与绘图的AI网站

在医学科研领域,机器学习的应用已经非常普遍了。
  • 传统机器学习在做什么? —— 预测;
  • 医学研究的终极目标是什么? —— 干预,这需要因果推断。
2026年1月21日,山东大学杨宁副教授和邱晨副教授团队在国际数字医学顶级期刊《NPJ Digital Medicine》(一Top,IF=15.1在线发表了一篇究论文,旨在开发并验证一种基于可解释机器学习的临床工具,用于预测颅骨修复手术后的并发症。
研究者通过机器学习构建预测模型,后又开展因果推断,从预测到干,致力于弥合预测模型与临床决策之间的鸿沟。
接下来,我们一起学习一下这篇文章的研究思路吧!

数据准备

这项多中心回顾性队列研究涵盖了在三家独立医院神经外科部门接受颅骨修复手术的所有年龄段患者,最终纳入1368 例有效病例,建立了标准化临床数据库。
  • 训练和内部验证集:789 例。
2015 年 1 月 1 日至 2023 年 7 月 31 日期间在山东大学齐鲁医院和陆军军医大学大坪医院接受颅骨修复手术的患者,通过 5 折交叉验证用于模型训练和内部验证。
  • 地理外部验证集:394 例。
在同一时期在另一家独立的三级医院(空军军医大学唐都医院)接受颅骨修复手术的患者。
  • 时间外部验证集:185 例。
在 2023 年 8 月 1 日至 2025 年 1 月 1 日期间在山东大学齐鲁医院接受颅骨修复手术的患者。
本研究的主要终点指标是颅骨修复手术后患者出现的院内并发症情况。

预测模型构建与评估

1.特征选择
  • 采用了相关性过滤方法来消除冗余,确保所有两两相关系数均低于 0.6;
  • 随后计算了方差膨胀因子VIF以确认剩余变量之间不存在多重共线性;

使用了四种不同的算法进行特征选择:Boruta、Lasso、基于随机森林的递归特征消除(RF-RFE)和遗传算法(GA)最终的特征集是通过确定由所有四种方法选择的变量的交集来确定的,并使用韦恩图进行了可视化。

图a Boruta 算法进行的特征选择过程;图b 韦恩图

来自三个中心的有经验的神经外科医生随后审查了选定的9个特征,并最终确定了预测因子,确保了高度的表面效度和易于实施性。

2.构建机器学习预测模型

研究者共开发了 15 个机器学习模型来预测颅骨修复术后并发症的风险。

包括:广义加性模型(GAM)、逻辑回归(LR)、梯度提升决策树(GBDT)、K 近邻(KNN)、轻量级梯度提升机(LightGBM)、旋转森林(RotF)、极端梯度提升(XGBoost)、朴素贝叶斯(NB)、自适应增强(AdaBoost)、多层感知机(MLP)、支持向量机(SVM)、决策树(DT)、极随机树(ExtraTrees)、高斯过程分类器(GPC)和随机森林(RF)。

为增强模型稳健性并避免过拟合,在模型训练阶段对推导队列进行了5折交叉验证

3.模型比较与最优模型选择

为了选择每种并发症最优的预测模型,综合评估模型性能,本研究创新性地提出了 ABscore 评价指标,其数学公式为:

其中,分别为模型在内部交叉验证集与地理外部验证集上AUROC值与Brier分数的算术平均值。1 - Brier分数用于与 AUROC 的正方向保持一致。

该指标同时兼顾模型的区分度与校准度,赋予两者同等权重(α 是一个权重系数,α=0.5)。为防止过拟合,仅使用内部交叉验证与外部验证的性能指标进行模型比较与选择。

随机森林(RF)模型获得了最高的 ABscore (0.929),优于所有其他算法,并被选为最终模型以进行进一步评估。

 展示了不同机器学习模型的 ABscore比较

4.模型性能评估

模型的最佳概率截断值通过最大化约登指数确定最终 RF 模型预测术后并发症的最佳截断值为 0.366。

对最终选定的模型,从多维度进行了严格评估。

(1)区分能力:采用受试者工作特征(ROC)曲线和精确度-召回率(PR)曲线进行评估

  • 在内部交叉验证中,AUROC 值为 0.949,而在地理外验证队列中为 0.930。

  • 与 AUROC 相一致的是,精确度 - 召回率曲线下的面积(AUPRC)保持较高水平,分别为 0.880和 0.870。

(2)校准度:使用Brier分数和校准曲线,评估最终模型的校准能力。

预测概率与观察结果总体上表现出良好的一致性。在地理外验证队列中,预测风险水平较高的情况下存在轻微的高估现象。

(3)临床效用:决策曲线分析(DCA)用于在不同阈值下评估模型的净效益。

在广泛的阈值概率范围内,该模型始终比“全部干预”和“全不干预”策略提供更大的净收益。

5.在外部验证队列中,进一步评估模型在不同人口统计学亚组中的表现。包括年龄(< 40 岁和≥ 40 岁)和性别(男性、女性)亚组。

结果显示,AUROC值保持在0.92以上,表明模型在不同亚组中均具有良好的判别能力。

亚组校准性能通过观测值与预期值之比(O/E比)的森林图进行评估。模型在不同人群中的预测概率具有良好的一致性。

6.独立时间外部验证集评估模型性能

独立的时间验证队列来评估整体并发症模型的时间泛化能力。

  • 最终的总体并发症模型的 AUROC 值为 0.932,总体准确率为 0.838。

  • 校准分析显示预测风险与实际风险之间有良好的一致性。

  • 决策曲线分析表明,在各种阈值概率范围内均存在明显的临床益处。

  • 亚组分析进一步表明,该模型在不同年龄和性别亚组中的表现稳定。

模型可解释性分析

为解决机器学习模型固有的不透明性问题,本研究采用以下方法。

1.使用 SHAP 方法,来评估全局和个体层面的特征贡献。

贡献值通过平均 SHAP 值量化,并按降序排列。手术时间、颅骨缺损面积和格拉斯哥昏迷评分(GCS)被确定为前三大预测因素。

进一步的局部解释用于说明基于患者特定特征值如何生成个体预测。

2.部分依赖图(PDP)

为了进一步探索特征之间的潜在交互作用,我们生成了一个 SHAP 交互热图。颅骨缺损面积、GCS 和手术时间表现出较高的自交互 SHAP 值。

使用三维(3D)PDP可视化了它们的联合效应。


研究结果表明,格拉斯哥昏迷评分较低以及颅骨缺损面积较大与术后并发症的预测风险升高存在关联。这种影响在手术时间较长的患者中比在手术时间较短的患者中更为显著。

因果推断

了研究可调节手术因素对术后并发症的潜在因果关联,采用了两步法。

1.反事实模拟

在我们的模型中,在颅骨成形术中使用皮下负压(N-P)引流和钛网与较低的术后并发症预测风险相关。

为了检验这些因素的变化是否会影响模型的预测结果,我们使用 DiCE(多样性反事实解释:模拟改变某一可操作变量的情景,并探究此类变化是否会影响模型预测的并发症风险) 方法进行反事实分析。

结果表明,单独改变引流方法或颅骨修复材料足以使某些患者中的高风险预测转变为低风险结果。

2.因果效应量化

应用因果推断方法来量化这些变量的影响。

(1)使用双重机器学习(DML) 估计平均处理效应(ATE),量化某一干预(如使用钛网)对整体人群并发症风险的平均因果影响。

结果显示,NP 引流和钛网均与降低预测的并发症风险相关,其平均治疗效应(ATE)分别为 -0.241(95%CI:-0.35 至 -0.132)和 -0.191(95%CI:-0.341 至 -0.041)。

(2)采用 T-learner 框架估计不同患者亚组的条件平均处理效应(CATE),分析同一干预在不同患者亚组(如不同年龄、性别)中效果的异质性。

在大多数年龄和性别亚组中,钛网和 NP 引流均显示出保护作用。然而,在 40 岁以上的男性中,NP 引流的估计 CATE 超过了零(CATE = 0.009),表明该亚组中没有保护效果。

最后,进行了敏感性分析以评估因果估计的稳健性。

基于网络的应用程序

整体模型和特定并发症模型被整合到一个基于网络的应用程序中,该应用程序包含八个预测模块。用户可以在相关模块下输入所需特征值,应用程序将自动计算并显示所选并发症的预测风险。

该网络应用程序可在以下链接在线访问:

http://www.cranioplastycomplicationprediction.top/

总结

可以看到这篇文章还挺复杂的,我们把文章中主要的方法以及对应的结果都展示了出来,便于诸位学习。
这篇文章以临床问题驱动,聚焦于颅骨成形术这一并发症高发但缺乏精准预测工具的临床场景,研究目标直接服务于临床决策优化与患者风险管理,这是开发预测模型应该有的初衷。
研究成功构建了 “预测-解释-因果推断-决策支持” 的完整研究闭环。不仅实现了高精度预测,更通过SHAP、PDP提升了模型透明度,并创新性地引入因果机器学习(DiCE, DML, T-learner)探究可干预因素,将分析深度从“关联”推向“因果”。
另外,研究采用多中心回顾性队列设计,样本量充足,利用内部交叉验证、地理外部验证、时间外部验证三重验证框架,全面评估了模型的泛化能力,结论可靠性强,最后还开发了用户友好的网页工具,促进了研究成果向临床实践的快速转化,便于临床应用,预测模型思路非常完整
研究还公开了代码,并且将核心方法学转化为一个通用的方法学框架平台利于同行验证与扩展应用。
感兴趣的朋友可以从下面的网址进入平台。
https://surgical-complication-risk-prediction.streamlit.app/
这篇文章是非常值得学习的,不过瘾可以再看看原文。
参考文献:Li, W., Wang, B., Li, T. et al. A Causal and interpretable machine learning framework for postcranioplasty risk prediction and surgical decision support. npj Digit. Med. (2026). https://doi.org/10.1038/s41746-026-02370-6
【感谢阅读浙中大郑老师团队撰写的统计文章】


最后,如果你有兴趣参加因果推断+机器学习,也可以联系郑老师团队,我们正在开展“机器学习因果推断”的训练营


Python社区是高质量的Python/Django开发社区
本文地址:http://www.python88.com/topic/192344