不进阶到AI的机器学习套路还有出路吗？8+SCI指路，带上SHAP解释就稳了！

对热点资讯别只看热闹，

会看门道了，新选题也出来了。

大家最近把DeepSeek热点消化得怎么样？本地部署或者在线体验的R1模型，给出让你满意的答案了吗？科技“新玩具”固然好玩，别忘了科研节奏。有个生信能用的热点，跟DeepSeek R1推理模型关联还挺大，也还属于蓝海期，对临床医生尤其友好，想不想跟？

先确保你手里有秘籍！

添加雪球，回复“DeepSeek干货”通通收藏！

人工智能除了是机器学习套路的一个进阶，我想不到什么咱们生信能直接搭上的东西了......还是得发几个人工智能模型相互比较的Letter吗？风口恐怕消失得很快吧。

咱们透过现象看本质。你看关于推理模型公开思考过程的报道是不是比较多？这说明大家对模型及其分析结果的解释，处在高需求的阶段。聚焦在生信研究领域，也一样。

比如你建立一个预后预测模型，预测效能很优秀。但每个指标都是平等权重，贡献相同的吗？哪些指标出了大头，哪些指标在“摸鱼”，贡献不高，哪些指标的变化和整体评分的变化是负相关的呢？咱们通过进一步研究，公布这些结果，你想这个模型工具是不是用起来也更舒心。

所以，乘着人工智能思考过程披露的东风，我们再来看看机器学习的模型解释——SHAP分析吧！

下滑继续看

机器学习+SHAP超强干货

想get同款思路

可添加雪球后回复“个性化”咨询

Interpretable machine learning model for new-onset atrial fibrillation prediction in critically ill patients: a multi-center study

用于危重患者新发心房颤动预测的可解释机器学习模型：一项多中心研究

期刊：Critical Care

IF：8.8

发布时间：2024/10/29

技术路线

数据筛选与提取：

使用重症监护医学信息市场（MIMIC）的两个不重叠数据集，MIMIC-IV用于训练，MIMIC-III子集用作外部验证。

使用结构化查询语言（SQL）提取首个24h内进入ICU的患者数据，使用KNNImputer方法插补缺失数据。

变量包括：人口统计学信息、合并症、实验室指标、生命体征和干预措施。

根据路线图中所示方法进行数据排除。

主要结局：ICU入住第一天后发生的新发心房颤动（NOAF），由护士床边记录的心率状态定义。

机器学习模型构建：

使用LASSO回归进行特征选择。

使用8种机器学习算法构建预测模型，包括XGBoost, SVM, Adaboost, MLP, NN, NB, LR和GBM。

根据ROC曲线的最大AUC确定最优模型，并采用决策曲线分析（DCA）和校准曲线证明真正的临床效用。

生成临床影响曲线（CIC），确定模型的最佳阈值概率。

模型化特征解释和个体案例预测：

通过SHAP方法达成。

了解模型的决策过程，使用特征递归消除进一步过滤变量，布置模型的简化版本。

优化模型在线部署：

使用shiny搭建了优化后的在线风险计算器，进一步提高了可访问性和实用性。

网站：7kdtqk-guanchengcheng.shinyapps.io/noaf3/

研究结果

Fig 2 基于LASSO回归的变量筛选

Fig 3 机器学习模型的ROC曲线

Fig 4 模型的校准能力和临床益处

Fig 5 使用SHAP可视化解释机器学习模型

像LASSO回归、各种临床意义图表

我们应该都比较熟了，

今天就主讲这个SHAP解释。

经过一系列模型建立与筛选验证，选出XGBoost模型为预测NOAF的最佳模型，在确定最佳模型的基础上，对最佳模型进行解释。（所以，Fig 5展示的是XGBoost模型的解释结果。）

为啥只解释最佳模型呢，我每个模型都解释一下看看为啥其他的没那么好，不行吗？

原因可以一句话：“费力不讨好”。如果你问计算机大佬，ta可能回答你说SHAP是用在模型解释阶段的，而模型解释阶段要晚于模型选择；如果你问一个在一线看病的临床医生，ta会告诉你没时间看那么多模型，只需要最好的，能立刻拿来用。ta还会说，能方便对患者解释，为什么医生这样做预测，就更好了。

SHAP解释，就在走这一步“就更好了”。这也是目前包含SHAP解释的生信文献分数普遍较高（常见于8+）的原因之一。

根据判断结果，倒推来读SHAP蜂群图（Fig 5A）：驱动该预测模型的关键因素，在于年龄、机械通气、尿量、脓毒症、BUN、SpO2、CRRT 和体重。

写在模型指标右侧的数字为平均SHAP值，其大小反映了特征对模型的贡献程度，但不能看出是正面或负面影响。

这就要结合蜂群图的颜色和正负坐标轴了。比如慢性肝脏疾病这一行，属于二分法，有→特征值高→深紫色，无→特征值低→黄色，没有渐变的中间颜色且清晰分布于坐标轴两侧，说明特征值低时模型预测的概览高，是负相关的。其他特征中不乏淡紫色的中间值，暗示特征与SHAP值的非线性关系。

Fig 5B则是以一例患者的解释结果，展示模型对特定患者的预测过程。HFrEF、脓毒症、体重和年龄成为驱动这一预测的关键因素。

最后再给大家一道思考题：SHAP值能够考虑特征之间协同作用对模型的交互贡献吗？

带大家过完了这篇SHAP解释+Shiny网页搭建的文献，相信同学们对于怎样把自己的机器学习研究升级，都有了思考。

雪球的生信团队可提供包括但不限于如下套路SCI的陪跑发表服务，数据可靠，算法迭代，细节拉满。今天所介绍的文献，涵盖MIMIC-IV、机器学习模型SHAP解释、Shiny网页搭建三大上分神器，如果你想在这些领域发力、发文，想优化自己的课题设计方案，就来找雪球吧！

✅立足生信守正创新

✅上下限跨度广

✅适合优化分析/进阶分段/丰富前期背景等需求

✅涵盖众多实用创新套路

✅量身定制，绝无量产，绝不敷衍

雪球的生信套路每周周中讲解

注意没有星标⭐的话

容易错过更新哦