Py学习  »  机器学习算法

不进阶到AI的机器学习套路还有出路吗?8+SCI指路,带上SHAP解释就稳了!

挑圈联靠 • 2 月前 • 113 次点击  

对热点资讯别只看热闹,

会看门道了,新选题也出来了。

大家最近把DeepSeek热点消化得怎么样?本地部署或者在线体验的R1模型,给出让你满意的答案了吗?科技“新玩具”固然好玩,别忘了科研节奏。有个生信能用的热点,跟DeepSeek R1推理模型关联还挺大,也还属于蓝海期,对临床医生尤其友好,想不想跟?

先确保你手里有秘籍!

添加雪球,回复“DeepSeek干货”通通收藏!

人工智能除了是机器学习套路的一个进阶,我想不到什么咱们生信能直接搭上的东西了......还是得发几个人工智能模型相互比较的Letter吗?风口恐怕消失得很快吧。

咱们透过现象看本质。你看关于推理模型公开思考过程的报道是不是比较多?这说明大家对模型及其分析结果的解释,处在高需求的阶段。聚焦在生信研究领域,也一样。

比如你建立一个预后预测模型,预测效能很优秀。但每个指标都是平等权重,贡献相同的吗?哪些指标出了大头,哪些指标在“摸鱼”,贡献不高,哪些指标的变化和整体评分的变化是负相关的呢?咱们通过进一步研究,公布这些结果,你想这个模型工具是不是用起来也更舒心。

所以,乘着人工智能思考过程披露的东风,我们再来看看机器学习的模型解释——SHAP分析吧!

下滑继续看

机器学习+SHAP超强干货

想get同款思路

可添加雪球后回复“个性化”咨询


Interpretable machine learning model for new-onset atrial fibrillation prediction in critically ill patients: a multi-center study

用于危重患者新发心房颤动预测的可解释机器学习模型:一项多中心研究


期刊:Critical Care

IF:8.8

发布时间:2024/10/29


 技术路线 


数据筛选与提取:

使用重症监护医学信息市场(MIMIC)的两个不重叠数据集,MIMIC-IV用于训练,MIMIC-III子集用作外部验证。

使用结构化查询语言(SQL)提取首个24h内进入ICU的患者数据,使用KNNImputer方法插补缺失数据。

变量包括:人口统计学信息、合并症、实验室指标、生命体征和干预措施。

根据路线图中所示方法进行数据排除。

主要结局:ICU入住第一天后发生的新发心房颤动(NOAF),由护士床边记录的心率状态定义。


机器学习模型构建:

使用LASSO回归进行特征选择。

使用8种机器学习算法构建预测模型,包括XGBoost, SVM, Adaboost, MLP, NN, NB, LR和GBM。

根据ROC曲线的最大AUC确定最优模型,并采用决策曲线分析(DCA)和校准曲线证明真正的临床效用。

生成临床影响曲线(CIC),确定模型的最佳阈值概率。


模型化特征解释和个体案例预测:

通过SHAP方法达成。

了解模型的决策过程,使用特征递归消除进一步过滤变量,布置模型的简化版本。


优化模型在线部署:

使用shiny搭建了优化后的在线风险计算器,进一步提高了可访问性和实用性。

网站:7kdtqk-guanchengcheng.shinyapps.io/noaf3/


 研究结果 


Fig 2 基于LASSO回归的变量筛选


Fig 3 机器学习模型的ROC曲线


Fig 4 模型的校准能力和临床益处


Fig 5 使用SHAP可视化解释机器学习模型


像LASSO回归、各种临床意义图表

我们应该都比较熟了,

今天就主讲这个SHAP解释。


经过一系列模型建立与筛选验证,选出XGBoost模型为预测NOAF的最佳模型,在确定最佳模型的基础上,对最佳模型进行解释。(所以,Fig 5展示的是XGBoost模型的解释结果。)


为啥只解释最佳模型呢,我每个模型都解释一下看看为啥其他的没那么好,不行吗?

原因可以一句话:“费力不讨好”。如果你问计算机大佬,ta可能回答你说SHAP是用在模型解释阶段的,而模型解释阶段要晚于模型选择;如果你问一个在一线看病的临床医生,ta会告诉你没时间看那么多模型,只需要最好的,能立刻拿来用。ta还会说,能方便对患者解释,为什么医生这样做预测,就更好了。

SHAP解释,就在走这一步“就更好了”。这也是目前包含SHAP解释的生信文献分数普遍较高(常见于8+)的原因之一。


根据判断结果,倒推来读SHAP蜂群图(Fig 5A):驱动该预测模型的关键因素,在于年龄、机械通气、尿量、脓毒症、BUN、SpO2、CRRT 和体重。

写在模型指标右侧的数字为平均SHAP值,其大小反映了特征对模型的贡献程度,但不能看出是正面或负面影响。

这就要结合蜂群图的颜色和正负坐标轴了。比如慢性肝脏疾病这一行,属于二分法,有→特征值高→深紫色,无→特征值低→黄色,没有渐变的中间颜色且清晰分布于坐标轴两侧,说明特征值低时模型预测的概览高,是负相关的。其他特征中不乏淡紫色的中间值,暗示特征与SHAP值的非线性关系。

Fig 5B则是以一例患者的解释结果,展示模型对特定患者的预测过程。HFrEF、脓毒症、体重和年龄成为驱动这一预测的关键因素。


最后再给大家一道思考题:SHAP值能够考虑特征之间协同作用对模型的交互贡献吗?


带大家过完了这篇SHAP解释+Shiny网页搭建的文献,相信同学们对于怎样把自己的机器学习研究升级,都有了思考。


雪球的生信团队可提供包括但不限于如下套路SCI的陪跑发表服务,数据可靠,算法迭代,细节拉满。今天所介绍的文献,涵盖MIMIC-IV、机器学习模型SHAP解释、Shiny网页搭建三大上分神器,如果你想在这些领域发力、发文,想优化自己的课题设计方案,就来找雪球吧!

✅立足生信 守正创新

✅上下限跨度广

✅适合优化分析/进阶分段/丰富前期背景等需求

✅涵盖众多实用创新套路

✅量身定制,绝无量产,绝不敷衍

 雪球的生信套路 每周周中讲解 

注意没有星标⭐的话

容易错过更新哦

Python社区是高质量的Python/Django开发社区
本文地址:http://www.python88.com/topic/179072
 
113 次点击