社区所有版块导航
Python
python开源   Django   Python   DjangoApp   pycharm  
DATA
docker   Elasticsearch  
aigc
aigc   chatgpt  
WEB开发
linux   MongoDB   Redis   DATABASE   NGINX   其他Web框架   web工具   zookeeper   tornado   NoSql   Bootstrap   js   peewee   Git   bottle   IE   MQ   Jquery  
机器学习
机器学习算法  
Python88.com
反馈   公告   社区推广  
产品
短视频  
印度
印度  
Py学习  »  机器学习算法

不进阶到AI的机器学习套路还有出路吗?8+SCI指路,带上SHAP解释就稳了!

挑圈联靠 • 6 月前 • 238 次点击  

对热点资讯别只看热闹,

会看门道了,新选题也出来了。

大家最近把DeepSeek热点消化得怎么样?本地部署或者在线体验的R1模型,给出让你满意的答案了吗?科技“新玩具”固然好玩,别忘了科研节奏。有个生信能用的热点,跟DeepSeek R1推理模型关联还挺大,也还属于蓝海期,对临床医生尤其友好,想不想跟?

先确保你手里有秘籍!

添加雪球,回复“DeepSeek干货”通通收藏!

人工智能除了是机器学习套路的一个进阶,我想不到什么咱们生信能直接搭上的东西了......还是得发几个人工智能模型相互比较的Letter吗?风口恐怕消失得很快吧。

咱们透过现象看本质。你看关于推理模型公开思考过程的报道是不是比较多?这说明大家对模型及其分析结果的解释,处在高需求的阶段。聚焦在生信研究领域,也一样。

比如你建立一个预后预测模型,预测效能很优秀。但每个指标都是平等权重,贡献相同的吗?哪些指标出了大头,哪些指标在“摸鱼”,贡献不高,哪些指标的变化和整体评分的变化是负相关的呢?咱们通过进一步研究,公布这些结果,你想这个模型工具是不是用起来也更舒心。

所以,乘着人工智能思考过程披露的东风,我们再来看看机器学习的模型解释——SHAP分析吧!

下滑继续看

机器学习+SHAP超强干货

想get同款思路

可添加雪球后回复“个性化”咨询


Interpretable machine learning model for new-onset atrial fibrillation prediction in critically ill patients: a multi-center study

用于危重患者新发心房颤动预测的可解释机器学习模型:一项多中心研究


期刊:Critical Care

IF:8.8

发布时间:2024/10/29


 技术路线 


数据筛选与提取:

使用重症监护医学信息市场(MIMIC)的两个不重叠数据集,MIMIC-IV用于训练,MIMIC-III子集用作外部验证。

使用结构化查询语言(SQL)提取首个24h内进入ICU的患者数据,使用KNNImputer方法插补缺失数据。

变量包括:人口统计学信息、合并症、实验室指标、生命体征和干预措施。

根据路线图中所示方法进行数据排除。

主要结局:ICU入住第一天后发生的新发心房颤动(NOAF),由护士床边记录的心率状态定义。


机器学习模型构建:

使用LASSO回归进行特征选择。

使用8种机器学习算法构建预测模型,包括XGBoost, SVM, Adaboost, MLP, NN, NB, LR和GBM。

根据ROC曲线的最大AUC确定最优模型,并采用决策曲线分析(DCA)和校准曲线证明真正的临床效用。

生成临床影响曲线(CIC),确定模型的最佳阈值概率。


模型化特征解释和个体案例预测:

通过SHAP方法达成。

了解模型的决策过程,使用特征递归消除进一步过滤变量,布置模型的简化版本。


优化模型在线部署:

使用shiny搭建了优化后的在线风险计算器,进一步提高了可访问性和实用性。

网站:7kdtqk-guanchengcheng.shinyapps.io/noaf3/


 研究结果 


Fig 2 基于LASSO回归的变量筛选


Fig 3 机器学习模型的ROC曲线


Fig 4 模型的校准能力和临床益处


Fig 5 使用SHAP可视化解释机器学习模型


像LASSO回归、各种临床意义图表

我们应该都比较熟了,

今天就主讲这个SHAP解释。


经过一系列模型建立与筛选验证,选出XGBoost模型为预测NOAF的最佳模型,在确定最佳模型的基础上,对最佳模型进行解释。(所以,Fig 5展示的是XGBoost模型的解释结果。)


为啥只解释最佳模型呢,我每个模型都解释一下看看为啥其他的没那么好,不行吗?

原因可以一句话:“费力不讨好”。如果你问计算机大佬,ta可能回答你说SHAP是用在模型解释阶段的,而模型解释阶段要晚于模型选择;如果你问一个在一线看病的临床医生,ta会告诉你没时间看那么多模型,只需要最好的,能立刻拿来用。ta还会说,能方便对患者解释,为什么医生这样做预测,就更好了。

SHAP解释,就在走这一步“就更好了”。这也是目前包含SHAP解释的生信文献分数普遍较高(常见于8+)的原因之一。


根据判断结果,倒推来读SHAP蜂群图(Fig 5A):驱动该预测模型的关键因素,在于年龄、机械通气、尿量、脓毒症、BUN、SpO2、CRRT 和体重。

写在模型指标右侧的数字为平均SHAP值,其大小反映了特征对模型的贡献程度,但不能看出是正面或负面影响。

这就要结合蜂群图的颜色和正负坐标轴了。比如慢性肝脏疾病这一行,属于二分法,有→特征值高→深紫色,无→特征值低→黄色,没有渐变的中间颜色且清晰分布于坐标轴两侧,说明特征值低时模型预测的概览高,是负相关的。其他特征中不乏淡紫色的中间值,暗示特征与SHAP值的非线性关系。

Fig 5B则是以一例患者的解释结果,展示模型对特定患者的预测过程。HFrEF、脓毒症、体重和年龄成为驱动这一预测的关键因素。


最后再给大家一道思考题:SHAP值能够考虑特征之间协同作用对模型的交互贡献吗?


带大家过完了这篇SHAP解释+Shiny网页搭建的文献,相信同学们对于怎样把自己的机器学习研究升级,都有了思考。


雪球的生信团队可提供包括但不限于如下套路SCI的陪跑发表服务,数据可靠,算法迭代,细节拉满。今天所介绍的文献,涵盖MIMIC-IV、机器学习模型SHAP解释、Shiny网页搭建三大上分神器,如果你想在这些领域发力、发文,想优化自己的课题设计方案,就来找雪球吧!

✅立足生信 守正创新

✅上下限跨度广

✅适合优化分析/进阶分段/丰富前期背景等需求

✅涵盖众多实用创新套路

✅量身定制,绝无量产,绝不敷衍

 雪球的生信套路 每周周中讲解 

注意没有星标⭐的话

容易错过更新哦

Python社区是高质量的Python/Django开发社区
本文地址:http://www.python88.com/topic/179072
 
238 次点击