社区所有版块导航
Python
python开源   Django   Python   DjangoApp   pycharm  
DATA
docker   Elasticsearch  
aigc
aigc   chatgpt  
WEB开发
linux   MongoDB   Redis   DATABASE   NGINX   其他Web框架   web工具   zookeeper   tornado   NoSql   Bootstrap   js   peewee   Git   bottle   IE   MQ   Jquery  
机器学习
机器学习算法  
Python88.com
反馈   公告   社区推广  
产品
短视频  
印度
印度  
Py学习  »  机器学习算法

【NHANES分析新思路】搭档热门cp“机器学习+SHAP解释”,37天拿下1区11分+!又一个套公式就能发顶刊的思路~

生信图书馆 • 3 天前 • 27 次点击  

“机器学习+SHAP解释”这对热门cp真是火出圈了,还有谁不知道?最近,将它们与临床公共数据库(GBD、NHANES、CHARLS)联合分析的文章越来越多了,而且动不动就10分+,创新思路当真是IF又高发文又快!但馆长知道很多朋友对SHAP解释并不熟悉,并不知道它为什么要和机器学习一起用,以及怎么用,今天就带大家好好认识一下这对新晋cp!(会生信分析的朋友这个方向可以方向冲,妥妥的加分项,需要服务器的找馆长!不会分析也不要紧,生信图书馆专业团队可以助你完成!) 

定制生信分析

生信服务器

SHAP是什么?

SHAP(SHapley Additive exPlanations)是一种基于博弈论的机器学习模型解释工具,核心目标是量化每个特征对预测结果的贡献程度。这个特征的重要性通过计算每个特征的 “边际贡献”衡量,最终以统一的数值(SHAP 值)表示每个特征对预测结果的影响方向和大小。

为什么要与机器学习联合使用?

1、解决机器学习模型的“黑箱”问题

现代机器学习模型虽预测精度高,但内部逻辑难以直观理解,通常被视为“黑箱”。SHAP通过量化每个特征对模型预测结果的贡献度,将模型的预测逻辑清晰地展示出来,使用户能够理解模型是如何根据输入特征做出预测的。

2、提供特征重要性分析

SHAP可以计算每个特征的SHAP值,通过汇总和平均所有单个实例的SHAP值,得到特征的全局重要性排序,帮助快速识别出对模型预测结果影响最大的特征,了解模型的主要驱动因素,为特征选择、模型优化和业务决策提供依据。

3、促进模型优化和调试

通过SHAP分析,可以发现模型是否过度依赖某些非因果特征,或者是否存在特征之间的交互效应未被正确捕捉等问题。有助于及时发现模型的不足之处,针对性地进行模型优化和调试,提高模型的性能和泛化能力。

总之,通过与SHAP结合,机器学习模型不仅能“做出准确预测”,还能“解释为何这样预测”,从而实现从“可用”到“可信”的升级,同时也完美解决了验证实验的问题!

SHAP解释可以用于哪些机器学习模型?

SHAP 作为通用的模型解释工具,几乎可应用于所有主流机器学习模型,帮助用户从“黑箱”预测中拆解特征影响,提升模型透明度和可信度。

机器学习+SHAP如何用于NHANES数据库挖掘?

下面馆长通过近期发表在一区Top期刊Redox Biology(IF 10.7→11.9)上的两篇文章带大家了解一下相关的用法:

第一篇

这项研究旨在评估氧化平衡评分(OBS)在心血管肾代谢综合征(CKM)的分期及死亡风险评估中的作用。

数据来源:

使用 1999-2018 年NHANES数据,最终纳入 21,609 名参与者,其中 20,319 名为 CKM 患者。

定义与分组:

CKM 定义基于AHA标准,分为 4 期;OBS 整合 16 种饮食营养素和 4 种生活方式因素。

OBS 按四分位数分组:Q1(<15)、Q2(15-20)、Q3(20-26)、Q4(≥26)。

统计分析:

1)通过多分类逻辑回归分析 OBS 与 CKM 分期的关系。

2)Cox 比例风险模型评估 OBS 对全因死亡、心血管死亡和非心血管死亡的影响。

3)中介分析研究OBS 在 LS7、SII、衰弱评分与死亡结局的中介作用。

4)限制立方样条(RCS)分析 OBS 与死亡结局的非线性关系。

5)机器学习模型:构建 LightGBM、随机森林等模型预测 CKM 3/4 期和全因死亡,通过 SHAP 值解释 OBS 组件的贡献。

6)敏感性分析:排除随访前 2 年死亡者和癌症患者,验证结果稳健性。

机器学习+SHAP图片展示:机器学习模型在预测晚期 CKM 分期及全因死亡率方面的 ROC 曲线和基于 SHAP 的特征重要性(a)用于预测晚期 CKM 分期的模型的 ROC 曲线,(b)用于预测 CKM 患者全因死亡率的模型的 ROC 曲线,(c)用于预测晚期 CKM 分期的模型的 SHAP 摘要图,(d)用于预测 CKM 患者全因死亡率的模型的 SHAP 摘要图。

第二篇

这项研究开发并验证一个结合饮食中抗氧化剂的机器学习模型,以预测心血管疾病(CVD)与癌症的共病情况。

数据来源:

从NHANES 2007-2010 和 2017-2018,最终保留 10064 名信息完整的参与者。

抗氧化剂,包括维生素、矿物质和多酚类物质,被选为关键特征。此外,还纳入了人口统计学、生活方式和健康状况方面的特征以提高模型的准确性。

模型构建与评估:

模型对比:在 mlr3 框架下构建 5 种模型——递归划分回归树(RPART)、随机森林(RF)、核 k 近邻(K-KNN)、朴素贝叶斯(NB)、轻量级梯度提升机(LightGBM)。

评估指标:分类错误率、准确率、F-beta 值、ROC 曲线下面积(AUC)、灵敏度、特异性、PR 曲线下面积,采用 10 折交叉验证减少偏差。

可解释性分析:对最优模型使用 SHAP 值评估特征重要性,通过瀑布图、力导向图等可视化抗氧化剂对预测的贡献。

LightGBM 模型中膳食抗氧化剂的 SHAP 值。(A)SHAP 摘要图(summary plot)。(B)SHAP 瀑布图(waterfall plot)。(C)SHAP 力图(Force Plot)。

上述两篇文章也顺带让大家认识了一下SHAP的常见图片:

Summary Plot:可以展示所有特征的整体重要性分布,快速识别对模型预测影响最大的特征

Waterfall Plot:可以展示单个样本的SHAP值,并直观呈现各特征对预测结果的影响

Force Plot:直用于观展示特征对预测结果的综合作用方向

此外常见的还有蜂群图(Swarm Plot),用于展示特征值与 SHAP 值的分布关系,发现非线性模式。

依赖图(Dependence Plot):分析目标特征与 SHAP 值的关系,以及其他特征的调节作用

馆长点评

机器学习+SHAP已经流行起来,除了这几个常用的公共数据库,网药/网毒文章中也开始用了,纯生信就能发高分,馆长朋友温馨提示大家有想法就抓紧时间上车吧!还是那句话,有生信基础的朋友可以直接实践(需要生信服务器直接馆长),不会实操的联系馆长即可,专业团队可选题可分析,欢迎来询!

馆长有话说

馆长会持续为大家带来最新生信思路,也可以提供特色数据库构建、思路评估、生信分析等服务,对数据库构建和生信分析感兴趣的朋友可以咨询馆长哦!

生信分析

方案设计

生信服务器

孟德尔随机化

网络药理学

单细胞测序

临床公共数据库分析

往期推荐

1.IF: 93.6!恭喜海南医科大学,比较GBD数据库与真实世界数据差异,4图拿下BMJ!

2.张伯礼等院士发布共识:AI+中医药势在必行!兰大一院团队紧跟潮流:中药单体+网药+分子对接+8种机器学习,共振中医药创新!

3.5个样本是怎么发IF=23的?瑞金医院陈赛娟院士团队告诉你,单细胞测序就能办到!

Python社区是高质量的Python/Django开发社区
本文地址:http://www.python88.com/topic/183677
 
27 次点击