“机器学习+SHAP解释”这对热门cp真是火出圈了,还有谁不知道?最近,将它们与临床公共数据库(GBD、NHANES、CHARLS)联合分析的文章越来越多了,而且动不动就10分+,创新思路当真是IF又高发文又快!但馆长知道很多朋友对SHAP解释并不熟悉,并不知道它为什么要和机器学习一起用,以及怎么用,今天就带大家好好认识一下这对新晋cp!(会生信分析的朋友这个方向可以方向冲,妥妥的加分项,需要服务器的找馆长!不会分析也不要紧,生信图书馆专业团队可以助你完成!)
SHAP是什么?
SHAP(SHapley Additive exPlanations)是一种基于博弈论的机器学习模型解释工具,核心目标是量化每个特征对预测结果的贡献程度。这个特征的重要性通过计算每个特征的 “边际贡献”衡量,最终以统一的数值(SHAP 值)表示每个特征对预测结果的影响方向和大小。
为什么要与机器学习联合使用?
1、解决机器学习模型的“黑箱”问题
现代机器学习模型虽预测精度高,但内部逻辑难以直观理解,通常被视为“黑箱”。SHAP通过量化每个特征对模型预测结果的贡献度,将模型的预测逻辑清晰地展示出来,使用户能够理解模型是如何根据输入特征做出预测的。
2、提供特征重要性分析
SHAP可以计算每个特征的SHAP值,通过汇总和平均所有单个实例的SHAP值,得到特征的全局重要性排序,帮助快速识别出对模型预测结果影响最大的特征,了解模型的主要驱动因素,为特征选择、模型优化和业务决策提供依据。
3、促进模型优化和调试
通过SHAP分析,可以发现模型是否过度依赖某些非因果特征,或者是否存在特征之间的交互效应未被正确捕捉等问题。有助于及时发现模型的不足之处,针对性地进行模型优化和调试,提高模型的性能和泛化能力。
总之,通过与SHAP结合,机器学习模型不仅能“做出准确预测”,还能“解释为何这样预测”,从而实现从“可用”到“可信”的升级,同时也完美解决了验证实验的问题!


SHAP解释可以用于哪些机器学习模型?
SHAP 作为通用的模型解释工具,几乎可应用于所有主流机器学习模型,帮助用户从“黑箱”预测中拆解特征影响,提升模型透明度和可信度。
机器学习+SHAP如何用于NHANES数据库挖掘?
下面馆长通过近期发表在一区Top期刊Redox Biology(IF 10.7→11.9)上的两篇文章带大家了解一下相关的用法:
第一篇

这项研究旨在评估氧化平衡评分(OBS)在心血管肾代谢综合征(CKM)的分期及死亡风险评估中的作用。
数据来源:
使用 1999-2018 年NHANES数据,最终纳入 21,609 名参与者,其中 20,319 名为 CKM 患者。
定义与分组:
CKM 定义基于AHA标准,分为 4 期;OBS 整合 16 种饮食营养素和 4 种生活方式因素。
OBS 按四分位数分组:Q1(<15)、Q2(15-20)、Q3(20-26)、Q4(≥26)。
统计分析:
1)通过多分类逻辑回归分析 OBS 与 CKM 分期的关系。
2)Cox 比例风险模型评估 OBS 对全因死亡、心血管死亡和非心血管死亡的影响。
3)中介分析研究OBS 在 LS7、SII、衰弱评分与死亡结局的中介作用。
4)限制立方样条(RCS)分析 OBS 与死亡结局的非线性关系。
5)机器学习模型:构建 LightGBM、随机森林等模型预测 CKM 3/4 期和全因死亡,通过 SHAP 值解释 OBS 组件的贡献。
6)敏感性分析:排除随访前 2 年死亡者和癌症患者,验证结果稳健性。

机器学习+SHAP图片展示:机器学习模型在预测晚期 CKM 分期及全因死亡率方面的 ROC 曲线和基于 SHAP 的特征重要性(a)用于预测晚期 CKM 分期的模型的 ROC 曲线,(b)用于预测 CKM 患者全因死亡率的模型的 ROC 曲线,(c)用于预测晚期 CKM 分期的模型的 SHAP 摘要图,(d)用于预测 CKM 患者全因死亡率的模型的 SHAP 摘要图。
第二篇

这项研究开发并验证一个结合饮食中抗氧化剂的机器学习模型,以预测心血管疾病(CVD)与癌症的共病情况。
数据来源:
从NHANES 2007-2010 和 2017-2018,最终保留 10064 名信息完整的参与者。
抗氧化剂,包括维生素、矿物质和多酚类物质,被选为关键特征。此外,还纳入了人口统计学、生活方式和健康状况方面的特征以提高模型的准确性。
模型构建与评估:
模型对比:在 mlr3 框架下构建 5 种模型——递归划分回归树(RPART)、随机森林(RF)、核 k 近邻(K-KNN)、朴素贝叶斯(NB)、轻量级梯度提升机(LightGBM)。
评估指标:分类错误率、准确率、F-beta 值、ROC 曲线下面积(AUC)、灵敏度、特异性、PR 曲线下面积,采用 10 折交叉验证减少偏差。
可解释性分析:对最优模型使用 SHAP 值评估特征重要性,通过瀑布图、力导向图等可视化抗氧化剂对预测的贡献。

LightGBM 模型中膳食抗氧化剂的 SHAP 值。(A)SHAP 摘要图(summary plot)。(B)SHAP 瀑布图(waterfall plot)。(C)SHAP 力图(Force Plot)。
上述两篇文章也顺带让大家认识了一下SHAP的常见图片:
Summary Plot:可以展示所有特征的整体重要性分布,快速识别对模型预测影响最大的特征
Waterfall Plot:可以展示单个样本的SHAP值,并直观呈现各特征对预测结果的影响
Force Plot:直用于观展示特征对预测结果的综合作用方向
此外常见的还有蜂群图(Swarm Plot),用于展示特征值与 SHAP 值的分布关系,发现非线性模式。

依赖图(Dependence Plot):分析目标特征与 SHAP 值的关系,以及其他特征的调节作用

馆长点评
机器学习+SHAP已经流行起来,除了这几个常用的公共数据库,网药/网毒文章中也开始用了,纯生信就能发高分,馆长朋友温馨提示大家有想法就抓紧时间上车吧!还是那句话,有生信基础的朋友可以直接实践(需要生信服务器直接找馆长),不会实操的联系馆长即可,专业团队可选题可分析,欢迎来询!
馆长会持续为大家带来最新生信思路,也可以提供特色数据库构建、思路评估、生信分析等服务,对数据库构建和生信分析感兴趣的朋友可以咨询馆长哦!