社区所有版块导航
Python
python开源   Django   Python   DjangoApp   pycharm  
DATA
docker   Elasticsearch  
aigc
aigc   chatgpt  
WEB开发
linux   MongoDB   Redis   DATABASE   NGINX   其他Web框架   web工具   zookeeper   tornado   NoSql   Bootstrap   js   peewee   Git   bottle   IE   MQ   Jquery  
机器学习
机器学习算法  
Python88.com
反馈   公告   社区推广  
产品
短视频  
印度
印度  
Py学习  »  机器学习算法

三图两表发文!CHARLS大队列+可解释机器学习:生信人0实验发二区TOP的“捷径”?看完这篇关节炎预测模型你就懂了!

生信Othopadics • 2 周前 • 55 次点击  

如果您对骨科疾病生信临床研究感兴趣,请为小骨点点关注,持续解读骨科前沿生信文献和思路。如果您需要定制化服务,欢迎扫码联系小骨~

🌟今日生信亮点:CHARLS数据库

中国健康与退休纵向研究(CHARLS)发文优势在于:样本全国代表、数据公开免费、覆盖健康与经济多维度,支持跨学科、跨国比较,挑战包括:变量自报偏倚、缺失值处理复杂、因果推断受限。趋势聚焦老龄化、抑郁、贫血、衰弱等主题,强调政策转化与机制探索。


CHARLS近年发文量年均>百篇,热点从单一健康转向多病共患、抑郁、认知、衰弱、营养与财务脆弱耦合;方法上倾向因果推断、机器学习预测、生命历程模型;政策转化文章激增,聚焦延迟退休、医养结合、医保支付改革。

下面和小骨一起来看具体文章内容吧!

文章标题:Explainable machine learning identifies key quality- of-life-related predictors of arthritis status: evidence from the China health and retirement longitudinal study

中文标题:可解释机器学习确定关节炎状态的关键生活质量相关预测因素:来自中国健康与退休纵向研究的证据

发表期刊Health Qual Life Outcomes

发表时间2025年8

影响因子 3.4/Q1


研究目的


本研究利用可解释机器学习分析CHARLS数据,旨在精准识别并量化影响关节炎的关键生活质量因素,如疼痛和功能障碍,以揭示其预测贡献度,为疾病防控和健康干预提供依据。

研究方法

1. 数据来源:使用中国健康与养老追踪调查(CHARLS)的大规模纵向数据集。
2. 模型构建:采用多种机器学习算法(如XGBoost、随机森林、逻辑回归)构建关节炎状态预测模型,并通过交叉验证评估和比较其性能。
3. 核心分析:运用SHAP(SHapley Additive exPlanations)等可解释性技术,量化每个预测特征(变量)对模型预测结果的贡献度和影响方向。
4. 关键识别:基于SHAP值确定影响模型决策最关键的生活质量相关预测因子,并分析其与关节炎状态之间的关联模式。


文章结果

模型构建、验证和解释


研究采用9种机器学习算法(涵盖从线性模型到集成方法),基于CHARLS数据集中与生活质量相关的特征构建关节炎预测模型。为处理类别不平衡问题,训练数据应用SMOTE过采样,并通过贝叶斯优化(Optuna)以召回率为目标进行超参数调优。模型性能在独立测试集上综合评估,最终采用SHAP和Sankey图进行全局及个体层面的特征贡献解释。全部分析基于Python主流数据科学库完成,统计检验显著性设定为P < 0.05。

用机器学习预测骨关节炎


研究基于68个预测变量,采用SMOTE平衡数据和超参数优化训练了9种机器学习算法。GradientBoosting、LightGBM和Random Forest表现最佳且统计上无显著差异(AUC≈0.766)。最终选择在召回率与特异性间取得最佳平衡的GradientBoosting模型(AUC 0.767,召回率0.637,特异性0.771)进行后续可解释性分析。

特征重要性与变量解释

SHAP分析表明,疼痛相关变量是预测关节炎的最主导因素。其中,膝关节疼痛、全身疼痛部位总数和腿部疼痛是影响力最强的三大预测特征。其他关键预测因子包括自评健康状况、肩部疼痛、睡眠质量、年龄、自评记忆力、手指疼痛及反映日常活动功能受限的综合指标。

SHAP分析显示,疼痛变量、较差的健康状况、高龄、睡眠质量差及日常活动困难等高特征值均产生正的SHAP值,显著增加关节炎的预测概率;反之,无疼痛报告、良好的自评健康和睡眠等特征则产生负向贡献,支持非关节炎的预测结果。桑基图进一步直观呈现了这些核心特征累积的贡献流向,证实多部位疼痛与健康指标是驱动模型判断的最主要因素。

研究意义

究通过可解释机器学习精准揭示了影响关节炎的关键生活质量因素,为制定精准的公共卫生干预策略提供了科学依据。


(如果各位老师有生信方面的问题想要咨询,欢迎扫码联系小骨,小骨为您提供如下服务:免费思路评估、付费方案设计和生信分析等)

往期推荐

顶刊密码:用“黑盒透明化”机器学习挖骨关节炎亚组预警标志物——Nature子刊级思路、生信方法拆解与投稿生死线

15.7/Q1,川大多组学发NC:同一关节100k细胞纵向追踪,揭秘TNF/JAK抑制剂如何“精准拆弹”RA

11.7/Q1,Cell Metabolism同款生信套路拆解:38K单细胞+多组学锁定“衰老干细胞”引爆OA顶刊!

9.7/Q1,挪威奥斯陆大学解码腰椎术后风险:可解释机器学习整合影像组学特征与心理社会因子的预测引擎

30.9/Q1,cells子刊怎么发,南方医科大破解骨骼的“激素密码”:多组学锁定375个骨因子,揭开抗衰老新靶点!

Python社区是高质量的Python/Django开发社区
本文地址:http://www.python88.com/topic/186670
 
55 次点击