3/Q1，解码肾-耳蜗轴：可解释的机器学习和表型聚类揭示了慢性肾病中高风险听力损失亚型

点击蓝字

关注我们

引言

今天，我们要聊的是一把解开健康谜题的‘金钥匙’——NHANES数据库！NHANES（美国国家健康与营养调查）是全球最权威的健康数据库之一，涵盖数万人的体检数据、饮食习惯、生活方式，甚至环境暴露指标。科学家们用它发现了肥胖与代谢疾病的关联，揭示了睡眠不足对心脏的危害，甚至追踪到了塑料微粒对人体的潜在影响……

但你知道吗？这些数据对你同样有价值！无论你是健康爱好者、科研人员，还是单纯想‘避坑’，NHANES都能给你意想不到的启示。接下来，我们将带你深挖这个宝藏数据库，看看它如何颠覆你对健康的认知！"

文献解读

标题：解码肾-耳蜗轴：可解释的机器学习和表型聚类揭示了慢性肾病中高风险听力损失亚型

发表期刊：Ren Fail

发表日期：202612

影响因子：3/Q1

研究背景

本研究基于国家健康与营养检查调查（NHANES）数据，开发了双层机器学习框架，用于慢性肾病患者听力损失（HL）的风险分层和表型分析。从3,402名慢性肾病患者中，通过单变量和多变量逻辑回归的特征选择确定了关键预测因子，并用九种机器学习算法构建预测模型。

研究方法

极端梯度增强（XGBoost）模型表现优异，曲线下平均面积（AUC）为0.984（训练）、0.984（验证）和0.939（测试）。SHapley加法解释（SHAP）确定年龄为主要风险决定因素。后续的高斯混合模型（GMM）将患者分为两个明显亚型：低风险亚组（n = 1,075），HL患病率为1.58%;高风险亚组（n = 2,316），表现为年龄较老、血尿素氮和碳酸氢盐水平升高，HL患病率为48.2%。

研究结果

基线分析结果

研究队列共3,402名慢性肾病患者，其中1,142人（33.57%）共病为HL。通过皮尔逊卡方检验和Wilcoxon秩和检验，发现了年龄、性别、SBP、DBP、BMI、LYM%、MO%、NEUT%、EO%、BASO%、RBC、MCV、MCH、RDW、PLT、ALB、ALP、BUN、Ca等指标的显著组间差异（p≤ 0.05）2+，HCO3−，GLU，LDH，P，结核，TP，TG，UA，SCR，Na，K，CL++−，以及 OP，这些后来都被纳入了功能选择中（表1以及图3).

特征变量筛查结果

单变量和多变量逻辑回归分析识别出15个独立预测变量用于模型构建。这些变量被纳入最终临床预测模型，详细回归系数和置信区间为表2.

多模型集成与结果分析

本研究采用九种机器学习算法构建预测模型，包括XGBoost、LR、LightGBM、RF、AdaBoost、GBDT、MLP、KNN和GNB。所有模型的ROC曲线均通过五折交叉验证生成。模型性能基于AUC评估，XGBoost和RF在训练集中表现优异，XGBoost在验证集中表现出最高的预测准确率。在训练集中，XGBoost模型的截止值为0.766，性能指标如下：准确率 = 0.974，敏感度 = 0.966，特异度 = 0.982，PPV = 0.981，NPV = 0.966，F1评分 = 0.974，Cohen's kappa = 0.947。射频模型的阈值为0.520，准确率=0.973，灵敏度=0.980，特异度=0.966，PPV = 0.966，NPV = 0.980，F1评分=0.973，Cohen's kappa = 0.946（图4). 在验证集中，XGBoost模型保持了0.766的截止值，准确率=0.865，敏感度=0.823，特异度=0.906，PPV = 0.898，NPV = 0.837，F1评分=0.859，Cohen's kappa = 0.729（图5). 比较分析显示，XGBoost算法在训练和验证阶段均表现优于其他模型，展现出稳健的泛化性和诊断精度。这些发现表明XGBoost被确定为临床决策框架的最佳预测模型。

最优模型构建与解析结果

XGBoost模型通过五重交叉验证构建和验证。如图所示图6，模型在训练集中获得了0.984的AUC，截止值为0.841，性能指标如下：准确率 = 0.940，灵敏度 = 0.907，特异度 = 0.972，PPV = 0.970，NPV = 0.914，F1评分 = 0.937。在验证集中，表现一致，AUC = 0.984，截止值 = 0.841，准确率 = 0.936，灵敏度 = 0.903，特异度 = 0.969，PPV = 0.966，NPV = 0.910，F1 评分 = 0.934。在测试集中，模型的AUC为0.939，截止值=0.854，准确率=0.842，敏感度=0.774，特异度=0.917，PPV=0.910，净值=0.788，F1评分=0.837。

文章小结

基于这些亚型训练的分类器实现了区分（AUC = 0.99974）。基于六个最具影响力特征，还开发了基于网络的临床工具。研究结果建立了一个双层预测框架，整合可解释机器学习和无监督聚类，用于慢性肾病HL风险评估。该方法为高风险亚群的精准筛查提供了有力策略，并支持将听力评估整合进常规慢性肾病。NHANES数据库像一面镜子，照出我们忽视的生活细节，也照亮了预防疾病的前路。今天为大家分享的文章纯公共数据挖掘+统计分析！如果你也想在临床方向发高分文章，不妨试试这个省钱省事又省力的思路吧~

END

往期推荐

⭐5.1/Q1，HALP 评分与老年人低肌肉质量的关联

⭐5.9/Q1，血清铁与血液嗜酸性粒细胞计数之间的关系

⭐5/Q1，炎症饮食与握力之间 10 年心血管疾病风险的中介

⭐5.1/Q1，肠道微生物群饮食指数与牙周炎的关联

⭐5/Q1，较高的 HEI-2015 分数与抑郁症风险降低相关

SCI