数据获取与清洗
NHANES 2013–2023共56 893人,经纳排后保留26 289人;
CHARLS 2011–2020共19 328人用于外部验证。
变量池构建(49项常规指标)
建立含年龄、BMI、血压、血脂、血糖、肝肾功能、血常规、TyG、AIP、RAR等49项指标的标准化数据集。(覆盖人口学、体格检查、生化、血常规及衍生指数,全面评估潜在预测信息)
单变量ROC分析
年龄、TyG、TyG_BMI、AIP、胰岛素、LDL-c、TG等7项在所有疾病中AUC均>0.70,为后续建模核心变量。
复合指数GLM7构建
公式:GLM7 = log10[(年龄×BMI×空腹血糖×胰岛素×TG×LDL-c)/HDL-c]
GLM7与五类疾病均显著相关,OR 3.0–12.2,AUROC 0.87–0.97,优于TyG、AIP等现有指数。
限制性立方样条(RCS)分析
探索GLM7与结局的非线性剂量-反应关系,确定风险阈值;
CVD、DM、肝病、癌症、共病的风险阈值分别约为7.7、7.9、7.8、7.5、7.6;GLM7>7.5后风险陡升。
分层交互分析
验证GLM7在不同年龄、性别亚组中的稳定性;
<7.0低危;7.0–7.5中危;≥7.5高危;≥65岁人群同等GLM7水平风险更高,性别差异不显著。
XGBoost机器学习建模
NHANES内部验证:AUROC CVD 0.93、DM 0.98、肝病0.89、癌症0.92、共病0.92;
CHARLS外部验证:AUROC CVD 0.92、DM 0.90、肝病0.73、癌症0.79、共病0.92,显示跨种族稳健性。
SHAP可解释性分析
年龄、GLM7、胰岛素、LDL-c、BMI依次为贡献最大的前5位特征,与临床认知一致。
与传统复合指数对比
GLM7在五类疾病中的AUROC均显著高于传统指数(DeLong检验p<0.01),证明GLM7相对于TyG、TyG_BMI、AIP的增量价值。
伦理与可重复性
确保研究合规、结果可复现
NHANES与CHARLS均通过各自伦理审查;代码与数据已附补充材料,遵循Creative Commons开放共享。