Py学习  »  机器学习算法

IF=14.1,NHANES+CHARLS双库联合发Advanced Science!复合指数+机器学习,公共数据挖掘如何出彩?

挑圈联靠 • 5 月前 • 482 次点击  

欢迎来看雪球讲生信套路!近期PLOS、Frontiers两出版社先后发表正式声明,大型回顾性公共数据库(如NHANES)手稿将不再被考虑,除非稿件具有独特的科学价值,提供新的实验验证或来自他们自己机构的额外数据


出版社需要遏制论文工厂冗余出版物数量规模继续膨胀,并警示大型数据集中无数变量组合可能偶然出现的无指导意义的“统计显著性”,这无可厚非;但研究条件有限、还背负科研压力的普通人该怎么应对呢?读一读今天的文献吧:


一篇两公共数据库联合+机器学习模型构建的文章!

看看从入门到IF10+发文需要多做哪些事


GLM7–A Novel Composite Glycolipid Index Derived from Routine Health Indicators for Enhanced Diagnosis and Prediction of Multimorbidity

GLM7——一种源自常规健康指标的新型复合糖脂指数,用于增强多病共存的诊断和预测


期刊:Advanced Science

IF:14.1

发布时间:2025/08/28


课题设计需改善?数据分析要进阶?科研瓶颈得打破?

添加雪球,回复“个性化”1v1了解详情


 技术路线 


数据获取与清洗

NHANES 2013–2023共56 893人,经纳排后保留26 289人;

CHARLS 2011–2020共19 328人用于外部验证。


变量池构建(49项常规指标)

建立含年龄、BMI、血压、血脂、血糖、肝肾功能、血常规、TyG、AIP、RAR等49项指标的标准化数据集。(覆盖人口学、体格检查、生化、血常规及衍生指数,全面评估潜在预测信息)


单变量ROC分析

年龄、TyG、TyG_BMI、AIP、胰岛素、LDL-c、TG等7项在所有疾病中AUC均>0.70,为后续建模核心变量。


复合指数GLM7构建

公式:GLM7 = log10[(年龄×BMI×空腹血糖×胰岛素×TG×LDL-c)/HDL-c]

GLM7与五类疾病均显著相关,OR 3.0–12.2,AUROC 0.87–0.97,优于TyG、AIP等现有指数。


限制性立方样条(RCS)分析

探索GLM7与结局的非线性剂量-反应关系,确定风险阈值;

CVD、DM、肝病、癌症、共病的风险阈值分别约为7.7、7.9、7.8、7.5、7.6;GLM7>7.5后风险陡升。


分层交互分析

验证GLM7在不同年龄、性别亚组中的稳定性;

<7.0低危;7.0–7.5中危;≥7.5高危;≥65岁人群同等GLM7水平风险更高,性别差异不显著。


XGBoost机器学习建模

NHANES内部验证:AUROC CVD 0.93、DM 0.98、肝病0.89、癌症0.92、共病0.92;

CHARLS外部验证:AUROC CVD 0.92、DM 0.90、肝病0.73、癌症0.79、共病0.92,显示跨种族稳健性。


SHAP可解释性分析

年龄、GLM7、胰岛素、LDL-c、BMI依次为贡献最大的前5位特征,与临床认知一致。


与传统复合指数对比

GLM7在五类疾病中的AUROC均显著高于传统指数(DeLong检验p<0.01),证明GLM7相对于TyG、TyG_BMI、AIP的增量价值。


伦理与可重复性

确保研究合规、结果可复现

NHANES与CHARLS均通过各自伦理审查;代码与数据已附补充材料,遵循Creative Commons开放共享。


 研究结果 


Table 1 个体的基线特征


Table 2 常规健康指标对五大疾病类别的影响的单变量回归分析


Fig 2 对五大疾病类别的49个因素进行单因素回归分析


Fig 3 正常人群和疾病人群中七个共同因素的相对趋势


Fig 4 描述常规因素、综合指数GLM7和各种疾病发病率之间关联的森林图


Fig 5 限制性立方样条(RCS)分析不同疾病类别的GLM7指数与疾病发病率之间的关联


Fig 6 GLM7指数与GLM7不同阈值下疾病之间关联的亚组分析


Fig 7 机器学习模型在训练队列中的预测性能和验证队列中最终模型的诊断性能


Fig 8 GLM7模型在外部队列中诊断的性能


公共数据库发文的进阶方法

学习高分文献设计,提升发文成功率


同时纳入多种疾病类别

模型在多种疾病中均具有稳定性,表明模型可以作为通用的筛查工具,促进多种疾病的早期发现和干预。


划定风险阈值范围

使用RCS分析等方法,证明构建的指标与疾病间实质性的非线性关系,并得出指标阈值,超过该值后患各种疾病的风险显著增加。


整合多数据库队列验证

增强研究结果的普遍性,如本文中使用NHANES(美国人群)数据发现、使用CHARLS(中国人群)数据验证,表明模型可能在全人群范围内改善疾病预测与预防。


加入因果推断

NHANES、CHARLS等数据库的观察数据与回顾性研究无法确定因果关系。目前横断面数据库+因果推断组合的发文量整体较少,可以尝试。





恭喜你又读完一篇文献!2025接近尾声,想要在年终考核、总结中更具竞争力,效率成为关键词。诺奖热点、GBD数据库更新,以及你在学习和应用生信过程中不断发现的那些蓝海发文套路......,早发文早获益。


想要优化课题、升级分析、加速出成果,👇来找雪球,添加后回复“个性化”开始咨询吧。


添加后回复“个性化”咨询

 雪球的生信套路 每周周中讲解 

平台改版,记得星标⭐

才不会错过更新哦

Python社区是高质量的Python/Django开发社区
本文地址:http://www.python88.com/topic/187921