Py学习  »  机器学习算法

机器学习+NHANES爆款组合,2个月0实验横扫8.5分顶刊!北协和团队纯生信发文秘籍限时放送!

生信图书馆 • 8 月前 • 489 次点击  

机器学习的风还是吹到了2025!挖掘潜在生物标志物,高效处理复杂临床数据还得是它!馆长最近正在机器学习的知识海洋里潜心修炼,这不,被我发现了一篇今年最新发表的顶刊文章,赶紧来跟各位科研伙伴们分享一下!
这篇文章基于NHANES数据通过联合3种机器学习算法分析,揭示了胰岛素抵抗代理指标eGDR与糖尿病患者心血管疾病的关联。
数据与方法创新
采用三种机器学习算法筛选关键变量:SVM-RFE(支持向量机递归特征消除)XGBoost(极限梯度提升)Boruta算法,结合三种方法的结果(取各算法排名前10的特征),既避免单一方法的偏倚,又提升了模型的泛化能力。
多变量逻辑回归模型构建
评估eGDR与CVD的关联,结合机器学习(特征选择)与传统统计(逻辑回归),优化变量筛选过程,增强模型解释性。
结果验证
性能评估:通过ROC曲线、C统计量、NRI(净重分类改善)、IDI(综合判别改善)、校准曲线、DCA(决策曲线分析)验证模型预测能力。
亚组分析:按年龄、性别、BMI等分层,验证结果的稳健性。
Ps:来看来看!科研党发文新思路!不过没思路也没关系,可以找馆长帮忙分析呀~十年生信分析经验打底的专业团队,请说出你的需求!

定制生信分析

生信服务器

加好友备注“99”领取试用

    

 


题目:糖尿病或糖尿病前期患者估计的葡萄糖处理率与心血管疾病之间的关联:一项横断面研究
杂志:Cardiovascular Diabetology
发表时间:2025年1月
研究背景
胰岛素抵抗代理指标与心血管疾病 (CVD) 和糖尿病显著相关。然而,估计葡萄糖处理率 (eGDR) 指数与 CVD 及其亚型之间的相关性尚未得到彻底研究。
研究思路
从 NHANES数据库中选取1999-2016 年的10,690名糖尿病和糖尿病前期受访者参加了该研究。采用三种机器学习方法(SVM-RFE、XGBoost 和 Boruta 算法)来选择最关键的变量。建立 Logistic 回归模型以评估 eGDR 与 CVD 之间的关联。应用 ROC 曲线、 C 统计量、 NRI 、 IDI 、校准曲线和 DCA 曲线来评估模型性能。进行亚组分析以调查不同亚组之间的关联。
研究结果
1.基线特征
2.eGDR与CVD的强负相关性
经过特征的预处理,构建多变量逻辑回归模型(未调整、最小调整、完全调整)评估eGDR与CVD的关联。研究发现,eGDR作为连续变量时,每增加1单位,CVD风险降低21%(OR = 0.79,95% CI: 0.76–0.83)。
图2
完全调整模型(Model 3)较基础模型(Model 1)显著提高预测性能,类似负相关也见于CVD亚型:冠心病、心力衰竭、中风,且与冠心病(CAD)、心力衰竭(CHF)、脑卒中(Stroke)均呈显著线性负相关。
3.模型性能显著优化
模型区分能力(NRI、IDI)和校准曲线显示完全调整模型的预测与实际观察值高度一致,决策曲线分析(DCA)表明其临床净获益更高。
通过ROC曲线、C统计量、NRI/IDI指数等评估,完全调整模型(Model 3)的预测效能显著优于基础模型(图3B)。例如,CVD的C统计量从0.683提升至0.814,IDI指数达0.130。此外,校准曲线显示模型预测概率与实际发生率高度一致(图3C)。 
图3
4.eGDR优于其他胰岛素抵抗指标
与TyG、HOMA-IR等指标相比,eGDR在未调整模型中AUC值显著更高(p<0.001),完全调整后仍保持微弱优势。这一优势可能源于eGDR整合了腰围、高血压和糖化血红蛋白(HbA1c)等综合代谢信息,更全面反映IR状态。
5.亚组分析表明,年轻人群(<60岁)和糖尿病患者中eGDR的关联更显著。
亚组分析的稳健性与交互作用:结果在不同年龄、性别、种族、BMI等亚组中保持一致,但年龄(<60岁 vs. ≥60岁,p = 0.001)和糖尿病状态(糖尿病 vs. 糖尿病前期,p = 0.010)存在显著交互作用,提示年轻人群和糖尿病患者中eGDR与CVD关联更强。
图4
文章小结
大家看完馆长的讲解是否已经有了发文思路呢?馆长再给大家捋一捋。本研究通过eGDR的计算整合了腰围、高血压和HbA1c,反映了胰岛素抵抗的代谢特征。其与CVD的关联可能通过胰岛素抵抗介导的血管内皮功能障碍、氧化应激和脂代谢紊乱等机制实现。研究表明eGDR可作为糖尿病或糖尿病前期患者心血管风险分层的有效工具。eGDR不仅是一个高效的预测指标,更象征着“数据驱动医学”时代的来临——通过机器学习挖掘隐藏于大数据的健康密码。看完这个思路该干啥不用馆长多说了吧!学起来,用起来,趁着机器学习还没全普及,发他个几篇高分!如果你也想用NHANES数据库+机器学习建模发高分,但搞不定数据选择和分析,快来后台找馆长,一起get更多发文秘诀吧! 

馆长有话说

馆长会持续为大家带来最新生信思路,也可以提供特色数据库构建、免费思路评估、付费生信分析等服务,对数据库构建和生信分析感兴趣的朋友可以咨询馆长哦!

生信分析

方案设计

生信服务器

孟德尔随机化

网络药理学

单细胞测序

临床公共数据库分析

往期推荐

1.继孟德尔随机化后,又一“不做实验”的高分发文赛道开启!浙大朱益民&周丹团队凭它拿下37.6分!

2.这本10分纯生信友好刊竟然被我漏掉了!11套数据集+24种机器学习模型,纯生信新思路!看老外如何把机器学习玩出花~

3.中草药提取物携“细胞衰老”登上Nature Aging!老外都开始研究中药了,你还在等什么?

Python社区是高质量的Python/Django开发社区
本文地址:http://www.python88.com/topic/179180