Py学习  »  机器学习算法

机器学习新算法!混合效应模型+XGBoost强强联合

医学论文与统计分析 • 3 周前 • 75 次点击  

源自风暴统计网:一键统计分析与绘图的网站

在处理高维和大规模的数据上,机器学习具有很强的优势,它可以不依赖于线性关系或正态分布残差等假设,还允许纳入许多预测变量(其数量甚至可以超过观测值的数量),从而提高预测准确性。
但是它却不适用于纵向和分层数据。这是因为大多数算法都假设数据点是独立且均匀分布的。因此,当数据内部存在相关性时,这些方法可能表现不佳。
那机器学习对上纵向和层级数据难道就束手无策了吗?当然不!
2026年1月8日,《BMC Medical Research Methodology》(医学2区,IF=3.4)刊登了一篇文章,作者介绍了一种机器学习新算法—— Generalized Mixed-Effects eXtreme Gradient Boosting(GMEXGBoost),旨在为纵向与层次结构数据提供一种更灵活、更稳定的建模工具。
该算法既能保留极限梯度提升(XGBoost)的预测准确性和可扩展性,又能整合广义线性混合模型(GLMM)的随机效应结构,从而提高数据存在高相关性时的模型性能。
一起来学习这个新算法吧!

算法提出:GMEXGBoost

原本的GLMM通过区分固定效应和随机效应来处理复杂的层级数据,GMEXGBoost就是用XGBoost算法替代其中的固定效应部分;同时保留随机效应。

为何选择XGBoost算法?XGBoost 是一种流行的梯度提升算法,以其处理大规模数据的优异性能而闻名。

它的运行速度比传统的梯度提升(GBM)快十倍以上,并且在单机上运行时,比人工神经网络和支持向量机等其他流行的机器学习算法提供更好的结果。

GMEXGBoost模型的矩阵公式如下:g(μi)=ηi=f(Xi)+Zibi,其中:

  • f(Xi) 由XGBoost估计,表示固定效应;

  • Zibi 表示随机效应,用于捕捉组内相关性。

研究者采用迭代算法交替估计固定效应和随机效应,直至收敛。

模型评估:模拟研究和真实数据集

1.模拟研究

为了评估GMEXGBoost的有效性以及模型预测新个体的能力,研究者生成了8种不同模拟场景的数据集,每个数据集包含训练和测试组,具有不同的效应结构,包括随机截距和斜率

之后将其结果与线性模型(GLM)、GLMM、GLMM树、XGBoost和广义混合效应随机森林GMERF的结果进行比较;指标评估为预测平均绝对偏差(PMAD)预测误分类率(PMCR)。

结果显示虽然标准的XGBoost通常达到最低的平均误差,但GMEXGBoost在高相关性场景中表现更优,突显了其在分层数据结构中的稳健性。

2.真实数据研究

研究使用了法萨队列研究(FACS) ,该研究包括来自伊朗法萨29个村庄的10,146名年龄在35至70岁之间的参与者。

  • 结局变量:是否患有心血管疾病(CVD)。

  • 预测变量:人口统计学因素、睡眠模式、体重指数(BMI)等。

  • 评估指标:敏感性、特异性、准确率、AUC

研究者对Tree、随机森林(RF)、XGBoost、GLMM、GLMMTree、GMERF和GMEXGBoost模型的执行时间和预测性能进行了全面比较。

结果显示:

  • GMEXGBoost在敏感性(78%)和准确率(77%)上略优于其他模型(除了Tree);

  • 在混合模型中,GMEXGBoost展示了最短的运行时间。它的运行时间比GMERF快195.57秒,比Mixed Tree模型快387.35秒,突显了其计算效率。

总结

研究者尝试结合GLMM和XGBoost模型,以解决现有机器学习算法在处理纵向和分层数据方面的局限性。模型评估显示GMEXGBoost具有很强的优势:

  • 在高相关性场景中,GMEXGBoost比XGBoost更稳定,能提供更可靠、更可解释的结果;

  • 与GLMM模型相比,GMEXGBoost的表现优于它,并且显示出更低的方差;这种现象可归因于GMEXGBoost算法的迭代特性,这有助于稳定估计;

  • 该方法在保持预测准确性的同时,具有较好的计算效率和可扩展性。

因此,对于想要用复杂的层级数据做机器学习的人来说,这个算法无疑是一个较好、有益的选择。

高精度和快速计算的结合使得GMEXGBoost模型对于像个性化医疗这样数据具有聚类性质且需要可靠预测的应用特别有价值。

但是,需要注意的是,该模型需要仔细调参,对使用者统计背景要求较高。文章中数据分析使用的R代码研究者也已上传:

https://github.com/faas34188/GMEXGBoost/tree/main

感兴趣可以更进一步学习一下!

参考文献:Asadi, F., Homayounfar, R., Mehrali, Y. et al. Innovative statistical method for longitudinal and hierarchical data modeling: the GMEXGBoost method. BMC Med Res Methodol (2026). https://doi.org/10.1186/s12874-025-02751-7



关于郑老师团队及公众号

临床试验设计与数据分析,一条龙服务就找郑老师团队




1.临床试验整体研究类型设计

根据研究目的,指导完成各种整体研究类型设计:随机对照试验、非随机对照试验、整群随机对照试验、类实验等;并提供多种临床试验研究方案的建议并指导完善,包括多臂、多结局、析因设计、交叉设计、序贯设计、差异性、优效性、等效性、非劣效性、实效性等。


2.临床试验统计分析计划制定与撰写

我们提供全套临床试验的统计分析计划。包括帮助开展随机化分组、提供临床试验数据实施过程的盲法与分配隐藏方案;指导样本量计算(两组、多组样本);全力支持你们结合临床统计方案发表protocol,提供建议。


3.临床试验数据分析

郑老师团队擅长临床试验数据分析,根据统计方案完成数据分析;包括缺失数据处理与展示:简单插补、随机森林插补、多重插补;控制假阳性(两两比较);协方差分析,回归分析,交互与亚组分析,森林图等;多中心临床数据分析,CMH法、混合效应模型、分层分析以及重复测量数据分析方法。


4.撰写投稿

我们提供临床试验论文写作指导与SCI论文统计学修回服务,为统计学问题提供解决方案,为你保驾护航,直到你论文发表为止。


需以上统计服务,请联系郑老师团队(微信:sas555777)


图片


Python社区是高质量的Python/Django开发社区
本文地址:http://www.python88.com/topic/191612