社区所有版块导航
Python
python开源   Django   Python   DjangoApp   pycharm  
DATA
docker   Elasticsearch  
aigc
aigc   chatgpt  
WEB开发
linux   MongoDB   Redis   DATABASE   NGINX   其他Web框架   web工具   zookeeper   tornado   NoSql   Bootstrap   js   peewee   Git   bottle   IE   MQ   Jquery  
机器学习
机器学习算法  
Python88.com
反馈   公告   社区推广  
产品
短视频  
印度
印度  
Py学习  »  机器学习算法

机器学习和普通回归预测模型哪个好?来看这项中国学者的比较研究

医学论文与统计分析 • 1 月前 • 34 次点击  
传统方法,如逻辑回归,已被广泛用于识别风险因素和预测疾病概率。
然而,随着高级统计技术的发展,机器学习模型为提高预测准确性提供了有前景的替代方案。
机器学习和普通回归构建预测模型哪个更好?机器学习真的比传统回归强吗?模型性能一定更好吗?
今天我们一起来看一篇中国医科大学学者2025年3月29日发表的文章,比较机器学习与逻辑回归方法在预测老年高心血管疾病风险人群骨质疏松症中的应用,题为:“A cross-sectional study comparing machine learning and logistic regression techniques for predicting osteoporosis in a group at high risk of cardiovascular disease among old adults”
一起找找答案!

由于骨质疏松症的发生受遗传、生活方式及环境等多种因素的影响,其预测存在较大挑战。
传统的逻辑回归(LR)方法已被用于构建骨质疏松症预测模型,但在捕捉复杂关系方面可能存在局限性。
随着机器学习(ML)的兴起,这种通过“学习”数据来预测结果的数据分析方法在骨质疏松症预测中正变得越来越流行。SHAP技术的应用使得每个变量都可以被解释和量化,使得机器学习不再只是一个“黑箱”过程,而是逐渐具备透明性和可解释性。
然而,高级机器学习算法是否能在特定领域优于传统广义线性模型,仍然存在争议。
因此,本研究共纳入211名参与者。数据收集完成后,研究者分别构建了机器学习模型和逻辑回归模型预测老年心血管疾病高风险人群骨质疏松症,以比较两者的表现。
经多重共线性诊断后,所有指标均在单变量和多变量模型中进行分析,并采用AIC最小化的向前和向后逐步法选择最终纳入模型的变量。
逻辑回归(LR)构建预测模型
使用逻辑回归(LR)模型拟合数据,构建包含遗传和环境信息的预测模型。
评估其校准度与区分度:
使用曲线下面积(AUC)评估模型的区分能力,AUC为0.751(0.6859-0.8166)。
使用 Brier 评分和校准曲线评估模型的校准度:
  • 模型的 Brier 评分为 0.199,小于 0.25;
  • 校准曲线显示预期概率和实际概率相似。
根据决策曲线分析 (DCA),老年人可能会从预测模型中获得良好的净收益。
内部验证模型,使用 bootstrap 重采样进行内部验证,AUC 为 0.75。内部验证结果表明,本研究应用的预测模型具有良好的稳定性和一致性。
并使用列线图(nomogram)可视化模型。
机器学习(ML)构建预测模型
在本研究中,选择了四种成熟的机器学习算法:支持向量机(SVM)、随机森林(RF)、决策树(DT)和极端梯度提升(XGBoost)这些方法擅长处理高维数据、非线性关系,并能够识别关键风险因素。可以揭示隐藏的模式和潜在的风险因素,从而实现更准确、更个性化的骨质疏松症风险预测。
数据集按 8:2 比例随机划分,其中 20% 作为测试集。
基于混淆矩阵的几个性能指标对模型进行评估,包括真阳性(TPs)、真阴性(TNs)、假阳性(FP)和假阴性(FN)、受试者工作曲线下特征面积(AUC)、正确率、召回率、F1得分。
各模型的受试者工作特征曲线(AUC)分别为:逻辑回归模型0.751,支持向量机模型0.72,随机森林模型0.70,XGBoost模型0.697,决策树模型0.69。总体而言,表现最好的模型是 Logistic 回归,其次是 SVM 和 RF。
本研究发现,在预测骨质疏松症时,多种机器学习方法的表现不及逻辑回归。

老郑小评

我们很难说明,机器学习和普通回归谁一定强过谁,但现在确实有很多文献相继指出,机器学习不优于传统模型,甚至传统回归模型优于机器学习。
但是本文中,由于样本量太小,对机器学习模型的统计功效有限,可能会影响模型的准确性。
郑老师想说,每种方法都有其自身的优缺点,没有任何一种方法是完美的。回归方法解释度很好,但灵活度不足;机器学习方法很灵活,但解释能力有限,在缺乏复杂交互或大样本量的数据集中,优势也会减弱。
所以,一个模型好不好,关键还是数据,而不是统计算法。

最后,在文末给郑老师我们团队打个统计服务广告吧,大家不要见怪哈!

我们将提供专业的机器学习预测模型数据分析服务


Python社区是高质量的Python/Django开发社区
本文地址:http://www.python88.com/topic/180694
 
34 次点击