社区所有版块导航
Python
python开源   Django   Python   DjangoApp   pycharm  
DATA
docker   Elasticsearch  
aigc
aigc   chatgpt  
WEB开发
linux   MongoDB   Redis   DATABASE   NGINX   其他Web框架   web工具   zookeeper   tornado   NoSql   Bootstrap   js   peewee   Git   bottle   IE   MQ   Jquery  
机器学习
机器学习算法  
Python88.com
反馈   公告   社区推广  
产品
短视频  
印度
印度  
Py学习  »  机器学习算法

杀疯了!中国学者联合8种机器学习法+MIMIC多数据集,发文一区top(IF=8.8)

公共数据库与孟德尔随机化 • 5 天前 • 13 次点击  

 引言

要想构建临床预测模型,机器学习绝对是不二选择!

今天分享一篇公共数据库+机器学习的高分文章,中国学者用8种机器学习算法构建可解释性临床预测模型,研究设计流畅、统计分析规范,想做机器学习的朋友们可以借鉴一下这篇文章!

新发房颤(NOAF)是心脏手术后患者最常见的并发症,总体发病率为31%至74%。先前的研究发现,NOAF的发生可能会增加患者的中风、心力衰竭(HF)以及死亡风险。

近年来,机器学习(ML)在医学领域的应用越来越广泛,尤其在构建患者的生存和预后预测模型方面取得了不少成果。因此,本研究同样使用ML方法构建危重患者NOAF风险人群识别模型,并利用SHAP法对模型进行可视化解读。

2024年10月29日,中国学者MIMIC-IVMIMIC-III两个数据集,在期刊Critical Care(医学一区top,IF=8.8)发表题为Interpretable machine learning model for new-onset atrial fibrillation prediction in critically ill patients: a multi-center study”的研究论文,旨在使用机器学习(ML)创建并验证危重患者的NOAF预测型,同时使用SHAP法对模型结果进行解释。

本公号回复“ 原文”即可获得文献PDF资料。就在本周末,我们的基于R语言构建机器学习课程开课啦如感兴趣请联系郑老师团队,微信号:aq566665

在该项研究中,研究团队使MIMIC数据库的两个非重叠数据集:

  • MIMIC-IV用于构建模型,经过纳排,最终纳入16,528名年龄≥18岁,入住ICU超过2天、未接受心脏手术切无AF病史的参与者(对于多次入住ICU的患者,仅纳入患者首次入住ICU时的入住记录)
  • MIMIC-III的子集用作外部验证,最终纳入6,037名符合条件的参与者。




图1 研究设计
√数据收集
研究团队使用PostgreSQL中的结构化查询语言(SQL),从两个数据库中提取前24小时内入住ICU的患者的数据,包括人口学信息、合并症、实验室指标、生命体征及治疗措施等。由于提取的变量较多,本文就不一一展示了。
除变量经皮动脉血氧饱和度(SpO 2)外,其余变量都取第一天的最大值和最小值进行多次测量。
√数据处理
为减少缺失数据对模型构建的影响,使用KNNImputer(KNN)方法插补缺失小于20%的数据,并丢弃缺失大于20%的数据。
由于因变量中的类别不平衡,采用欠采样的方式对数据进行重采样,使数据达到平衡。
主要结局:患者在ICU入院后第一天发生NOAF。

Lasso法筛选特征

在特征较多的情况下,研究者采用lasso方法进行特征筛选。
  • 引入L1正则化,通过压缩系数、筛选贡献较大的特征、剔除冗余特征等方法进行特征选择和降维。

最终,纳入了与NOAF密切相关的23个变量(包括入院年龄、种族、体重、尿量、WBC_max(白色细胞)、BUN_min(血尿素氮)、钾_min、HR_min(心率)、HR_max、SBP_min(收缩压)、DBP_max(舒张压)、MBP_min、RR_min、temperature_min、temperature_max、SpO2_min、慢性肝病、HFrEF、HFpEF、脓毒症、机械通气、CRRT、血管加压药)

图2  基于Lasso回归的变量筛选

A)变系数的变化特征;(B) 用交叉验证对Lasso回归模型中参数λ最优值进行选择


模型性能比较

使用8种机器学习(ML)法构建预测模型(包括极限梯度提升(XGBoost)、支持向量机(SVM)、自适应提升(Adaboost)、多层感知器(MLP)、神经网络(NN)、朴素贝叶斯(NB)、逻辑回归(LR)和梯度提升机(GBM))
  • 采用10重交叉验证法保证模型的稳定性;
  • 网格调整参数为每种算法选择最佳调整参数。
使用多种指标评估模型性能,包括ROC曲线、AUC值、敏感性、特异性、F1分数、准确性等,并绘制校准曲线和决策曲线(DCA)分析模型的临床适用性。
  • 在参数调整过程中,选取AUC值最大的模型为最佳预测模型。

研究结果表明,XGBoost表现最好,在验证中达到0.891(0.873-0.888)的AUC,在外部验证中达到0.769(0.756-0.782)。

图3 机器学习模型的ROC曲线


SHAP法进行可解释性分析

最后通过SHAP方法分析XGBoost模型的特征贡献,以SHAP力图和群体图形式可视化模型的可解释性。
结果表明,关键预测因素包括年龄、机械通气、尿量、脓毒症、BUN、SpO2、CRRT和体重。

图4 使用SHAP可视化解释机器学习模型

上所述,研究团队使用8种ML算法通过筛选ICU入院前24小时内的23个临床变量来构建预测模型。
结果表明,XGBoost算法表现出强大的性能,具有鉴别力和校准能力,并在临床实践中显示出巨大的净效益。外部验证队列的结果进一步证实了模型的稳定性和准确性。为了更深入地了解模型,还用SHAP方法进行可视化,得出关键预测指标。

同样是构建临床预测模型,别人都在用机器学习分析了,你还在常规套路挣扎?如果你也对机器学习课程感兴趣,不妨来看看郑老师推出的基于R语言的机器学习构建临床预测模型课程!面对面线上授课,实时交流,不怕零基础!

关注“公共数据库与孟德尔随机化”公众号,了解更多最新发文风向!

郑老师统计团队及公众号

全国较大的线上医学统计服务平台,专注于医学生、医护工作者学术研究统计支持,我们是你们统计助理!


我们提供以医学数据数据挖掘统计服务
①NAHANES:一二区论文占半数
②MIMIC:急诊数据分析与机器学习建模
GBD:全球、中国各种疾病患病、死亡研究
孟德尔随机化:疾病的因果推断研究

同时我们提供上述数据库的挖掘的一对一指导

GBD、NHANES医学数据库挖掘1对1R语言指导

联系助教陈老师咨询(微信号sas555777


Python社区是高质量的Python/Django开发社区
本文地址:http://www.python88.com/topic/176334
 
13 次点击