社区所有版块导航
Python
python开源   Django   Python   DjangoApp   pycharm  
DATA
docker   Elasticsearch  
aigc
aigc   chatgpt  
WEB开发
linux   MongoDB   Redis   DATABASE   NGINX   其他Web框架   web工具   zookeeper   tornado   NoSql   Bootstrap   js   peewee   Git   bottle   IE   MQ   Jquery  
机器学习
机器学习算法  
Python88.com
反馈   公告   社区推广  
产品
短视频  
印度
印度  
Py学习  »  机器学习算法

IF=10.1,可能是目前最轻松的3数据库联用?MIMIC+eICU+NWICU,结合机器学习速发文章!

挑圈联靠 • 5 天前 • 90 次点击  

欢迎来看雪球讲发文套路!今天我们来看看获得国自然资助的团队,会怎样利用机器学习+临床公共数据库,构建高精度、高稳定性和强实用性的预测模型,发IF10+文章。


这篇文章考虑了两种疾病——

“脓毒症相关急性呼吸窘迫综合征”

在公共数据库中,一共能筛选到数千例符合要求的患者。


使用的三个数据库也是“共有乾坤”,都由PhysioNet平台分发。也就是说,通过该平台的数据要求,你能很方便地进行多数据库联合研究。一起来看看详情!



Enhancing early mortality prediction for sepsis-associated acute respiratory distress syndrome patients via optimized machine learning algorithm: development and multiple databases’ validation of the SAFE-Mo

通过优化机器学习算法提高脓毒症相关急性呼吸窘迫综合征患者的早期死亡率预测:SAFE-Mo模型的开发与多数据库验证


期刊:International Journal of Surgery

IF:10.1

发布时间:2025/09/01


思路迁移 | 课题设计 | 分析交付

添加雪球,回复“个性化”1v1了解详情


 技术路线 


数据来源与提取

MIMIC-IV v3.0、eICU CRD v2.0、NWICU v0.1.0三大数据库中,使用SQL提取符合脓毒症和ARDS诊断标准的患者数据。

(值得注意的是,这三个公共数据库都可以通过注册PhysioNet账号等流程获取数据。)

共纳入3451例患者(MIMIC-IV),其中死亡1175例,存活2276例。


数据预处理与缺失值处理

剔除缺失值>20%的患者,使用mice包进行多重插补(MI),采用随机森林插补法(rf)重复50次,插补后数据完整性提高,保留关键变量用于后续建模。


特征选择

使用Lasso回归进行变量筛选,结合10折交叉验证选择最优lambda值,从原始变量中筛选出32个关键变量,Kappa值从985降至59,显著降低共线性,提升模型稳定性。


模型构建

采用36种机器学习算法(包括SVM、XGBoost、随机森林等)进行建模,以AUC为主要评估指标。

svmRadialSigma算法表现最佳,被选为SAFE-Mo核心算法,AUC达0.814


模型验证

内部验证:MIMIC-IV数据划分训练集与验证集(8:2);

外部验证1:使用eICU CRD数据库(n=1802);

外部验证2:使用NWICU数据库(n=438),模拟变量缺失场景。

SAFE-Mo在各验证集中AUC分别为0.814、0.782、0.747,优于传统评分系统。


模型比较

与APSIII、SAPS II、SOFA、CCI进行比较,采用ROC曲线、AUC、DCA、校准曲线等指标,SAFE-Mo在所有指标上均优于传统模型,具有更高的判别力与临床净获益。


变量重要性分析

基于SAFE-Mo模型输出变量重要性评分,乳酸(最大/最小值)、尿量、阴离子间隙、血压、肾功能等为最关键预测因子。


临床效用评估

使用决策曲线分析(DCA)和校准曲线评估预测概率与真实结果的一致性,SAFE-Mo在0.2–0.8的风险阈值范围内具有更高的净获益,校准良好但略有高估,适合用于早期预警。


网络工具开发

开发简易网页版SAFE-Mo工具,输入关键变量即可输出风险评分提升模型可用性,支持临床决策与资源分配。


 研究结果 


Table 1 基线表
(可点击图片放大)


Fig 2 26天死亡率预测模型变量与算法的识别与筛选


Table 2 每个机器学习(ML)算法的评估


Fig 3 每个ML算法使用测试集预测26天死亡率的ROC曲线


 模型验证、比较和临床实用性 


Fig 4 SAFE-Mo的变量重要性分析与判别验证


Fig 5 SAFE-Mo,APSIII,SAPSII,SOFA,andCCI使用验证集预测26天死亡率的ROC曲线和临床实用性评估






想要构建出高精度、可泛化、应用型强的临床模型,有时可能需要多算法联合、使用一些相对少见的算法,进行特征选择;或多中心数据联合、特征解释,让模型泛化能力、解释能力得到提升。这些都可以提升文章的发表优势。


如果你也想发表更高影响因子上限的文章;

如果你也想加速获取可靠的、高置信度的科研成果;

如果你也想冲刺升学/升职/评优等多种场景,增加科研竞争力,

👇来找雪球,添加后回复“个性化”开始咨询吧。


添加后回复“个性化”咨询

 雪球的生信套路 每周周中讲解 

平台改版,记得星标⭐

才不会错过更新哦

Python社区是高质量的Python/Django开发社区
本文地址:http://www.python88.com/topic/188993