数据来源与提取
从MIMIC-IV v3.0、eICU CRD v2.0、NWICU v0.1.0三大数据库中,使用SQL提取符合脓毒症和ARDS诊断标准的患者数据。
(值得注意的是,这三个公共数据库都可以通过注册PhysioNet账号等流程获取数据。)
共纳入3451例患者(MIMIC-IV),其中死亡1175例,存活2276例。
数据预处理与缺失值处理
剔除缺失值>20%的患者,使用mice包进行多重插补(MI),采用随机森林插补法(rf)重复50次,插补后数据完整性提高,保留关键变量用于后续建模。
特征选择
使用Lasso回归进行变量筛选,结合10折交叉验证选择最优lambda值,从原始变量中筛选出32个关键变量,Kappa值从985降至59,显著降低共线性,提升模型稳定性。
模型构建
采用36种机器学习算法(包括SVM、XGBoost、随机森林等)进行建模,以AUC为主要评估指标。
svmRadialSigma算法表现最佳,被选为SAFE-Mo核心算法,AUC达0.814
模型验证
内部验证:MIMIC-IV数据划分训练集与验证集(8:2);
外部验证1:使用eICU CRD数据库(n=1802);
外部验证2:使用NWICU数据库(n=438),模拟变量缺失场景。
SAFE-Mo在各验证集中AUC分别为0.814、0.782、0.747,优于传统评分系统。
模型比较
与APSIII、SAPS II、SOFA、CCI进行比较,采用ROC曲线、AUC、DCA、校准曲线等指标,SAFE-Mo在所有指标上均优于传统模型,具有更高的判别力与临床净获益。
变量重要性分析
基于SAFE-Mo模型输出变量重要性评分,乳酸(最大/最小值)、尿量、阴离子间隙、血压、肾功能等为最关键预测因子。
临床效用评估
使用决策曲线分析(DCA)和校准曲线评估预测概率与真实结果的一致性,SAFE-Mo在0.2–0.8的风险阈值范围内具有更高的净获益,校准良好但略有高估,适合用于早期预警。
网络工具开发
开发简易网页版SAFE-Mo工具,输入关键变量即可输出风险评分提升模型可用性,支持临床决策与资源分配。