2016年发表在Crit Care Med的一项队列研究,运用机器学习(Machine Learning)的方法早期预测疾病恶化 [1]。(SCI IF=7.1)
X:人口学特征、实验室检查和生命体征等临床常规指标
Y:疾病恶化(心脏骤停、转入ICU或死亡),二分类变量(是/否)
研究对象:五家医院2008年至2013年的某类住院患者
本研究的亮点:用机器学习得出各个因素对预测的重要性排序,下图可以看出排在第一位的是呼吸频率,第二位的是心率。
配套视频
数据格式是一个研究对象一行,第一行是变量名。例如用易侕软件自带的练习数据demo。选择数据分析-诊断试验与预测方程-机器学习与预测分析模块。“结果变量”放入DISEASE,“自变量”放性别、年龄等下图所示变量。Objective选择:“两分类或多分类”。其他设置用默认的就可以,查看结果。
得出一系列的图表结果,其中后缀为imp的图为各指标重要程度排序图。
各指标相对重要性(Relative importance)的数值在htm文件的表中查看:
机器学习无法得出具体方程,不像逻辑回归方程那样能写出一个公式。机器学习的算法类似一个黑匣子,例如上例中点击.model文件可以下载到本机。临床工作时怎么用呢?
机器学习运行结果中有后缀是.xls的文件,其中Y=1的预测概率是xgb.pred.pr,预测值是xgb.prediction。如果数据中有新纳入的研究对象(Y还没有发生),将预测因子Xn的数据录入到excel数据文件中,运行机器学习模块,就可以得出预测值。(操作详见视频)
易侕软件后台是R语言,具体的R包可以查看帮助文件如下表。例如,当结局指标是二分类,需要在文章中写是用XGBoost的R package。结果输出界面可以查看并调用R编改程序,爱好学习R的学友可以研究。
[1]. Churpek, M.M., et al., Multicenter Comparison of Machine Learning Methods and Conventional Regression for Predicting Clinical Deterioration on the Wards. Crit Care Med, 2016. 44(2): p. 368-74.
[2].易典通
http://www.empowerstats.com/analysis/menuHelp.php?ch=1&module=565