社区所有版块导航
Python
python开源   Django   Python   DjangoApp   pycharm  
DATA
docker   Elasticsearch  
aigc
aigc   chatgpt  
WEB开发
linux   MongoDB   Redis   DATABASE   NGINX   其他Web框架   web工具   zookeeper   tornado   NoSql   Bootstrap   js   peewee   Git   bottle   IE   MQ   Jquery  
机器学习
机器学习算法  
Python88.com
反馈   公告   社区推广  
产品
短视频  
印度
印度  
Py学习  »  机器学习算法

预测分析:机器学习Machine Learning 1:当Y是二分类变量

EmpowerStats • 3 年前 • 84 次点击  





文献实例


2016年发表在Crit Care Med的一项队列研究,运用机器学习(Machine Learning)的方法早期预测疾病恶化 [1]。(SCI IF=7.1)


X:人口学特征、实验室检查和生命体征等临床常规指标


Y:疾病恶化(心脏骤停、转入ICU或死亡),二分类变量(是/否)


研究对象:五家医院2008年至2013年的某类住院患者


本研究的亮点:用机器学习得出各个因素对预测的重要性排序,下图可以看出排在第一位的是呼吸频率,第二位的是心率。



配套视频







软件操作


数据格式是一个研究对象一行,第一行是变量名。例如用易侕软件自带的练习数据demo。选择数据分析-诊断试验与预测方程-机器学习与预测分析模块。“结果变量”放入DISEASE,“自变量”放性别、年龄等下图所示变量。Objective选择:“两分类或多分类”。其他设置用默认的就可以,查看结果。


得出一系列的图表结果,其中后缀为imp的图为各指标重要程度排序图。

 


各指标相对重要性(Relative importance)的数值在htm文件的表中查看:


 






临床运用


机器学习无法得出具体方程,不像逻辑回归方程那样能写出一个公式。机器学习的算法类似一个黑匣子,例如上例中点击.model文件可以下载到本机。临床工作时怎么用呢?


机器学习运行结果中有后缀是.xls的文件,其中Y=1的预测概率是xgb.pred.pr,预测值是xgb.prediction。如果数据中有新纳入的研究对象(Y还没有发生),将预测因子Xn的数据录入到excel数据文件中,运行机器学习模块,就可以得出预测值。(操作详见视频)








统计方法


易侕软件后台是R语言,具体的R包可以查看帮助文件如下表。例如,当结局指标是二分类,需要在文章中写是用XGBoost的R package。结果输出界面可以查看并调用R编改程序,爱好学习R的学友可以研究。





参考资料



[1]. Churpek, M.M., et al., Multicenter Comparison of Machine Learning Methods and Conventional Regression for Predicting Clinical Deterioration on the Wards. Crit Care Med, 2016. 44(2): p. 368-74.

[2].易典通 

http://www.empowerstats.com/analysis/menuHelp.php?ch=1&module=565

Python社区是高质量的Python/Django开发社区
本文地址:http://www.python88.com/topic/99969
 
84 次点击