Py学习  »  机器学习算法

StatQuest生物统计学 - 机器学习之ConfusionMatrix

生信菜鸟团 • 3 年前 • 427 次点击  

Confusion Matrix,混淆矩阵也称误差矩阵,是表示机器学习预测精度的一种标准格式,用n行n列的矩阵形式来表示。

对于一份机器学习数据,一般会先分成Trainning Data和Testing Data,分别用于构建模型和模型评价。由于对于同一份数据而言,往往有多种机器学习算法可供选择,比如决策树、K近邻算法及logistic回归,那么可以同时做上述模型,然后选出最佳模型(Cross Validation),此时模型间的比较可以选择使用Confusion Matrix来对比。

以一个例子来看一下,有如下数据,使用Chest Pain、Good Blood Circ.、Blocked Arteries及Weight来预测病人是否患有Heart Disease。

比如使用决策树构建好模型后,会对TestingData进行预测,此时可以将预测值和实际值作如下表格,此表格就是Confusion Matrix。具体而言,Actual代表样本的真实情况,Predicted代表模型预测的样本情况,绿色代表模型正确预测了结果,而红色代表模型错误预测了结果。

假如决策树、K近邻算法及logistic回归的ConfusionMatrix结果如下,那么可以很明显的得出决策树的预测结果最好。

这是比较简单的情况,如果对于结果是比较复杂的情况,比如预测结果是三个分类的,询问一个人喜欢Jurassic Park III、Run for your Wife、Out Kold、Howard the Duck与否,从而预测其喜欢Troll2、Gore Plice、Cool As Ice三部电影中的哪一部。

那么其Confusion Matrix就是如下样式,绿色为正确预测结果,红色为错误预测结果。

进一步的,如果结果有40个分类,那么Confusion Matrix也会是40*40的一个矩阵,而对角线就是正确预测的结果。

参考资料

  1. StatQuest课程:https://statquest.org/video-index/

文末友情宣传

强烈建议你推荐给身边的博士后以及年轻生物学PI,多一点数据认知,让他们的科研上一个台阶:

生信技能树知识库

每周文献分享

https://www.yuque.com/biotrainee/weeklypaper

肿瘤外显子分析指南

https://www.yuque.com/biotrainee/wes

生物统计从理论到实践

https://www.yuque.com/biotrainee/biostat



Python社区是高质量的Python/Django开发社区
本文地址:http://www.python88.com/topic/61878
 
427 次点击