StatQuest生物统计学 - 机器学习之ConfusionMatrix

Confusion Matrix，混淆矩阵也称误差矩阵，是表示机器学习预测精度的一种标准格式，用n行n列的矩阵形式来表示。

对于一份机器学习数据，一般会先分成Trainning Data和Testing Data，分别用于构建模型和模型评价。由于对于同一份数据而言，往往有多种机器学习算法可供选择，比如决策树、K近邻算法及logistic回归，那么可以同时做上述模型，然后选出最佳模型（Cross Validation），此时模型间的比较可以选择使用Confusion Matrix来对比。

以一个例子来看一下，有如下数据，使用Chest Pain、Good Blood Circ.、Blocked Arteries及Weight来预测病人是否患有Heart Disease。

比如使用决策树构建好模型后，会对TestingData进行预测，此时可以将预测值和实际值作如下表格，此表格就是Confusion Matrix。具体而言，Actual代表样本的真实情况，Predicted代表模型预测的样本情况，绿色代表模型正确预测了结果，而红色代表模型错误预测了结果。

假如决策树、K近邻算法及logistic回归的ConfusionMatrix结果如下，那么可以很明显的得出决策树的预测结果最好。

这是比较简单的情况，如果对于结果是比较复杂的情况，比如预测结果是三个分类的，询问一个人喜欢Jurassic Park III、Run for your Wife、Out Kold、Howard the Duck与否，从而预测其喜欢Troll2、Gore Plice、Cool As Ice三部电影中的哪一部。

那么其Confusion Matrix就是如下样式，绿色为正确预测结果，红色为错误预测结果。

进一步的，如果结果有40个分类，那么Confusion Matrix也会是40*40的一个矩阵，而对角线就是正确预测的结果。

参考资料：

StatQuest课程：https://statquest.org/video-index/

文末友情宣传

强烈建议你推荐给身边的博士后以及年轻生物学PI，多一点数据认知，让他们的科研上一个台阶：

生信技能树知识库

每周文献分享

https://www.yuque.com/biotrainee/weeklypaper

肿瘤外显子分析指南

https://www.yuque.com/biotrainee/wes

生物统计从理论到实践

https://www.yuque.com/biotrainee/biostat