机器学习中的数据不平衡解决方案大全

点击上方“小白学视觉”，选择加"星标"或“置顶”

重磅干货，第一时间送达

作者：章华燕（算法工程师 —— 金桥智慧科技）

作者博客地址：http://blog.csdn.net/u013709270

前言

在机器学习任务中，我们经常会遇到这种困扰：数据不平衡问题。

数据不平衡问题主要存在于有监督机器学习任务中。当遇到不平衡数据时，以总体分类准确率为学习目标的传统分类算法会过多地关注多数类，从而使得少数类样本的分类性能下降。绝大多数常见的机器学习算法对于不平衡数据集都不能很好地工作。

本文介绍几种有效的解决数据不平衡情况下有效训练有监督算法的思路。

1 . 重新采样训练集

可以使用不同的数据集。有两种方法使不平衡的数据集来建立一个平衡的数据集——欠采样和过采样。

1.1. 欠采样

欠采样是通过减少丰富类的大小来平衡数据集，当数据量足够时就该使用此方法。通过保存所有稀有类样本，并在丰富类别中随机选择与稀有类别样本相等数量的样本，可以检索平衡的新数据集以进一步建模。

1.2. 过采样

相反，当数据量不足时就应该使用过采样，它尝试通过增加稀有样本的数量来平衡数据集，而不是去除丰富类别的样本的数量。通过使用重复、自举或合成少数类过采样等方法（SMOTE）来生成新的稀有样品。

注意到欠采样和过采样这两种方法相比而言，都没有绝对的优势。这两种方法的应用取决于它适用的用例和数据集本身。另外将过采样和欠采样结合起来使用也是成功的。

2 . 使用 K-fold 交叉验证

值得注意的是，使用过采样方法来解决不平衡问题时应适当地应用交叉验证。这是因为过采样会观察到罕见的样本，并根据分布函数应用自举生成新的随机数据，如果在过采样之后应用交叉验证，那么我们所做的就是将我们的模型过拟合于一个特定的人工引导结果。这就是为什么在过度采样数据之前应该始终进行交叉验证，就像实现特征选择一样。只有重复采样数据可以将随机性引入到数据集中，以确保不会出现过拟合问题。

K-fold 交叉验证就是把原始数据随机分成 K 个部分，在这 K 个部分中选择一个作为测试数据，剩余的 K-1 个作为训练数据。交叉验证的过程实际上是将实验重复做 K 次，每次实验都从 K 个部分中选择一个不同的部分作为测试数据，剩余的数据作为训练数据进行实验，最后把得到的 K 个实验结果平均。

3 . 转化为一分类问题

对于二分类问题，如果正负样本分布比例极不平衡，我们可以换一个完全不同的角度来看待问题：把它看做一分类（One Class Learning）或异常检测（Novelty Detection）问题。这类方法的重点不在于捕捉类间的差别，而是为其中一类进行建模，经典的工作包括 One-class SVM 等，如下图所示：

One Class SVM 是指你的训练数据只有一类正（或者负）样本的数据，而没有另外的一类。在这时，你需要学习的实际上你训练数据的边界。而这时不能使用最大化软边缘了，因为你没有两类的数据。所以呢，在这边文章中，“Estimating the support of a high-dimensional distribution”， Schölkopf 假设最好的边缘要远离特征空间中的原点。左边是在原始空间中的边界，可以看到有很多的边界都符合要求，但是比较靠谱的是找一个比较紧的边界（红色的）。这个目标转换到特征空间就是找一个离原点比较远的边界，同样是红色的直线。当然这些约束条件都是人为加上去的，你可以按照你自己的需要采取相应的约束条件。比如让你 data 的中心离原点最远。

说明：对于正负样本极不均匀的问题，使用异常检测，或者一分类问题，也是一个思路。

4 . 组合不同的重采样数据集

成功泛化模型的最简单方法是使用更多的数据，问题是像逻辑回归或随机森林这样开箱即用的分类器，倾向于通过舍去稀有类来泛化模型。一个简单的最佳实践是建立 n 个模型，每个模型使用稀有类别的所有样本和丰富类别的 n 个不同样本。假设想要合并 10 个模型，那么将保留例如 1000 例稀有类别，并随机抽取 10000 例丰富类别。然后，只需将 10000 个案例分成 10 块，并训练 10 个不同的模型。

如果拥有大量数据，这种方法是简单并且是可横向扩展的，这是因为可以在不同的集群节点上训练和运行模型。集合模型也趋于泛化，这使得该方法易于处理。

5 . 用不同比例重新采样

方法 4 可以很好地将稀有类别和丰富类别之间的比例进行微调，最好的比例在很大程度上取决于所使用的数据和模型。但是，不是在整体中以相同的比例训练所有模型，所以值得尝试合并不同的比例。如果 10 个模型被训练，有一个模型比例为 1：1 （稀有：丰富）和另一个 1：3 甚至是 2：1 的模型都是有意义的。一个类别获得的权重依赖于使用的模型。

6 . 多模型Bagging

方法 5 虽然能够选出最好的样本数据比例。但是它的鲁棒性不能够保证：它的鲁棒性取决于测试集样本的选取。

为了解决上述方法的缺陷，增加模型鲁棒性。为此，我本人在随机森林算法思想的启发下，想出了在上述方法的基础上，将不同比例下训练出来的模型进行多模型 Bagging 操作，具体的步骤如下：

对两类样本选取 N 组不同比例的数据进行训练并测试，得出模型预测的准确率：

对上述各模型的准确率进行归一化处理，得到新的权重分布：

其中：

按权重分布 Ω 组合多个模型，作为最终的训练器：

对于分类任务：

对于回归任务：

7 . 集群丰富类

Sergey Quora 提出了一种优雅的方法，他建议不要依赖随机样本来覆盖训练样本的种类，而是将 r 个群体中丰富类别进行聚类，其中 r 为 r 中的例数。每个组只保留集群中心（medoid）。然后，基于稀有类和仅保留的类别对该模型进行训练。

7.1. 对丰富类进行聚类操作

首先，我们可以对具有大量样本的丰富类进行聚类操作。假设我们使用的方法是 K-Means 聚类算法。此时，我们可以选择 K 值为稀有类中的数据样本的个数，并将聚类后的中心点以及相应的聚类中心当做富类样本的代表样例，类标与富类类标一致。

7.2. 聚类后的样本进行有监督学习

经过上述步骤的聚类操作，我们对富类训练样本进行了筛选，接下来我们就可以将相等样本数的K个正负样本进行有监督训练。如下图所示：

8 . 设计适用于不平衡数据集的模型

所有之前的方法都集中在数据上，并将模型保持为固定的组件。但事实上，如果设计的模型适用于不平衡数据，则不需要重新采样数据，著名的XGBoost已经是一个很好的起点，因此设计一个适用于不平衡数据集的模型也是很有意义的。

通过设计一个代价函数来惩罚稀有类别的错误分类而不是分类丰富类别，可以设计出许多自然泛化为稀有类别的模型。例如，调整SVM以惩罚稀有类别的错误分类。

参考文献：

https://mp.weixin.qq.com/s/TlRo4NbpNxHMftp4Cvq5PQ

好消息！
小白学视觉知识星球
开始面向外开放啦👇👇👇




    


下载1：OpenCV-Contrib扩展模块中文版教程
在「小白学视觉」公众号后台回复：扩展模块中文教程，即可下载全网第一份OpenCV扩展模块教程中文版，涵盖扩展模块安装、SFM算法、立体视觉、目标跟踪、生物视觉、超分辨率处理等二十多章内容。

下载2：Python视觉实战项目52讲
在「小白学视觉」公众号后台回复：Python视觉实战项目，即可下载包括图像分割、口罩检测、车道线检测、车辆计数、添加眼线、车牌识别、字符识别、情绪检测、文本内容提取、面部识别等31个视觉实战项目，助力快速学校计算机视觉。

下载3：OpenCV实战项目20讲
在「小白学视觉」公众号后台回复：OpenCV实战项目20讲，


    
即可下载含有20个基于OpenCV实现20个实战项目，实现OpenCV学习进阶。

交流群

欢迎加入公众号读者群一起和同行交流，目前有SLAM、三维视觉、传感器、自动驾驶、计算摄影、检测、分割、识别、医学影像、GAN、算法竞赛等微信群（以后会逐渐细分），请扫描下面微信号加群，备注：”昵称+学校/公司+研究方向“，例如：”张三 + 上海交大 + 视觉SLAM“。请按照格式备注，否则不予通过。添加成功后会根据研究方向邀请进入相关微信群。请勿在群内发送广告，否则会请出群，谢谢理解~