Stacking 模型融合详解（附python代码）

向AI转型的程序员都关注了这个号👇👇👇

机器学习AI算法工程公众号： datayx

集成学习

Ensemble learning 中文名叫做集成学习，它并不是一个单独的机器学习算法，而是将很多的机器学习算法结合在一起，我们把组成集成学习的算法叫做“个体学习器”。在集成学习器当中，个体学习器都相同，那么这些个体学习器可以叫做“基学习器”。

个体学习器组合在一起形成的集成学习，常常能够使得泛化性能提高，这对于“弱学习器”的提高尤为明显。弱学习器指的是比随机猜想要好一些的学习器。

在进行集成学习的时候，我们希望我们的基学习器应该是好而不同，这个思想在后面经常体现。 “好”就是说，你的基学习器不能太差，“不同”就是各个学习器尽量有差异。

集成学习有两个分类，一个是个体学习器存在强依赖关系、必须串行生成的序列化方法，以Boosting为代表。另外一种是个体学习器不存在强依赖关系、可同时生成的并行化方法，以Bagging和随机森林（Random Forest）为代表。

Stacking 的基本思想

将个体学习器结合在一起的时候使用的方法叫做结合策略。对于分类问题，我们可以使用投票法来选择输出最多的类。对于回归问题，我们可以将分类器输出的结果求平均值。

上面说的投票法和平均法都是很有效的结合策略，还有一种结合策略是使用另外一个机器学习算法来将个体机器学习器的结果结合在一起，这个方法就是Stacking。

在stacking方法中，我们把个体学习器叫做初级学习器，用于结合的学习器叫做次级学习器或元学习器（meta-learner），次级学习器用于训练的数据叫做次级训练集。次级训练集是在训练集上用初级学习器得到的。

过程1-3 是训练出来个体学习器，也就是初级学习器。

过程5-9是使用训练出来的个体学习器来得预测的结果，这个预测的结果当做次级学习器的训练集。

过程11 是用初级学习器预测的结果训练出次级学习器，得到我们最后训练的模型。

如果想要预测一个数据的输出，只需要把这条数据用初级学习器预测，然后将预测后的结果用次级学习器预测便可。

访问AI图谱技术分享社区

https://loveai.tech

Stacking的实现

最先想到的方法是这样的，

1：用数据集D来训练h₁,h₂,h₃...，

2：用这些训练出来的初级学习器在数据集D上面进行预测得到次级训练集。

3：用次级训练集来训练次级学习器。

但是这样的实现是有很大的缺陷的。在原始数据集D上面训练的模型，然后用这些模型再D上面再进行预测得到的次级训练集肯定是非常好的。会出现过拟合的现象。

Stacking是模型融合的一个重要的方法，几乎每个数据科学竞赛的前几名都会使用，接下来我主要是介绍stacking的原理。

相信大家看很多stacking的资料都会看到下面的这个图：

这个图很形象，他具体是这样做的，

首先我们将训练集使用kfold切分为k分，每一分包括一个验证集和测试集，每次取其中k-1分训练，另外的1分用来验证，stacking是这样做的，比如对于集成的第一个模型，clf1，我们使用kfold交叉验证，那么可以得到k个clf1模型，模型的类型是一样的，但是模型里面学到的参数不一样，因为他们的训练集是不一样的，对与每一折的训练，我们还有一个验证集啊，那么我们用训练得到的模型在验证集合上做一次预测，你想，因为这个时候我们的验证集是不是只有1分，也就是只有train_set_number/k个样本(train_set_number表示训练样本的个数)，但是这只是一折啊，我们还有k折，每一折我们都会在验证集上预测，所以最终对于clf1在验证集上得到是不是train_set_number个结果，不用担心是没有重复的，因为你是kflod啊

是不是每一折的验证集样本都不会相同，也就是没有哪个样本同时出现在两个验证集上，这样下来，我们就得到第一级的结果，也是train_set_number个结果。然后在每一折上，我们在测试集上做一次预测，那么k个clf1模型预测k次得到了k个结果，也就是每一个样本预测结果有k个，我们就取一下平均，看到是取平均，这样取完平均以后每一个样本在clf1模型上就得到一个预测结果。这只是一个模型的过程，因为我们需要集成很多个模型，那么我重复n个模型，做法和上面是一样的，假设我们有n个模型，那么请问我们stacking第一层出来，在验证集上得到的结果特征是什么维度？应该就是训练样本的个数行(train_set_number),列数就是n吧，因为n个模型啊，这就是我们对第一层结果的一个特征堆叠方法，这样第一层出来的结果又可以作为特征训练第二层，第二层任然可以使用stacking多个模型，或者直接接一个模型用于训练，然后直接预测。那么同样，对于测试集第一层出来的维度是不是(test_set_number,n)，也就是测试集样本的行数，这样是不是可以用第二层训练的模型在这个上面预测，得到我们最后的结果。这个就是stacking的整个过程。

然后我们看一段stacking的代码：