优化 | 机器学习超参数：用大白话讲清楚模型调优的秘密

在机器学习的世界里，有一个神秘而关键的角色，它虽然不像模型架构那样引人注目，也不像数据那样直观。

但它对模型的性能有着至关重要的影响，它就是超参数。你可能会好奇：

“超参数到底是什么？为什么它如此重要？”

别急，今天就让我们用最通俗易懂的方式，揭开超参数的神秘面纱。

No.1

超参数是什么？

在机器学习中，超参数就像是模型的“调节旋钮”，通过调整这些旋钮，可以让模型表现得更好。

想象一下，你在用烤箱烤面包，温度、时间和火力大小这些参数需要你自己提前设置好，才能烤出完美的面包。

▲ 用烤箱烤面包

机器学习中的超参数也是类似的，它们是我们在训练模型之前需要设置好的参数，决定了模型如何学习数据中的规律。

简单来说，超参数是我们在模型训练之前需要手动设置的参数，这些参数会影响模型的训练过程和最终性能。与之相对的是模型参数，模型参数是在训练过程中通过数据自动学习得到的。

👇👇👇

✍️为什么需要超参数呢？✍️

想象一下，你在学习打篮球，教练需要决定每次训练的时间、训练的强度、什么时候提醒你调整姿势……这些决策会影响你的学习效果。

▲ 教练，我想打篮球

超参数的作用也是一样的，它们决定了模型如何学习数据中的规律，从而影响模型的性能。

控制模型复杂度：超参数可以帮助我们控制模型的复杂度，避免过拟合或欠拟合。
调整学习过程：超参数可以调整模型的学习速度、学习方式等，让模型更好地适应数据。
优化性能：通过合理设置超参数，可以提高模型的准确性和泛化能力。

No.2

常见的超参数

接下来，就让我们来盘点一下那些常见的超参数，看看它们是如何影响模型的。

一、学习率

学习率（Learning Rate）是机器学习中最常见的超参数之一。它决定了模型在训练过程中每次更新的步长。

如果学习率太大，模型可能会像一个急躁的运动员，跨步过大而错过最佳位置，导致训练过程不稳定甚至发散；

▲ 不同学习率对模型影响

如果学习率太小，模型又会像一个过于谨慎的行者，每一步都小心翼翼，导致训练速度过慢，甚至陷入局部最优而无法继续前进。

选择合适的学习率，就像是找到一个合适的步伐，既能快速前进，又能稳稳地到达目的地。

二、正则化参数

正则化参数（Regularization Parameter）是用来防止模型过拟合的“刹车”。

在机器学习中，模型可能会因为过于复杂而对训练数据“死记硬背”，导致在新的数据上表现不佳。

▲ L1 正则化和 L2 正则化

正则化参数的作用就是给模型加上一定的约束，让它不要过于复杂。

想象一下，一个学生在考试前背诵了所有的题目和答案，虽然在模拟考试中表现很好，但遇到新的题目就无从下手。

正则化参数就像是给学生设置的“思考范围”，让他不要只依赖记忆，而是学会总结规律。

常见的正则化方法有 L1 正则化和 L2 正则化，它们通过不同的方式限制模型的复杂度。

三、迭代次数

迭代次数（Epochs）指的是模型在整个训练数据集上完整训练的次数。

就像学生复习功课一样，复习一遍可能还不太熟练，多复习几遍才能更好地掌握知识。但复习次数也不能太多，否则可能会出现“过度学习”（过拟合）的情况。

▲ 迭代和迭代次数的影响

迭代次数决定了模型训练的“深度”，太少可能导致模型欠拟合，太多又可能导致过拟合。

找到合适的迭代次数，就像是找到复习的“黄金时间”，既能学好知识，又不会浪费时间。

四、批大小

批大小（Batch Size）是指每次训练时输入模型的数据量。

想象一下，你有一大堆食材要做菜，你可以一次性全部做完，也可以分成几批来做。

▲ 批处理中的Batch Size

如果批大小太大，模型可能会因为一次性处理太多数据而“消化不良”，导致训练不稳定；如果批大小太小，模型又会因为每次处理的数据太少而训练效率低下。

合适的批大小可以让模型在训练过程中既能高效处理数据，又能保持稳定的训练效果。

五、隐藏层大小

隐藏层大小（Hidden Layer Size）是指神经网络中隐藏层的神经元数量。

隐藏层是神经网络的核心部分，它决定了模型的“思考能力”。

▲ 神经网络中不同大小的隐藏层

隐藏层越大，模型的表达能力越强，但也更容易过拟合；隐藏层太小，模型又可能无法捕捉到足够的信息。

选择合适的隐藏层大小，就像是给大脑配置合适的神经元数量，既要能思考复杂的问题，又不能过于复杂而浪费资源。

六、树的数量

在集成学习方法（如随机森林）中，树的数量（Number of Trees）是一个重要的超参数。

每棵树都是一个简单的模型，通过组合多棵树来提高整体的性能。

▲ 随机森林中树的数量

树的数量太少，模型的性能可能不够好；树的数量太多，又会增加计算成本和模型复杂度。

选择合适的树的数量，就像是组建一个高效的团队，既要有人数足够完成任务，又不能人浮于事。

No.3

如何选择超参数？

选择合适的超参数就像是“调教”模型，需要根据具体问题和数据进行调整。以下是一些常见的方法：

1. 网格搜索（Grid Search）

网格搜索就像是“地毯式搜索”，通过遍历所有可能的超参数组合，找到最优的超参数。

虽然这种方法可以找到最优解，但计算成本很高，尤其是当超参数较多时。

2. 随机搜索（Random Search）

随机搜索就像是 “随机抽样”，通过随机选择超参数组合，找到较好的超参数。

这种方法比网格搜索更高效，但可能无法找到最优解。

3. 贝叶斯优化（Bayesian Optimization）

贝叶斯优化就像是“智能搜索”，通过建立超参数和模型性能之间的概率模型，智能地选择超参数。

这种方法比网格搜索和随机搜索更高效，但实现起来更复杂。

结语

超参数就像是模型的“调教秘籍”，通过合理设置超参数，可以控制模型的复杂度、调整学习过程、优化性能。

通过理解常见的超参数（如学习率、正则化参数、迭代次数、批次大小、树的深度、隐藏层神经元数量）以及选择合适的方法（如网格搜索、随机搜索、贝叶斯优化），可以让模型更好地学习数据中的规律，从而在实际应用中发挥出最佳水平。

注：文章中未声明图片均来源于互联网

微信公众号后台回复

加群：加入全球华人OR|AI|DS社区硕博微信学术群

资料：免费获得大量运筹学相关学习资料

人才库：加入运筹精英人才库，获得独家职位推荐

电子书：免费获取平台小编独家创作的优化理论、运筹实践和数据科学电子书，持续更新中ing...

加入我们：加入「运筹OR帷幄」，参与内容创作平台运营

知识星球：加入「运筹OR帷幄」数据算法社区，免费参与每周「领读计划」、「行业inTalk」、「OR会客厅」等直播活动，与数百位签约大V进行在线交流

文章须知

推文作者：Fairy Girl

责任编辑：Road Rash

微信编辑：疑疑

文章转载自『Fairy Girl』公众号，原文链接：机器学习超参数：用大白话讲清楚模型调优的秘密

关注我们