「机器学习底层数学」

作者｜咖啡鱼

在机器学习中，随处可见的现象是，把任何没有先验知识的噪音假设为正态分布。但是为什么呢？谁规定噪音一定是符合正态分布？

噪音的正态分布假设有坚实的统计学理论支撑——中心极限定理（ Central Limit Theorem，简称CLT）。

该定理从数学层面解释了“大量微小独立扰动叠加后趋向正态分布”的规律，而机器学习中的噪音本质正是多种微小干扰的综合作用，因此正态分布成为噪音最自然、最通用的假设。本文将围绕中心极限定理的核心内容、证明逻辑，结合机器学习场景及最小二乘原理，完整阐述这一假设的合理性。

欢迎关注【深蓝AI】

将持续分享人工智能领域前沿动态👇

深蓝AI

—

中心极限定理的内容和两种形式

中心极限定理的核心思想的是：当多个独立的随机变量叠加时，无论这些随机变量本身服从何种分布（只要满足一定条件），它们的和或均值（均值就是和除以随机变量的个数）都会趋近于正态分布。这一思想恰好契合机器学习中噪音的形成逻辑，而其最核心、最常用的有两种形式，分别适配不同的场景需求。

（一）独立同分布CLT（Lindeberg–Lévy CLT）

这是最基础、最常用的形式，也是机器学习中标准场景（如iid采样、简单噪音建模）的核心理论依据，其条件和结论均简洁明确。

设随机变量序列满足三个条件——

1. 独立同分布，即每个随机变量相互独立，且服从同一个总体分布；

2. 总体均值存在；

3. 总体方差存在（即二阶矩有限）。

当样本量(n) 趋向于无穷大时，样本均值(\bar{X}n = \frac{1}{n}\sum{i=1}^n X_i) 经过标准化处理后，会趋近于标准正态分布(N(0,1))，数学表达式为：

通俗说，只要从同一个总体中独立重复采样，且总体存在有限方差，无论总体本身是均匀分布、二项分布还是其他任意分布，当采样量足够大时，样本均值的分布都会逼近正态分布。

（二）独立不同分布CLT（Lindeberg CLT）

这是更具通用性的形式，适配机器学习中更复杂的噪音场景（如多种异质干扰叠加），放松了“同分布”的限制，更贴合现实中噪音的形成过程。
设随机变量序列满足三个核心条件——

1. 相互独立，但无需服从同一个分布（即独立不同分布）；

2. 每个随机变量均存在均值和正方差；

3. 满足Lindeberg条件：对任意，都有

其中为示性函数（括号内条件成立时，示性函数值为1，否则为0）。Lindeberg条件的直观解读：没有任何一个随机变量的方差“独大”，且单个随机变量偏离其均值的程度不会过于显著（即单个变量对总和的影响可以忽略，所有变量的贡献相对均匀），避免某一个变量主导整个总和的分布。

核心结论是，当样本量趋向于无穷大时，所有随机变量的和经过标准化处理后，会趋近于标准正态分布，数学表达式为：

通俗解读：即使构成总和的每个随机变量服从不同的分布（比如有的是测量误差，有的是环境扰动，有的是标注偏差），只要每个扰动都足够小、没有某个扰动起主导作用，它们的叠加总和就会趋近于正态分布——这正是现实中机器学习噪音的典型特征。

两种形式的核心差异仅仅在于对“随机变量分布一致性”的要求。

深蓝AI

—

中心极限定理证明梗概

中心极限定理的严格证明需依赖概率论中的特征函数、极限理论等工具，此处不展开复杂的纯数学推导，仅给出核心证明思路（以更常用的独立同分布CLT为例），帮助理解“为什么叠加后会趋向正态分布”，尽可能兼顾严谨性和可读性。
核心证明思路（四步梗概）

1.标准化处理：将样本均值标准化为，本质是消除均值和方差的影响，将其转化为均值为0、方差为1的标准化随机变量，便于后续极限分析。

2.引入特征函数：特征函数是概率分布的等价表示（若两个随机变量的特征函数完全相同，则它们的分布完全相同），且具有“乘积性质”——独立随机变量之和的特征函数，等于各个随机变量特征函数的乘积。利用这一性质，可将“样本均值的分布”转化为“特征函数的极限”来求解。

3.泰勒展开近似：对单个随机变量的特征函数进行泰勒展开（围绕0点展开），结合“独立同分布”条件，将标准化变量(Y_n) 的特征函数表示为单个特征函数的n次幂。由于n趋向于无穷大，可对该n次幂进行极限化简（利用重要极限）。

4.极限求解：化简后可得到，当n趋向于无穷大时，(Y_n) 的特征函数恰好等于标准正态分布(N(0,1)) 的特征函数(e^{-\frac{t^2}{2}})。根据特征函数与分布的一一对应关系，可得出(Y_n) 趋向于标准正态分布的结论，即完成独立同分布CLT的证明。

补充说明：独立不同分布CLT的证明思路类似，核心差异在于需结合Lindeberg条件，证明“单个随机变量的特征函数对整体极限无主导影响”，最终同样可得到“总和标准化后趋向正态分布”的结论，其证明过程更侧重对“异质变量叠加”的约束验证。

图| 一组随机变量叠加后的特征函数，来自网络©【深蓝AI】编译

而特征函数（Characteristic Function, CF）和概率密度函数（Probability Density Function, PDF）是描述随机变量的两种核心工具。

PDF 是 “从结果看分布”，CF 是 “从频率看分布”；PDF 用于计算概率，CF 用于解决理论推导（如 CLT）。

PDF 就像地形图，显示哪里高（概率大）、哪里低（概率小）。

CF 就像指纹，它是地形图的傅里叶变换，虽然不直观，但能唯一确定这张地形图，且拼接（独立和）起来非常方便。

深蓝AI

—

CLT保证所有噪音被假设为正态分布的合理性

机器学习中的噪音，本质是“未被模型捕捉的所有微小干扰的总和”，而中心极限定理恰好解释了“为什么这些干扰的总和会趋向正态分布”——这正是噪音正态假设最核心的合理性来源，结合CLT的两种形式，可从两个层面具体看。

（一）现实中噪音的形成逻辑，完全契合CLT的前提条件

机器学习中，噪音的来源通常是多方面的，且各个来源相互独立，例如：

1.测量噪音：数据采集过程中，测量仪器的精度误差、人为读数偏差等，这类噪音通常是多个微小独立误差的叠加；

2.环境噪音：数据采集时的环境扰动（如温度、湿度变化）、传输过程中的信号干扰等，这些扰动相互独立，且单个扰动的影响较小；

3.标注噪音：人工标注数据时的主观偏差、标注标准的细微波动等，多个标注人员的微小偏差或同一人员的多次细微波动，构成独立的微小扰动；

4.未建模噪音：模型未捕捉到的微小特征，这些特征相互独立，且单个特征对输出的影响较小，叠加后形成未被建模的噪音。

这些噪音来源的共同特点是：独立、微小、数量多——这恰好满足中心极限定理（尤其是独立不同分布CLT）的前提条件：多个独立的随机变量（各噪音来源），无需同分布（不同来源的噪音可服从不同分布），且单个变量的影响较小（无单项支配），根据CLT，它们的叠加总和必然趋向正态分布。

（二）CLT的两种形式，覆盖了机器学习中所有常见噪音场景

1.简单场景：适配独立同分布CLT。当噪音主要来自单一来源（如仅存在测量噪音），且该来源的噪音服从同一分布、存在有限方差时，根据独立同分布CLT，当样本量足够大时，噪音的分布会逼近正态分布。例如，基础线性回归中，假设噪音仅来自测量误差，且误差独立同分布，此时正态假设完全符合CLT的结论。

2.复杂场景：适配独立不同分布CLT。当噪音来自多个异质来源（如测量噪音+环境噪音+标注噪音），各来源噪音服从不同分布时，根据独立不同分布CLT，只要每个来源的噪音足够微小、无单项支配，它们的叠加总和仍会趋向正态分布。这一形式更贴合现实中的复杂场景，解释了“为什么即使噪音来源复杂，仍可假设为正态分布”。

图| 图像的噪音就是模糊像素点，来自网络©【深蓝AI】编译

图| x就是像素值RGB里面的随机变量，来自网络©【深蓝AI】编译

（三）补充：正态假设的实用性，进一步强化了合理性

CLT不仅从理论上证明了噪音趋向正态分布，正态分布本身的良好性质（如对称性、单峰性、方差可解释性），也让其成为机器学习中最实用的噪音假设：

对称性：正负噪音出现的概率相对均匀，符合大多数场景中“误差无系统性偏差”的直觉；
单峰性：噪音的取值集中在均值附近（即微小噪音的概率更高，极端噪音的概率极低），与现实中“大部分数据的噪音较小，极端异常噪音罕见”的规律一致；
数学可解性：正态分布的概率密度函数简洁，便于后续的参数估计（如极大似然估计）和模型求解，这也是后续最小二乘与正态噪音假设等价的重要前提。

深蓝AI

—

最小二乘（OLS）等价于正态分布噪音下的极大似然估计

在机器学习的线性模型（如线性回归）中，最小二乘法（OLS）是最常用的参数估计方法，而其本质的是“正态分布噪音下的极大似然估计”——这一等价关系，进一步巩固了噪音正态假设的合理性：不仅CLT证明了噪音趋向正态，而且基于这一假设的参数估计方法（极大似然），恰好是最常用、最易求解的最小二乘法。

以下给出简洁、严谨的推导过程，明确二者的等价关系：

（一）模型设定与噪音假设

线性回归的基本模型为：

其中：为第i个样本的输出值，为第i个样本的特征向量（转置），为模型待估计的参数向量，为第i个样本的噪音项。

核心假设（基于CLT的噪音正态假设）：，且各噪音项独立同分布，即噪音服从均值为0、方差为的正态分布，且相互独立。

（二）推导极大似然估计（MLE）

1.由于，结合线性模型，输出值(y_i) 也服从正态分布：

即的均值为（模型的预测值），方差为。

2.单一样本的概率密度函数（正态分布的密度函数）：

3.样本联合似然函数：由于各样本独立同分布，所有样本的联合概率（似然函数）为单个样本概率密度的乘积：

4.对数似然函数：为简化求解（将乘积转化为加法，不改变极值点），对似然函数取自然对数：

（三）极大似然估计与最小二乘的等价性

极大似然估计的目标是：寻找参数，使得对数似然函数达到最大值。

观察对数似然函数的表达式，可发现：

第一项与待估计参数(\beta) 无关，是一个常数项；

第二项与相关，且系数为负数。

因此，最大化(\log\mathcal{L}(\beta))，等价于最小化其第二项中的“残差平方和”（Residual Sum of Squares，RSS）：

而最小化残差平方和，正是最小二乘法（OLS）的核心目标。

综上，可得出结论：在线性回归中，当噪音服从正态分布时，极大似然估计等价于最小二乘法。

这一等价关系的反向也成立：若采用最小二乘法估计线性模型参数，则本质上是隐含了“噪音服从正态分布”的假设。如果噪音不服从正态分布（如重尾分布、偏态分布），则极大似然估计不再等价于最小二乘法，且最小二乘法的估计效果会变差（不再是最优无偏估计）——这也从侧面说明，正态噪音假设不仅有CLT的理论背书，也与实际常用的参数估计方法深度绑定。

顺便说一下，似然likehood和概率的区别。似然是相似度的度量，概率是可能性的度量。概率是从规律（一般用模型表达规律）推结果；似然是从结果反推规律（代表规律的模型）。似然是推测的模型（以及它代表的规律）和真实采样表示的模型的相似度，当然越大越好。

深蓝AI

—

总结

机器学习中，将噪音假设为正态分布，是因为有中心极限定理（CLT）作为坚实的理论背书，同时结合了模型求解的实用性。

中心极限定理是噪音正态假设的核心理论支撑：CLT的两种形式（独立同分布、独立不同分布）均表明，多个独立、微小的随机变量叠加后，其和或均值会趋向正态分布。而机器学习中的噪音，本质正是多源、独立、微小的扰动叠加，完全契合CLT的前提条件，因此噪音趋向正态分布是必然的统计规律，而非人为做法。

独立同分布CLT适配简单噪音场景，独立不同分布CLT适配复杂噪音场景，二者共同覆盖了机器学习中所有常见的噪音情况，确保了正态假设的通用性——无论噪音来源单一还是复杂，只要满足“独立、微小”的核心特征，正态假设就具有合理性。

正态噪音假设与实际常用的参数估计方法（最小二乘法）深度绑定：在线性回归中，正态噪音下的极大似然估计等价于最小二乘法，而最小二乘法具有简洁、易求解、可解释性强的优势，这进一步巩固了正态噪音假设的实用性，使其成为机器学习中噪音建模的“默认选择”。

但是正态噪音假设是“近似合理”，远不是“绝对唯一”——当噪音存在明显的偏态、重尾或存在主导性干扰（不满足CLT的Lindeberg条件，即某一种噪音的波动过大、主导了所有噪音的总波动）时，正态假设不再适用，需更换为其他噪音假设（如拉普拉斯分布、t分布），但这类场景属于特例；对于绝大多数机器学习场景，噪音的各来源波动均匀、无主导项，满足Lindeberg条件，基于CLT的正态噪音假设，是兼顾理论合理性和实用便利性的最优选择。

审核｜阿蓝

商务推广/稿件投递请添加：xinran199706（备注商务合作）