「机器学习底层数学」
在机器学习中,随处可见的现象是,把任何没有先验知识的噪音假设为正态分布。但是为什么呢?谁规定噪音一定是符合正态分布?
噪音的正态分布假设有坚实的统计学理论支撑——中心极限定理(
Central Limit Theorem,简称CLT)。
该定理从数学层面解释了“大量微小独立扰动叠加后趋向正态分布”的规律,而机器学习中的噪音本质正是多种微小干扰的综合作用,因此正态分布成为噪音最自然、最通用的假设。本文将围绕中心极限定理的核心内容、证明逻辑,结合机器学习场景及最小二乘原理,完整阐述这一假设的合理性。
中心极限定理的核心思想的是:当多个独立的随机变量叠加时,无论这些随机变量本身服从何种分布(只要满足一定条件),它们的和或均值(均值就是和除以随机变量的个数)都会趋近于正态分布。这一思想恰好契合机器学习中噪音的形成逻辑,而其最核心、最常用的有两种形式,分别适配不同的场景需求。
(一)独立同分布CLT(Lindeberg–Lévy CLT)这是最基础、最常用的形式,也是机器学习中标准场景(如iid采样、简单噪音建模)的核心理论依据,其条件和结论均简洁明确。
设随机变量序列满足三个条件——
1. 独立同分布,即每个随机变量相互独立,且服从同一个总体分布;当样本量(n) 趋向于无穷大时,样本均值(\bar{X}n = \frac{1}{n}\sum{i=1}^n X_i) 经过标准化处理后,会趋近于标准正态分布(N(0,1)),数学表达式为:
通俗说,只要从同一个总体中独立重复采样,且总体存在有限方差,无论总体本身是均匀分布、二项分布还是其他任意分布,当采样量足够大时,样本均值的分布都会逼近正态分布。
(二)独立不同分布CLT(Lindeberg CLT)
这是更具通用性的形式,适配机器学习中更复杂的噪音场景(如多种异质干扰叠加),放松了“同分布”的限制,更贴合现实中噪音的形成过程。
设随机变量序列 满足三个核心条件——1. 相互独立,但无需服从同一个分布(即独立不同分布);
其中 为示性函数(括号内条件成立时,示性函数值为1,否则为0)。Lindeberg条件的直观解读:没有任何一个随机变量的方差“独大”,且单个随机变量偏离其均值的程度不会过于显著(即单个变量对总和的影响可以忽略,所有变量的贡献相对均匀),避免某一个变量主导整个总和的分布。核心结论是,当样本量 趋向于无穷大时,所有随机变量的和经过标准化处理后,会趋近于标准正态分布,数学表达式为:通俗解读:即使构成总和的每个随机变量服从不同的分布(比如有的是测量误差,有的是环境扰动,有的是标注偏差),只要每个扰动都足够小、没有某个扰动起主导作用,它们的叠加总和就会趋近于正态分布——这正是现实中机器学习噪音的典型特征。两种形式的核心差异仅仅在于对“随机变量分布一致性”的要求。中心极限定理的严格证明需依赖概率论中的特征函数、极限理论等工具,此处不展开复杂的纯数学推导,仅给出核心证明思路(以更常用的独立同分布CLT为例),帮助理解“为什么叠加后会趋向正态分布”,尽可能兼顾严谨性和可读性。
核心证明思路(四步梗概)
1.标准化处理:将样本均值 标准化为,本质是消除均值和方差的影响,将其转化为均值为0、方差为1的标准化随机变量,便于后续极限分析。
2.引入特征函数:特征函数是概率分布的等价表示(若两个随机变量的特征函数完全相同,则它们的分布完全相同),且具有“乘积性质”——独立随机变量之和的特征函数,等于各个随机变量特征函数的乘积。利用这一性质,可将“样本均值的分布”转化为“特征函数的极限”来求解。
3.泰勒展开近似:对单个随机变量 的特征函数进行泰勒展开(围绕0点展开),结合“独立同分布”条件,将标准化变量(Y_n) 的特征函数表示为单个特征函数的n次幂。由于n趋向于无穷大,可对该n次幂进行极限化简(利用重要极限
)。
4.极限求解:化简后可得到,当n趋向于无穷大时,(Y_n) 的特征函数恰好等于标准正态分布(N(0,1)) 的特征函数(e^{-\frac{t^2}{2}})。根据特征函数与分布的一一对应关系,可得出(Y_n) 趋向于标准正态分布的结论,即完成独立同分布CLT的证明。
补充说明:独立不同分布CLT的证明思路类似,核心差异在于需结合Lindeberg条件,证明“单个随机变量的特征函数对整体极限无主导影响”,最终同样可得到“总和标准化后趋向正态分布”的结论,其证明过程更侧重对“异质变量叠加”的约束验证。
图| 一组随机变量叠加后的特征函数,来自网络©【深蓝AI】编译
而特征函数(Characteristic Function, CF) 和 概率密度函数(Probability Density Function, PDF) 是描述随机变量的两种核心工具。
PDF 是 “从结果看分布”,CF 是 “从频率看分布”;PDF 用于计算概率,CF 用于解决理论推导(如 CLT)。
PDF 就像地形图,显示哪里高(概率大)、哪里低(概率小)。
CF 就像指纹,它是地形图的傅里叶变换,虽然不直观,但能唯一确定这张地形图,且拼接(独立和)起来非常方便。
机器学习中的噪音,本质是“未被模型捕捉的所有微小干扰的总和”,而中心极限定理恰好解释了“为什么这些干扰的总和会趋向正态分布”——这正是噪音正态假设最核心的合理性来源,结合CLT的两种形式,可从两个层面具体看。
(一)现实中噪音的形成逻辑,完全契合CLT的前提条件机器学习中,噪音的来源通常是多方面的,且各个来源相互独立,例如:
1.测量噪音:数据采集过程中,测量仪器的精度误差、人为读数偏差等,这类噪音通常是多个微小独立误差的叠加;
2.环境噪音:数据采集时的环境扰动(如温度、湿度变化)、传输过程中的信号干扰等,这些扰动相互独立,且单个扰动的影响较小;
3.标注噪音:人工标注数据时的主观偏差、标注标准的细微波动等,多个标注人员的微小偏差或同一人员的多次细微波动,构成独立的微小扰动;
4.未建模噪音:模型未捕捉到的微小特征,这些特征相互独立,且单个特征对输出的影响较小,叠加后形成未被建模的噪音。
这些噪音来源的共同特点是:独立、微小、数量多——这恰好满足中心极限定理(尤其是独立不同分布CLT)的前提条件:多个独立的随机变量(各噪音来源),无需同分布(不同来源的噪音可服从不同分布),且单个变量的影响较小(无单项支配),根据CLT,它们的叠加总和必然趋向正态分布。
(二)CLT的两种形式,覆盖了机器学习中所有常见噪音场景
1.简单场景:适配独立同分布CLT。当噪音主要来自单一来源(如仅存在测量噪音),且该来源的噪音服从同一分布、存在有限方差时,根据独立同分布CLT,当样本量足够大时,噪音的分布会逼近正态分布。例如,基础线性回归中,假设噪音仅来自测量误差,且误差独立同分布,此时正态假设完全符合CLT的结论。
2.复杂场景:适配独立不同分布CLT。当噪音来自多个异质来源(如测量噪音+环境噪音+标注噪音),各来源噪音服从不同分布时,根据独立不同分布CLT,只要每个来源的噪音足够微小、无单项支配,它们的叠加总和仍会趋向正态分布。这一形式更贴合现实中的复杂场景,解释了“为什么即使噪音来源复杂,仍可假设为正态分布”。
图| 图像的噪音就是模糊像素点,来自网络©【深蓝AI】编译
图| x就是像素值RGB里面的随机变量,来自网络©【深蓝AI】编译
CLT不仅从理论上证明了噪音趋向正态分布,正态分布本身的良好性质(如对称性、单峰性、方差可解释性),也让其成为机器学习中最实用的噪音假设:
对称性:正负噪音出现的概率相对均匀,符合大多数场景中“误差无系统性偏差”的直觉;
-
单峰性:噪音的取值集中在均值附近(即微小噪音的概率更高,极端噪音的概率极低),与现实中“大部分数据的噪音较小,极端异常噪音罕见”的规律一致;
数学可解性:正态分布的概率密度函数简洁,便于后续的参数估计(如极大似然估计)和模型求解,这也是后续最小二乘与正态噪音假设等价的重要前提。
最小二乘(OLS)等价于正态分布噪音下的极大似然估计在机器学习的线性模型(如线性回归)中,最小二乘法(OLS)是最常用的参数估计方法,而其本质的是“正态分布噪音下的极大似然估计”——这一等价关系,进一步巩固了噪音正态假设的合理性:不仅CLT证明了噪音趋向正态,而且基于这一假设的参数估计方法(极大似然),恰好是最常用、最易求解的最小二乘法。
以下给出简洁、严谨的推导过程,明确二者的等价关系:
其中:为第i个样本的输出值, 为第i个样本的特征向量(转置), 为模型待估计的参数向量, 为第i个样本的噪音项。
核心假设(基于CLT的噪音正态假设):,且各噪音项独立同分布,即噪音服从均值为0、方差为 的正态分布,且相互独立。
1.由于,结合线性模型,输出值(y_i) 也服从正态分布:
即的均值为(模型的预测值),方差为。
2.单一样本的概率密度函数(正态分布的密度函数):
3.样本联合似然函数:由于各样本独立同分布,所有样本的联合概率(似然函数)为单个样本概率密度的乘积:
4.对数似然函数:为简化求解(将乘积转化为加法,不改变极值点),对似然函数取自然对数:
极大似然估计的目标是:寻找参数,使得对数似然函数 达到最大值。
观察对数似然函数的表达式,可发现:
第一项 与待估计参数(\beta) 无关,是一个常数项;
第二项与 相关,且系数为负数。
因此,最大化(\log\mathcal{L}(\beta)),等价于最小化其第二项中的“残差平方和”(Residual Sum of Squares,RSS):
而最小化残差平方和,正是最小二乘法(OLS)的核心目标。
综上,可得出结论:在线性回归中,当噪音服从正态分布时,极大似然估计等价于最小二乘法。
这一等价关系的反向也成立:若采用最小二乘法估计线性模型参数,则本质上是隐含了“噪音服从正态分布”的假设。如果噪音不服从正态分布(如重尾分布、偏态分布),则极大似然估计不再等价于最小二乘法,且最小二乘法的估计效果会变差(不再是最优无偏估计)——这也从侧面说明,正态噪音假设不仅有CLT的理论背书,也与实际常用的参数估计方法深度绑定。
顺便说一下,似然likehood和概率的区别。似然是相似度的度量,概率是可能性的度量。概率是从规律(一般用模型表达规律)推结果;似然是从结果反推规律(代表规律的模型)。似然是推测的模型(以及它代表的规律)和真实采样表示的模型的相似度,当然越大越好。
机器学习中,将噪音假设为正态分布,是因为有中心极限定理(CLT)作为坚实的理论背书,同时结合了模型求解的实用性。中心极限定理是噪音正态假设的核心理论支撑:CLT的两种形式(独立同分布、独立不同分布)均表明,多个独立、微小的随机变量叠加后,其和或均值会趋向正态分布。而机器学习中的噪音,本质正是多源、独立、微小的扰动叠加,完全契合CLT的前提条件,因此噪音趋向正态分布是必然的统计规律,而非人为做法。独立同分布CLT适配简单噪音场景,独立不同分布CLT适配复杂噪音场景,二者共同覆盖了机器学习中所有常见的噪音情况,确保了正态假设的通用性——无论噪音来源单一还是复杂,只要满足“独立、微小”的核心特征,正态假设就具有合理性。正态噪音假设与实际常用的参数估计方法(最小二乘法)深度绑定:在线性回归中,正态噪音下的极大似然估计等价于最小二乘法,而最小二乘法具有简洁、易求解、可解释性强的优势,这进一步巩固了正态噪音假设的实用性,使其成为机器学习中噪音建模的“默认选择”。但是正态噪音假设是“近似合理”,远不是“绝对唯一”——当噪音存在明显的偏态、重尾或存在主导性干扰(不满足CLT的Lindeberg条件,即某一种噪音的波动过大、主导了所有噪音的总波动)时,正态假设不再适用,需更换为其他噪音假设(如拉普拉斯分布、t分布),但这类场景属于特例;对于绝大多数机器学习场景,噪音的各来源波动均匀、无主导项,满足Lindeberg条件,基于CLT的正态噪音假设,是兼顾理论合理性和实用便利性的最优选择。商务推广/稿件投递请添加:xinran199706(备注商务合作)
💪致力于帮助各位朋友「打破隐形的墙」,共建一个更自由、更有深度、更有价值的交流生态社区!在各大企业工作的,可以相互内推,互通有无;在学校读研读博的,可以交流想法,携手合作。· 计划周期:深蓝学院将以3个月为一个周期,建立工程师&学术研究者的「同好社群」
· 覆盖方向:自动驾驶、具身智能(人形、四足、轮式、机械臂)、视觉、无人机、大模型、医学人工智能……16个热门领域
扫码添加阿蓝
选择想要加入的交流群即可
(按照提交顺序邀请,请尽早选择)
👇
