机器学习数学基础详尽指南
前言
机器学习作为一门数据驱动的学科,其理论根基深植于数学的多个分支。理解并熟练运用相关的数学概念,不仅是读懂前沿论文的前提,更是设计新型算法、诊断模型问题、优化系统性能的关键能力。本指南旨在系统性地梳理机器学习中高频出现的数学知识,包括线性代数、微积分、概率论与统计、信息论以及数值优化。每一部分均包含核心定义、重要定理(部分附证明思路或严格证明)、典型例题与解答,以及经典参考文献来源。
主要参考来源:
- Bishop, C. M. (2006).Pattern Recognition and Machine Learning. Springer. (简称 PRML)
- Hastie, T., Tibshirani, R., & Friedman, J. (2009).The Elements of Statistical Learning. Springer. (简称 ESL)
- Goodfellow, I., Bengio, Y., & Courville, A. (2016).Deep Learning. MIT Press. (简称 DLB)
-
Strang, G. (2016).Introduction to Linear Algebra. Wellesley-Cambridge Press.
- Boyd, S., & Vandenberghe, L. (2004).Convex Optimization. Cambridge University Press. (简称 CVX)
第一部分:线性代数
线性代数是描述高维数据、参数空间及变换的语言。在机器学习中,数据点通常表示为向量,数据集表示为矩阵,而模型参数往往也是高维向量或矩阵。
1.1 标量、向量、矩阵与张量
定义 1.1.1 (标量 Scalar)一个标量是一个单一的数值。通常用斜体小写字母表示,如 。
定义 1.1.2 (向量 Vector)一个向量是一组有序排列的标量。可视为空间中的一个点或一个方向。通常用粗体小写字母表示,如 。
定义 1.1.3 (矩阵 Matrix)一个矩阵是一个二维数组。通常用粗体大写字母表示,如 。
定义 1.1.4 (张量 Tensor)张量是标量、向量、矩阵向更高维度的推广。通常用空心大写字母表示,如 。彩色图像(高 宽 通道)即为三阶张量。
1.2 基本矩阵运算
定义 1.2.1 (矩阵加法)若 ,则 。
定义 1.2.2 (矩阵乘法)若 ,则乘积 ,其中:
定义 1.2.3 (转置 Transpose)若 ,则其转置 ,满足 。
定义 1.2.4 (逆 Inverse)若方阵 存在矩阵 使得:
则称 可逆或非奇异。其中 为单位矩阵。
定理 1.2.1 (逆的性质)
定义 1.2.5 (迹 Trace)方阵 的迹为主对角线元素之和:
定理 1.2.2 (迹的性质)
证明: 设 。
交换求和顺序即证相等。此性质常用于简化标量对矩阵的导数。
1.3 范数
范数用于度量向量或矩阵的“长度”或“大小”。
定义 1.3.1 ( 范数)对于向量 ,其 范数定义为:
特别地:
定义 1.3.2 (Frobenius 范数)对于矩阵 ,Frobenius 范数定义为所有元素平方和的平方根:
例题 1.3.1:证明 。解答:
1.4 线性相关与张成空间
定义 1.4.1 (线性组合)对于向量集合 和标量 ,表达式 称为线性组合。
定义 1.4.2 (线性相关与无关)若存在不全为零的标量
使得 ,则称该组向量线性相关。否则线性无关。
定义 1.4.3 (张成空间 Span)向量组所有线性组合构成的集合称为其张成空间,记作 。
定义 1.4.4 (基与维数)若向量组线性无关且张成空间 ,则称其为 的一组基。基中向量的个数称为 的维数 。
1.5 秩
定义 1.5.1 (列秩与行秩)矩阵 的列秩是其线性无关列向量的最大个数;行秩是其线性无关行向量的最大个数。
定理 1.5.1 矩阵的行秩等于列秩,统称为矩阵的秩 。性质:
1.6 线性方程组
定理 1.6.1 (解的存在性与唯一性)对于线性方程组 ,其中 :
1.7 内积与正交
定义 1.7.1 (内积)向量 的标准内积(点积)为:
定义 1.7.2 (正交)若 ,则称 与 正交。
定义 1.7.3 (正交矩阵)若方阵 满足 ,即 ,则称 为正交矩阵。其列向量构成标准正交基。
定理 1.7.1 (勾股定理推广) 若 ,则 。
1.8 特征值与特征向量
这是理解主成分分析、谱聚类、矩阵幂运算的核心。
定义 1.8.1 (特征值与特征向量)对于方阵 ,若存在非零向量 和标量 满足:
则 称为特征值, 称为对应的特征向量。
定理 1.8.1 (特征多项式) 是
的特征值当且仅当 。
定义 1.8.2 (特征分解 Eigen-decomposition)若方阵 具有 个线性无关的特征向量(例如对称矩阵),则可分解为:
其中 是特征向量矩阵,。
定理 1.8.2 (实对称矩阵的性质)若 是对称矩阵():
应用: 协方差矩阵是对称半正定的,其特征分解即主成分分析的基础。
例题 1.8.1:求矩阵
的特征值与特征向量。解答:
1.9 奇异值分解 (Singular Value Decomposition, SVD)
SVD 是特征分解在非方阵上的推广,被誉为“线性代数的瑞士军刀”。
定理 1.9.1 (SVD 存在定理)对于任意矩阵 ,存在正交矩阵 和 ,以及对角矩阵
,使得:
其中 的主对角线元素 (),称为奇异值。
来源: 由 Eugenio Beltrami (1873) 和 Camille Jordan (1874) 独立提出。
证明思路: 考虑对称半正定矩阵 ,其非负特征值为 ,对应的特征向量构成 。定义 ,可证明 正交,扩张后构成 。
几何解释: 矩阵 作用相当于:旋转/反射 () 缩放 () 旋转/反射 ()。
应用:
- **降维 (PCA)**:取前 个奇异值对应的 作为投影矩阵。
- **矩阵近似 (Eckart-Young 定理)**:最佳低秩近似由截断 SVD 给出。
- **求伪逆 (Moore-Penrose Pseudoinverse)**:其中 是将 非零主对角元取倒数并转置。
例题 1.9.1:求 的 SVD。解答:
例题 1.9.2:求 的 SVD。解答:
1.10 矩阵微积分
在优化损失函数时,需对标量、向量、矩阵求导。
定义 1.10.1 (标量对向量的梯度)若 ,梯度向量
的第 个分量为 。通常表示为列向量。
定义 1.10.2 (向量对向量的导数 - 雅可比矩阵)若
,雅可比矩阵 定义为
。
定义 1.10.3 (海森矩阵 Hessian Matrix)若
二阶可导,海森矩阵 是二阶偏导矩阵:
若 二阶连续可导,则 对称。
重要公式表 (分母布局):
例题 1.10.1:推导线性最小二乘损失函数
的梯度,并求最优解。解答:
- 令梯度为零:(假设 可逆,该解称为正规方程 Normal Equation)。
第二部分:微积分与最优化
机器学习的核心是寻找使得损失函数最小(或似然最大)的参数。这本质上是优化问题,微分学提供了方向指引。
2.1 导数与偏导数
定义 2.1.1 (导数)一元函数 在点
的导数定义为:
它表示函数在该点处的瞬时变化率,即切线的斜率。
定义 2.1.2 (偏导数)多元函数 关于
的偏导数记为 ,定义为将其他变量视为常数时的导数。
定义 2.1.3 (方向导数与梯度)沿单位向量 的方向导数为
。梯度方向 是函数值上升最快的方向,其负方向 是下降最快的方向。
2.2 链式法则与反向传播
定理 2.2.1 (多元链式法则)若 且
,则
。 若 ,则雅可比矩阵满足:
反向传播 (Backpropagation) 本质是链式法则的高效实现。对于计算图,局部梯度向后传递相乘。
例题 2.2.1:计算
在 处的梯度。其中
。解答: (此处展示分解计算思想,数值计算略) 设 。
。 反向传播过程:给定
,计算 ,
,然后依次向前传递。这就是深度学习框架自动微分的原理。
2.3 泰勒展开
泰勒展开是用多项式逼近函数的核心工具。
定理 2.3.1 (一元泰勒公式)若 在 处 阶可导,则:
其中 为皮亚诺余项
。
定理 2.3.2 (多元二阶泰勒展开)对于
,在 附近:
其中 为海森矩阵。此式是牛顿法、梯度下降分析的基础。
2.4 凸优化基础
凸优化问题具有良好的性质:局部最优即全局最优。
定义 2.4.1 (凸集)集合 是凸的,若对任意 和
,有 。
定义 2.4.2 (凸函数)函数
是凸函数,若其定义域为凸集,且对任意 和 :
定理 2.4.1 (凸函数的一阶条件)若 可微,则 为凸函数当且仅当:
定理 2.4.2 (凸函数的二阶条件)若 二阶可微,则 为凸函数当且仅当海森矩阵 处处半正定(即
)。
例题 2.4.1:证明
在 上是凸函数。解答:二阶导数
,满足二阶条件,故为严格凸函数。
常见凸函数:
2.5 无约束优化与梯度下降
定理 2.5.1 (局部极值的必要条件)若
是无约束问题的局部极小点且 可微,则 。
定理 2.5.2 (局部极值的充分条件)若
且海森矩阵 正定,则 为严格局部极小点。
**梯度下降法 (Gradient Descent)**:
其中 为学习率。
定理 2.5.3 (梯度下降收敛性 - 粗略描述)对于具有 Lipschitz 连续梯度的凸函数,若 (
为 Lipschitz 常数),梯度下降保证以速率 收敛到最优解。
例题 2.5.1:利用梯度下降求
的最小值。初始值 ,。解答:导数
。 迭代:
... 逐渐趋近于
。
2.6 牛顿法与拟牛顿法
牛顿法 利用了二阶导数信息以加速收敛。
(推导:对二阶泰勒展开求导并令其为零。)
优点: 在极值点附近具有二次收敛速度(极快)。缺点: 计算和存储海森矩阵及其逆开销大,对非凸函数可能收敛到鞍点。
例题 2.6.1:用牛顿法求
的局部极小值,初值 。解答:
2.7 约束优化与拉格朗日乘数法
现实机器学习常带约束(如 SVM 中 ,PCA 中 )。
定理 2.7.1 (拉格朗日乘数法)考虑等式约束问题:
构造拉格朗日函数
。最优解的必要条件为:
且满足约束 。
几何意义: 在极值点,目标函数的梯度与约束曲面的法向量平行。
例题 2.7.1:求
在单位圆约束 下的最大值。解答:
2.8 KKT 条件 (Karush-Kuhn-Tucker Conditions)
对于不等式约束问题:
定义广义拉格朗日函数:
定理 2.8.1 (KKT 必要条件)若 为局部最优解且满足正则条件,则存在
和 使得:
意义: SVM 的对偶推导、带正则项问题的分析基石。
例题 2.8.1: 约束
。写出 KKT 条件并求解。解答:约束改写为 。
第三部分:概率论与数理统计
不确定性是机器学习处理的核心。概率论为量化不确定性提供了框架,统计学为从数据中推断规律提供了方法论。
3.1 概率基础
定义 3.1.1 (样本空间与事件)随机试验所有可能结果的集合称为样本空间 。 的子集称为事件。概率测度 满足:
定义 3.1.2 (条件概率)事件
在事件 发生条件下的概率为:
定理 3.1.1 (贝叶斯定理)
证明: 由条件概率定义,
。两边同除以 即得。
机器学习中的应用: 朴素贝叶斯分类器、贝叶斯参数估计。
**例题 3.1.1 (医学检测悖论)**:某疾病发病率为 ,检测准确率为
(患者阳性率 ,健康者阴性率 )。若某人检测为阳性,其真正患病的概率是多少?解答:设 为患病, 为阳性。
, ,
。
尽管检测准确率高,但由于基础发病率极低,阳性结果仍只有约 的概率是真患病。这凸显了先验概率的重要性。
3.2 随机变量与分布
定义 3.2.1 (随机变量)随机变量 是从样本空间 到实数 的函数。
定义 3.2.2 (累积分布函数 CDF)
定义 3.2.3 (概率质量函数 PMF / 概率密度函数 PDF)
3.3 重要分布家族
| | | | | |
|---|
| 伯努利 |
|
| |
| |
| 二项 | |
| | | |
|
多项 | |
| |
| |
|
泊松 | |
| | | |
| 均匀 |
|
| | | |
| 高斯(正态) | |
| |
| |
| 多元高斯 | |
| | | |
|
指数 | |
| | | |
| 贝塔 |
|
|
|
| |
| 狄利克雷 | |
|
| | |
来源: 贝塔分布与二项分布共轭,狄利克雷与多项共轭,这在贝叶斯统计中极为关键 (PRML 第2章)。
定理 3.3.1 (多元高斯分布的边缘与条件分布)若
,且划分为 。则:
此性质是高斯过程回归、卡尔曼滤波的数学基础。
3.4 期望、方差与协方差
定义 3.4.1 (期望 Expectation)
定理 3.4.1 (期望的线性性质)
(即使 与 不独立,线性性质也成立)
定义 3.4.2 (方差 Variance)
定义 3.4.3 (协方差 Covariance)
若 独立,则
。但反之不成立(相关不一定独立)。
定义 3.4.4 (相关系数)
3.5 大数定律与中心极限定理
这两个定理是统计推断的基石。
定理 3.5.1 (弱大数定律)设
为独立同分布 (i.i.d.) 随机变量,具有有限期望 。则样本均值
依概率收敛于 :
定理 3.5.2 (中心极限定理 CLT)设 为 i.i.d. 随机变量,具有有限期望
和有限方差 。则当 时,样本均值的分布趋近于正态分布:
意义: 无论原始数据分布如何,大样本下的均值分布近似高斯分布,这支撑了广泛的假设检验和置信区间构造。
例题 3.5.1:抛硬币 10000 次,求正面朝上次数在 4950 到 5050 之间的近似概率。解答:设
,则
。 由 CLT,
。
3.6 参数估计
统计推断的核心:从数据中估计分布的参数
。
定义 3.6.1 (似然函数 Likelihood)给定独立同分布样本 ,似然函数为:
方法一:最大似然估计 (MLE)
性质: 若存在有效估计量,MLE 是渐近无偏、一致且高效的(达到 Cramér-Rao 下界)。
例题 3.6.1:推导高斯分布 的 MLE。
解答:
- 对 求导并令为 0:注意:该估计量是有偏的,无偏估计需用
。
方法二:最大后验估计 (MAP)引入参数的先验分布 ,利用贝叶斯定理求后验概率最大的点:
等价于:带正则项的 MLE。例如,若先验为高斯分布
,则对数后验包含 项,即 正则化。
3.7 共轭先验
定义 3.7.1 若先验分布 和后验分布 属于同一分布族,则称该先验为似然函数的共轭先验。
常见共轭对:
- 似然:高斯(已知均值) 先验:逆伽马 后验:逆伽马
定理 3.7.1 (贝塔-二项共轭)若先验
,观测到 次伯努利试验中有 次成功,则后验分布为:
证明: 后验正比于
,即贝塔核。
第四部分:信息论
信息论提供了量化不确定性与信息量的数学工具,在决策树分裂、交叉熵损失、变分推断中至关重要。
4.1 熵
定义 4.1.1 (自信息)事件
的自信息量为 。底数为 2 时单位为比特,底数为 时单位为奈特。
定义 4.1.2 (香农熵 Shannon Entropy)随机变量
的熵是自信息的期望:
对于连续变量,称为微分熵
。
性质:
例题 4.1.1:计算伯努利随机变量
的熵。解答:
该函数在 时最大,为 1 比特。
4.2 联合熵与条件熵
定义 4.2.1 (联合熵)
定义 4.2.2 (条件熵)给定 下
的不确定性期望:
定理 4.2.1 (链式法则)
4.3 互信息
定义 4.3.1 (互信息 Mutual Information)衡量两个变量共享的信息量,即知道
后 不确定性减少的量:
性质:
4.4 KL 散度 (相对熵)
定义 4.4.1 (Kullback-Leibler Divergence)衡量两个概率分布 和
的差异程度:
(连续形式将求和改为积分)
定理 4.4.1 (吉布斯不等式)
且等号成立当且仅当 几乎处处成立。证明概要: 利用
的凸性质:
等号仅当 对所有 成立。
注意: KL 散度非对称、不满足三角不等式,故非真正距离。
机器学习应用:
- 最大似然估计等价于最小化 KL 散度: 设真实分布为 ,模型分布为 。
4.5 交叉熵
定义 4.5.1 (交叉熵 Cross Entropy)
由于 与模型参数无关,最小化交叉熵等价于最小化 KL 散度。这正是分类任务中 softmax 交叉熵损失的数学基础。
例题 4.5.1:推导多分类交叉熵损失关于逻辑值 的梯度。解答:模型输出概率
。 损失
,其中 为 one-hot 向量。
这一简洁优雅的形式是 softmax 加交叉熵被广泛采用的原因。
第五部分:数值计算与优化算法
理论和公式最终需要转化为计算机可执行的数值算法。本节关注具体的优化算法细节。
5.1 梯度下降变种
5.1.1 批量梯度下降 (Batch GD)每次迭代使用全量数据计算梯度。
缺点: 大数据集下每轮迭代计算量巨大,无法在线学习。
5.1.2 随机梯度下降 (SGD)每次迭代随机抽取一个样本
更新:
优点: 计算快,可跳出局部极小点(噪声帮助探索)。缺点: 梯度估计方差大,收敛路径震荡。
5.1.3 小批量梯度下降 (Mini-batch GD)折中方案,每批 个样本。
定理 5.1.1 (SGD 收敛性) 若学习率满足 Robbins-Monro 条件 ,SGD 几乎必然收敛到局部极小点。
5.2 动量法
物理直觉: 将参数优化看作小球在损失曲面上滚动,动量保持之前移动方向,减少震荡。
其中
为动量衰减系数(通常 )。
5.3 Nesterov 加速梯度 (NAG)先按动量方向前进一步,再计算梯度修正:
理论优势: 对于凸函数,NAG 能达到
收敛速率,优于标准动量的 。
5.4 自适应学习率算法
5.4.1 AdaGrad独立适应每个参数的学习率:累积历史梯度平方和 。
缺点: 学习率单调递减至零,后期停止学习。
5.4.2 RMSProp改进 AdaGrad,使用指数移动平均衰减累积量,避免学习率过早衰减。
5.4.3 Adam (Adaptive Moment Estimation)结合动量与 RMSProp,是目前最主流的优化器之一。
来源: Kingma, D. P., & Ba, J. (2015). Adam: A Method for Stochastic Optimization. ICLR.
5.5 约束优化算法示例:投影梯度下降
对于约束 ,标准梯度下降后进行投影操作:
其中
为向可行域的欧氏投影。
例题 5.5.1:求
满足 。使用投影梯度下降一步,初始
,。解答:
- 投影到直线 上:即求点 到直线的最近点。 直线法向量
,过点 作垂线
。 代入约束:
。 投影点 。这正是该问题的最优解。
5.6 对偶上升与增广拉格朗日法 (ADMM 简介)
对于带等式约束的问题,除了直接解 KKT,还可利用对偶性迭代求解。ADMM (Alternating Direction Method of Multipliers) 融合了对偶上升的可分解性与增广拉格朗日的强收敛性,适用于大规模分布式优化。
增广拉格朗日函数:
ADMM 迭代格式:
ADMM 在分布式机器学习、图像处理、压缩感知等领域应用广泛。
第六部分:综合案例与高阶定理
6.1 主成分分析 (PCA) 的推导
问题: 寻找投影方向 (单位向量),使得投影方差最大。
推导:
- 对
求导:
。结论: 是 的特征向量, 是对应特征值。
- 代回目标:
。故最大方差方向即最大特征值对应的特征向量。后续主成分依次对应次大特征值,且由于 对称,各主成分正交。
6.2 支持向量机 (SVM) 的对偶推导
原始问题 (硬间隔):
对偶推导:
亮点: 数据仅以内积形式出现,为引入核函数铺平道路。
6.3 核方法 (Kernel Methods)
定义 6.3.1 (核函数)函数
若存在映射 使得
,则称其为核函数。
定理 6.3.1 (Mercer 定理)函数 是有效核函数的充要条件是其对应的 Gram 矩阵
对于任意有限点集是半正定的。
常见核函数:
**表示定理 (Representer Theorem)**:优化形如
的泛函时,最优解总可表示为
。这使得无限维优化退化为有限维参数优化。
6.4 期望最大化算法 (EM 算法)
用于含隐变量模型的最大似然估计(如高斯混合模型 GMM)。
问题:
。
算法步骤:
- **E 步 (Expectation)**:基于当前参数 ,计算隐变量后验分布
,并构造辅助函数
。
- **M 步 (Maximization)**:极大化 函数得到新参数
。
定理 6.4.1 (EM 算法的单调性)EM 算法保证对数似然单调不减:
证明概要:
其中 是条件熵。M 步增大 值,而
项相对于 的 KL 散度非负特性保证了似然提升。
6.5 Cramér-Rao 下界
定理 6.5.1 在正则条件下,任意无偏估计量 的方差下界为 Fisher 信息量的倒数:
其中 Fisher 信息
。
意义: 给出了参数估计精度的理论极限,用于评估估计量效率。MLE 在样本量趋于无穷时能达到此下界。
6.6 贝叶斯信息准则 (BIC) 与 Akaike 信息准则 (AIC)
用于模型选择,权衡拟合优度与复杂度。
- BIC:
其中
为参数个数, 为样本数。BIC 对复杂模型的惩罚更重。
第七部分:附录与速查表
7.1 常用矩阵导数速查(分母布局)
7.2 概率分布共轭关系表
7.3 经典不等式
- **霍夫丁不等式 (Hoeffding's Inequality)**:设 为独立随机变量,则
。这是 PAC 学习理论的基石。
- **琴生不等式 (Jensen's Inequality)**:若 为凸函数,则
。这是推导 EM 算法与变分下界 (ELBO) 的关键。
结语
机器学习数学基础的广度与深度要求从业者具备跨分支的综合应用能力。从线性代数提供的数据表示空间,到微积分构建的优化路径,再到概率统计对不确定性的建模,最后依托信息论进行度量与评估,这四大支柱共同支撑了机器学习理论的大厦。
本指南虽力求详尽,然篇幅所限,诸多定理的严格测度论证明、流形上的优化、随机过程(马尔可夫链蒙特卡洛方法基础)等未能尽述。读者若对特定方向感兴趣,建议精读文首列出的经典参考文献,并结合代码实现以加深理解。数学在机器学习中不仅是工具,更是一种思维方式——它教会我们从高维、随机与最优的角度审视数据中的模式。