机器学习数学基础详尽指南

前言

机器学习作为一门数据驱动的学科，其理论根基深植于数学的多个分支。理解并熟练运用相关的数学概念，不仅是读懂前沿论文的前提，更是设计新型算法、诊断模型问题、优化系统性能的关键能力。本指南旨在系统性地梳理机器学习中高频出现的数学知识，包括线性代数、微积分、概率论与统计、信息论以及数值优化。每一部分均包含核心定义、重要定理（部分附证明思路或严格证明）、典型例题与解答，以及经典参考文献来源。

主要参考来源：

Bishop, C. M. (2006).Pattern Recognition and Machine Learning. Springer. (简称 PRML)
Hastie, T., Tibshirani, R., & Friedman, J. (2009).The Elements of Statistical Learning. Springer. (简称 ESL)
Goodfellow, I., Bengio, Y., & Courville, A. (2016).Deep Learning. MIT Press. (简称 DLB)
Strang, G. (2016).Introduction to Linear Algebra. Wellesley-Cambridge Press.
Boyd, S., & Vandenberghe, L. (2004).Convex Optimization. Cambridge University Press. (简称 CVX)

第一部分：线性代数

线性代数是描述高维数据、参数空间及变换的语言。在机器学习中，数据点通常表示为向量，数据集表示为矩阵，而模型参数往往也是高维向量或矩阵。

1.1 标量、向量、矩阵与张量

定义 1.1.1 (标量 Scalar)一个标量是一个单一的数值。通常用斜体小写字母表示，如。

定义 1.1.2 (向量 Vector)一个向量是一组有序排列的标量。可视为空间中的一个点或一个方向。通常用粗体小写字母表示，如。

定义 1.1.3 (矩阵 Matrix)一个矩阵是一个二维数组。通常用粗体大写字母表示，如。

定义 1.1.4 (张量 Tensor)张量是标量、向量、矩阵向更高维度的推广。通常用空心大写字母表示，如。彩色图像（高宽通道）即为三阶张量。

1.2 基本矩阵运算

定义 1.2.1 (矩阵加法)若，则。

定义 1.2.2 (矩阵乘法)若，则乘积，其中：

定义 1.2.3 (转置 Transpose)若，则其转置，满足。

定义 1.2.4 (逆 Inverse)若方阵存在矩阵使得：

则称可逆或非奇异。其中为单位矩阵。

定理 1.2.1 (逆的性质)

（前提是逆均存在）

定义 1.2.5 (迹 Trace)方阵的迹为主对角线元素之和：

定理 1.2.2 (迹的性质)

（循环性质）

证明： 设。

交换求和顺序即证相等。此性质常用于简化标量对矩阵的导数。

1.3 范数

范数用于度量向量或矩阵的“长度”或“大小”。

定义 1.3.1 ( 范数)对于向量，其范数定义为：

特别地：

范数：（绝对值之和，诱导稀疏性）
范数（欧几里得范数）：
范数（最大范数）：

定义 1.3.2 (Frobenius 范数)对于矩阵，Frobenius 范数定义为所有元素平方和的平方根：

例题 1.3.1：证明。解答：

左边不等式：设。则。得证。
右边不等式：。得证。

1.4 线性相关与张成空间

定义 1.4.1 (线性组合)对于向量集合和标量，表达式称为线性组合。

定义 1.4.2 (线性相关与无关)若存在不全为零的标量使得，则称该组向量线性相关。否则线性无关。

定义 1.4.3 (张成空间 Span)向量组所有线性组合构成的集合称为其张成空间，记作。

定义 1.4.4 (基与维数)若向量组线性无关且张成空间，则称其为的一组基。基中向量的个数称为的维数。

1.5 秩

定义 1.5.1 (列秩与行秩)矩阵的列秩是其线性无关列向量的最大个数；行秩是其线性无关行向量的最大个数。

定理 1.5.1 矩阵的行秩等于列秩，统称为矩阵的秩。性质：

。
。
若可逆，则（满秩）。

1.6 线性方程组

定理 1.6.1 (解的存在性与唯一性)对于线性方程组，其中：

解存在当且仅当属于的列空间（即）。
若且可逆，则解唯一。
若（超定），通常无精确解，需求最小二乘解。
若（欠定），通常有无穷多解。

1.7 内积与正交

定义 1.7.1 (内积)向量的标准内积（点积）为：

定义 1.7.2 (正交)若，则称与正交。

定义 1.7.3 (正交矩阵)若方阵满足，即，则称为正交矩阵。其列向量构成标准正交基。

定理 1.7.1 (勾股定理推广) 若，则。

1.8 特征值与特征向量

这是理解主成分分析、谱聚类、矩阵幂运算的核心。

定义 1.8.1 (特征值与特征向量)对于方阵，若存在非零向量和标量满足：

则称为特征值，称为对应的特征向量。

定理 1.8.1 (特征多项式) 是的特征值当且仅当。

定义 1.8.2 (特征分解 Eigen-decomposition)若方阵具有个线性无关的特征向量（例如对称矩阵），则可分解为：

其中是特征向量矩阵，。

定理 1.8.2 (实对称矩阵的性质)若是对称矩阵（）：

所有特征值均为实数。
不同特征值对应的特征向量相互正交。
可正交对角化：存在正交矩阵使得。

应用： 协方差矩阵是对称半正定的，其特征分解即主成分分析的基础。

例题 1.8.1：求矩阵的特征值与特征向量。解答：

解。得。
对于：，解得。
对于：，解得。验证：，符合对称矩阵性质。

1.9 奇异值分解 (Singular Value Decomposition, SVD)

SVD 是特征分解在非方阵上的推广，被誉为“线性代数的瑞士军刀”。

定理 1.9.1 (SVD 存在定理)对于任意矩阵，存在正交矩阵和，以及对角矩阵，使得：

其中的主对角线元素（），称为奇异值。

来源： 由 Eugenio Beltrami (1873) 和 Camille Jordan (1874) 独立提出。

证明思路： 考虑对称半正定矩阵，其非负特征值为，对应的特征向量构成。定义，可证明正交，扩张后构成。

几何解释： 矩阵作用相当于：旋转/反射 () 缩放 () 旋转/反射 ()。

应用：

**降维 (PCA)**：取前个奇异值对应的作为投影矩阵。
**矩阵近似 (Eckart-Young 定理)**：最佳低秩近似由截断 SVD 给出。
**求伪逆 (Moore-Penrose Pseudoinverse)**：
其中是将非零主对角元取倒数并转置。

例题 1.9.1：求的 SVD。解答：

已经是 SVD 形式：, 前两对角线为，。

例题 1.9.2：求的 SVD。解答：

计算。特征值：, 。奇异值为 , 。
由对应特征向量单位化组成，由计算并扩充得到。

1.10 矩阵微积分

在优化损失函数时，需对标量、向量、矩阵求导。

定义 1.10.1 (标量对向量的梯度)若，梯度向量的第个分量为。通常表示为列向量。

定义 1.10.2 (向量对向量的导数 - 雅可比矩阵)若，雅可比矩阵定义为。

定义 1.10.3 (海森矩阵 Hessian Matrix)若二阶可导，海森矩阵是二阶偏导矩阵：

若二阶连续可导，则对称。

重要公式表 (分母布局)：

（若对称，则为）
（前提可逆）

例题 1.10.1：推导线性最小二乘损失函数的梯度，并求最优解。解答：

展开：。
求梯度：
令梯度为零：
（假设可逆，该解称为正规方程 Normal Equation）。

第二部分：微积分与最优化

机器学习的核心是寻找使得损失函数最小（或似然最大）的参数。这本质上是优化问题，微分学提供了方向指引。

2.1 导数与偏导数

定义 2.1.1 (导数)一元函数在点的导数定义为：

它表示函数在该点处的瞬时变化率，即切线的斜率。

定义 2.1.2 (偏导数)多元函数关于的偏导数记为，定义为将其他变量视为常数时的导数。

定义 2.1.3 (方向导数与梯度)沿单位向量的方向导数为。梯度方向是函数值上升最快的方向，其负方向是下降最快的方向。

2.2 链式法则与反向传播

定理 2.2.1 (多元链式法则)若且，则。若，则雅可比矩阵满足：

反向传播 (Backpropagation) 本质是链式法则的高效实现。对于计算图，局部梯度向后传递相乘。

例题 2.2.1：计算在处的梯度。其中。解答： （此处展示分解计算思想，数值计算略）设。。反向传播过程：给定，计算，，然后依次向前传递。这就是深度学习框架自动微分的原理。

2.3 泰勒展开

泰勒展开是用多项式逼近函数的核心工具。

定理 2.3.1 (一元泰勒公式)若在处阶可导，则：

其中为皮亚诺余项。

定理 2.3.2 (多元二阶泰勒展开)对于，在附近：

其中为海森矩阵。此式是牛顿法、梯度下降分析的基础。

2.4 凸优化基础

凸优化问题具有良好的性质：局部最优即全局最优。

定义 2.4.1 (凸集)集合是凸的，若对任意和，有。

定义 2.4.2 (凸函数)函数是凸函数，若其定义域为凸集，且对任意和：

定理 2.4.1 (凸函数的一阶条件)若可微，则为凸函数当且仅当：

定理 2.4.2 (凸函数的二阶条件)若二阶可微，则为凸函数当且仅当海森矩阵处处半正定（即）。

例题 2.4.1：证明在上是凸函数。 解答：二阶导数，满足二阶条件，故为严格凸函数。

常见凸函数：

线性函数
指数函数
范数（）
负熵（）
逻辑损失

2.5 无约束优化与梯度下降

定理 2.5.1 (局部极值的必要条件)若是无约束问题的局部极小点且可微，则。

定理 2.5.2 (局部极值的充分条件)若且海森矩阵正定，则为严格局部极小点。

**梯度下降法 (Gradient Descent)**：

其中为学习率。

定理 2.5.3 (梯度下降收敛性 - 粗略描述)对于具有 Lipschitz 连续梯度的凸函数，若（为 Lipschitz 常数），梯度下降保证以速率收敛到最优解。

例题 2.5.1：利用梯度下降求的最小值。初始值，。解答：导数。迭代：... 逐渐趋近于。

2.6 牛顿法与拟牛顿法

牛顿法 利用了二阶导数信息以加速收敛。

（推导：对二阶泰勒展开求导并令其为零。）

优点： 在极值点附近具有二次收敛速度（极快）。缺点： 计算和存储海森矩阵及其逆开销大，对非凸函数可能收敛到鞍点。

例题 2.6.1：用牛顿法求的局部极小值，初值。解答：

迭代：最终将收敛到（极小点）。

2.7 约束优化与拉格朗日乘数法

现实机器学习常带约束（如 SVM 中，PCA 中）。

定理 2.7.1 (拉格朗日乘数法)考虑等式约束问题：

构造拉格朗日函数。最优解的必要条件为：

且满足约束。

几何意义： 在极值点，目标函数的梯度与约束曲面的法向量平行。

例题 2.7.1：求在单位圆约束下的最大值。解答：

构造。
求偏导：解得。
代入约束：。
对应点：（）时为最大；时为最小。

2.8 KKT 条件 (Karush-Kuhn-Tucker Conditions)

对于不等式约束问题：

定义广义拉格朗日函数：

定理 2.8.1 (KKT 必要条件)若为局部最优解且满足正则条件，则存在和使得：

（驻点条件）
（原始可行性）
（对偶可行性）
（互补松弛性）

意义： SVM 的对偶推导、带正则项问题的分析基石。

例题 2.8.1：约束。写出 KKT 条件并求解。 解答：约束改写为。

。
KKT 条件：

若，违反。故。此时。解为。

第三部分：概率论与数理统计

不确定性是机器学习处理的核心。概率论为量化不确定性提供了框架，统计学为从数据中推断规律提供了方法论。

3.1 概率基础

定义 3.1.1 (样本空间与事件)随机试验所有可能结果的集合称为样本空间。的子集称为事件。概率测度满足：

对于互不相交的事件列，有（可列可加性）。

定义 3.1.2 (条件概率)事件在事件发生条件下的概率为：

定理 3.1.1 (贝叶斯定理)

证明： 由条件概率定义，。两边同除以即得。

机器学习中的应用： 朴素贝叶斯分类器、贝叶斯参数估计。

**例题 3.1.1 (医学检测悖论)**：某疾病发病率为，检测准确率为（患者阳性率，健康者阴性率）。若某人检测为阳性，其真正患病的概率是多少？解答：设为患病，为阳性。, , 。

尽管检测准确率高，但由于基础发病率极低，阳性结果仍只有约的概率是真患病。这凸显了先验概率的重要性。

3.2 随机变量与分布

定义 3.2.1 (随机变量)随机变量是从样本空间到实数的函数。

定义 3.2.2 (累积分布函数 CDF)

定义 3.2.3 (概率质量函数 PMF / 概率密度函数 PDF)

离散型：为 PMF。
连续型：为 PDF，满足。

3.3 重要分布家族

分布名称	方差	应用场景
伯努利		二分类标签
二项		多次独立试验
多项		多分类标签
泊松		计数数据建模
均匀		先验无信息分布
高斯（正态）		误差建模、中心极限定理
多元高斯		高斯判别分析、主成分概率解释
指数		事件间隔时间
贝塔		概率参数的共轭先验
狄利克雷	...	多项分布参数的共轭先验

来源： 贝塔分布与二项分布共轭，狄利克雷与多项共轭，这在贝叶斯统计中极为关键 (PRML 第2章)。

定理 3.3.1 (多元高斯分布的边缘与条件分布)若，且划分为。则：

边缘分布。
条件分布，其中：

此性质是高斯过程回归、卡尔曼滤波的数学基础。

3.4 期望、方差与协方差

定义 3.4.1 (期望 Expectation)

离散：
连续：

定理 3.4.1 (期望的线性性质)

（即使与不独立，线性性质也成立）

定义 3.4.2 (方差 Variance)

定义 3.4.3 (协方差 Covariance)

若独立，则。但反之不成立（相关不一定独立）。

定义 3.4.4 (相关系数)

3.5 大数定律与中心极限定理

这两个定理是统计推断的基石。

定理 3.5.1 (弱大数定律)设为独立同分布 (i.i.d.) 随机变量，具有有限期望。则样本均值依概率收敛于：

定理 3.5.2 (中心极限定理 CLT)设为 i.i.d. 随机变量，具有有限期望和有限方差。则当时，样本均值的分布趋近于正态分布：

意义： 无论原始数据分布如何，大样本下的均值分布近似高斯分布，这支撑了广泛的假设检验和置信区间构造。

例题 3.5.1：抛硬币 10000 次，求正面朝上次数在 4950 到 5050 之间的近似概率。解答：设，则。由 CLT，。

3.6 参数估计

统计推断的核心：从数据中估计分布的参数。

定义 3.6.1 (似然函数 Likelihood)给定独立同分布样本，似然函数为：

方法一：最大似然估计 (MLE)

性质： 若存在有效估计量，MLE 是渐近无偏、一致且高效的（达到 Cramér-Rao 下界）。

例题 3.6.1：推导高斯分布的 MLE。 解答：

对数似然：
对求导并令为 0：
对求导并令为 0：
注意：该估计量是有偏的，无偏估计需用。

方法二：最大后验估计 (MAP)引入参数的先验分布，利用贝叶斯定理求后验概率最大的点：

等价于：带正则项的 MLE。例如，若先验为高斯分布，则对数后验包含项，即正则化。

3.7 共轭先验

定义 3.7.1 若先验分布和后验分布属于同一分布族，则称该先验为似然函数的共轭先验。

常见共轭对：

似然：伯努利先验：贝塔后验：贝塔
似然：多项先验：狄利克雷后验：狄利克雷
似然：高斯（已知方差）先验：高斯后验：高斯
似然：高斯（已知均值）先验：逆伽马后验：逆伽马

定理 3.7.1 (贝塔-二项共轭)若先验，观测到次伯努利试验中有次成功，则后验分布为：

证明： 后验正比于，即贝塔核。

第四部分：信息论

信息论提供了量化不确定性与信息量的数学工具，在决策树分裂、交叉熵损失、变分推断中至关重要。

4.1 熵

定义 4.1.1 (自信息)事件的自信息量为。底数为 2 时单位为比特，底数为时单位为奈特。

定义 4.1.2 (香农熵 Shannon Entropy) 随机变量的熵是自信息的期望：

对于连续变量，称为微分熵。

性质：

。
熵在均匀分布时最大（离散情形下，）。

例题 4.1.1：计算伯努利随机变量的熵。解答：

该函数在时最大，为 1 比特。

4.2 联合熵与条件熵

定义 4.2.1 (联合熵)

定义 4.2.2 (条件熵)给定下的不确定性期望：

定理 4.2.1 (链式法则)

4.3 互信息

定义 4.3.1 (互信息 Mutual Information)衡量两个变量共享的信息量，即知道后不确定性减少的量：

性质：

，当且仅当独立时等于 0。
对称性：。

4.4 KL 散度 (相对熵)

定义 4.4.1 (Kullback-Leibler Divergence)衡量两个概率分布和的差异程度：

（连续形式将求和改为积分）

定理 4.4.1 (吉布斯不等式)

且等号成立当且仅当几乎处处成立。证明概要： 利用的凸性质：

等号仅当对所有成立。

注意： KL 散度非对称、不满足三角不等式，故非真正距离。

机器学习应用：

最大似然估计等价于最小化 KL 散度：设真实分布为，模型分布为。
变分推断：用逼近后验，最小化。

4.5 交叉熵

定义 4.5.1 (交叉熵 Cross Entropy)

由于与模型参数无关，最小化交叉熵等价于最小化 KL 散度。这正是分类任务中 softmax 交叉熵损失的数学基础。

例题 4.5.1：推导多分类交叉熵损失关于逻辑值的梯度。 解答：模型输出概率。损失，其中为 one-hot 向量。

这一简洁优雅的形式是 softmax 加交叉熵被广泛采用的原因。

第五部分：数值计算与优化算法

理论和公式最终需要转化为计算机可执行的数值算法。本节关注具体的优化算法细节。

5.1 梯度下降变种

5.1.1 批量梯度下降 (Batch GD)每次迭代使用全量数据计算梯度。

缺点： 大数据集下每轮迭代计算量巨大，无法在线学习。

5.1.2 随机梯度下降 (SGD)每次迭代随机抽取一个样本更新：

优点： 计算快，可跳出局部极小点（噪声帮助探索）。缺点： 梯度估计方差大，收敛路径震荡。

5.1.3 小批量梯度下降 (Mini-batch GD)折中方案，每批个样本。

定理 5.1.1 (SGD 收敛性) 若学习率满足 Robbins-Monro 条件，SGD 几乎必然收敛到局部极小点。

5.2 动量法

物理直觉： 将参数优化看作小球在损失曲面上滚动，动量保持之前移动方向，减少震荡。

其中为动量衰减系数（通常）。

5.3 Nesterov 加速梯度 (NAG)先按动量方向前进一步，再计算梯度修正：

理论优势： 对于凸函数，NAG 能达到收敛速率，优于标准动量的。

5.4 自适应学习率算法

5.4.1 AdaGrad独立适应每个参数的学习率：累积历史梯度平方和。

缺点： 学习率单调递减至零，后期停止学习。

5.4.2 RMSProp改进 AdaGrad，使用指数移动平均衰减累积量，避免学习率过早衰减。

5.4.3 Adam (Adaptive Moment Estimation)结合动量与 RMSProp，是目前最主流的优化器之一。

一阶矩估计：
二阶矩估计：
偏差修正：，
更新：其中为推荐默认值。

来源： Kingma, D. P., & Ba, J. (2015). Adam: A Method for Stochastic Optimization. ICLR.

5.5 约束优化算法示例：投影梯度下降

对于约束，标准梯度下降后进行投影操作：

其中为向可行域的欧氏投影。

例题 5.5.1：求满足。使用投影梯度下降一步，初始，。解答：

无约束梯度下降：
投影到直线上：即求点到直线的最近点。直线法向量，过点作垂线。代入约束：。投影点。这正是该问题的最优解。

5.6 对偶上升与增广拉格朗日法 (ADMM 简介)

对于带等式约束的问题，除了直接解 KKT，还可利用对偶性迭代求解。ADMM (Alternating Direction Method of Multipliers) 融合了对偶上升的可分解性与增广拉格朗日的强收敛性，适用于大规模分布式优化。

增广拉格朗日函数：

ADMM 迭代格式：

ADMM 在分布式机器学习、图像处理、压缩感知等领域应用广泛。

第六部分：综合案例与高阶定理

6.1 主成分分析 (PCA) 的推导

问题： 寻找投影方向（单位向量），使得投影方差最大。

推导：

投影方差：，其中为协方差矩阵。
约束优化问题：
拉格朗日函数：。
对求导：。结论： 是的特征向量，是对应特征值。
代回目标：。故最大方差方向即最大特征值对应的特征向量。后续主成分依次对应次大特征值，且由于对称，各主成分正交。

6.2 支持向量机 (SVM) 的对偶推导

原始问题 (硬间隔):

对偶推导：

广义拉格朗日函数：，其中。
KKT 条件之一：。
。
代入消去，得到对偶问题：

亮点： 数据仅以内积形式出现，为引入核函数铺平道路。

6.3 核方法 (Kernel Methods)

定义 6.3.1 (核函数)函数若存在映射使得，则称其为核函数。

定理 6.3.1 (Mercer 定理)函数是有效核函数的充要条件是其对应的 Gram 矩阵对于任意有限点集是半正定的。

常见核函数：

线性核：
多项式核：
高斯核 (RBF)：（对应无限维特征映射）

**表示定理 (Representer Theorem)**：优化形如的泛函时，最优解总可表示为。这使得无限维优化退化为有限维参数优化。

6.4 期望最大化算法 (EM 算法)

用于含隐变量模型的最大似然估计（如高斯混合模型 GMM）。

问题：。

算法步骤：

**E 步 (Expectation)**：基于当前参数，计算隐变量后验分布，并构造辅助函数。
**M 步 (Maximization)**：极大化函数得到新参数。

定理 6.4.1 (EM 算法的单调性)EM 算法保证对数似然单调不减：

证明概要：

其中是条件熵。M 步增大值，而项相对于的 KL 散度非负特性保证了似然提升。

6.5 Cramér-Rao 下界

定理 6.5.1 在正则条件下，任意无偏估计量的方差下界为 Fisher 信息量的倒数：

其中 Fisher 信息。

意义： 给出了参数估计精度的理论极限，用于评估估计量效率。MLE 在样本量趋于无穷时能达到此下界。

6.6 贝叶斯信息准则 (BIC) 与 Akaike 信息准则 (AIC)

用于模型选择，权衡拟合优度与复杂度。

AIC：
BIC：其中为参数个数，为样本数。BIC 对复杂模型的惩罚更重。

第七部分：附录与速查表

7.1 常用矩阵导数速查（分母布局）

7.2 概率分布共轭关系表

似然函数	先验分布	后验分布
伯努利	贝塔	贝塔
多项	狄利克雷	狄利克雷
泊松	伽马	伽马
高斯 (已知 )	高斯	高斯
高斯 (已知 )	逆伽马	逆伽马

7.3 经典不等式

柯西-施瓦茨不等式：。
**霍夫丁不等式 (Hoeffding's Inequality)**：设为独立随机变量，则。这是 PAC 学习理论的基石。
**琴生不等式 (Jensen's Inequality)**：若为凸函数，则。这是推导 EM 算法与变分下界 (ELBO) 的关键。

结语

机器学习数学基础的广度与深度要求从业者具备跨分支的综合应用能力。从线性代数提供的数据表示空间，到微积分构建的优化路径，再到概率统计对不确定性的建模，最后依托信息论进行度量与评估，这四大支柱共同支撑了机器学习理论的大厦。

本指南虽力求详尽，然篇幅所限，诸多定理的严格测度论证明、流形上的优化、随机过程（马尔可夫链蒙特卡洛方法基础）等未能尽述。读者若对特定方向感兴趣，建议精读文首列出的经典参考文献，并结合代码实现以加深理解。数学在机器学习中不仅是工具，更是一种思维方式——它教会我们从高维、随机与最优的角度审视数据中的模式。