机器学习线性代数基础 | 3.2深入剖析最小二乘法的本质

在上一小节里，我们提出了线性方程组无解和直线拟合这两个实际的问题，并最终指出了问题的解决方向，即：在问题的精确解不存在的情况下，我们可以通过求取距离目标最近的近似解来最大限度的解决问题，并且定义了在这个问题背景下最近距离的有关概念，告诉了读者如何利用矩阵投影的方法来寻找任意点到指定子空间的投影以及最近距离。这其实也是实际工程中比较常用的解决方法和思考途径。

在这一小节里，我们会继续运用这一思想方法，深入的剖析最小二乘法这个解决近似问题的有力武器，基于矩阵四个子空间所具有的正交、互补的优良性质，在投影问题通用公式的基础上，最终实际解决方程近似解的求解以及空间多点直线拟合的问题。

3.2.1 互补的子空间

我们知道，在一个空间中有一个向量b，我们可以选取m个线性无关的向量作为空间中的一组基，我们将向量b向每个基向量上进行投影，就能够得到m个投影向量：，并且显而易见的是，他们满足：，即通过空间中所有投影轴上的投影向量能够重构出向量b的完整信息。

从这个浅显的结论中我们能得到什么呢？我们举一个空间的例子来仔细看看，我们选取其中三个线性无关的向量，，，由他们构成一组基，向量b在各个基向量上的投影分别为，，，这个自然不用多说。如果此时我们把向量和向量看作是一个二维子空间中的基向量，那么向量b向这个平面上的投影就可以表示为往向量和向量上的投影向量之和：，此时向量和向量所张成平面上的投影联合向量上的投影一道，同样能构建出整个b向量。

因此，在空间中，基向量和张成的二维子空间和由向量构成的一维子空间之间是互补的关系。概况的说，互补的子空间一方面由不同的基向量所张成，另一方面他们的维数之和为整个空间的维数。空间中的任意一个向量b，其在互补子空间上的投影向量之和，就是向量自身。

3.2.2 正交的子空间

我们这里直接拿出定义：子空间V和子空间W满足正交关系成立的条件是：子空间V中任意一个向量v和子空间W中任意一个向量w都垂直。

为了更明确的说清这个概念，这里我们看看图1。

图1 寻找图中的正交子空间

其实从视觉直观上我们会觉得，xoz和xoy这两个子空间是相互垂直的，但是实际上并不是，我们对照定义检查一下，这两个子空间中的任意向量两两之间并不一定满足垂直关系，例如向量a和向量b，这两个向量就不垂直。

其实最明显的一个矛盾之处在于：位于x轴正方向上的向量同时存在于这两个子空间中，那么依据定义他应该与自己垂直，但是这显然是不可能的。因此，我们从这个例子中可以得到一个结论，同时位于相互正交的两个子空间上的向量只可能是零向量，因为只有零向量才和自身保持垂直。

那么从上面的分析中可以得知，在图1中，和子空间xoy正交的子空间只能是z轴这个一维子空间了。

3.2.3 相互正交补的子空间

空间中的两个互补的子空间，如果满足相互正交的关系，则他们满足正交补的关系，他们的空间维数之和应该为m。在图1中，z轴和xoy子空间就是满足正交补关系的两个子空间，但是像x轴和z轴，他们仅仅是正交，但并不满足互补的关系。

你可能在想，这前前后后说了这么多的概念，我们到底想要干什么呢？回顾一下，上一节中，我们在一个子空间中寻找与目标向量b距离最近的投影向量p，前提就是误差向量与投影向量p相互垂直。由于且满足，则向量p所在的子空间和向量e 所在的子空间在中就构成了正交补的关系。

那么，我们去哪里寻找这样的正交补子空间呢？我们从矩阵的四个子空间入手，规模的矩阵A，首先所有满足Ax=0等式成立的向量x构成了矩阵A的零空间N(A)。对于这个式子，我们展开来看就是：，即满足任意的成立，这表明任意一个行向量与任意一个零向量垂直，因此行空间和零空间是正交子空间。同时，我们在前面讲过，这两个子空间的维数之和为n，因此矩阵A的行空间和零空间在空间中满足正交补的关系。

我们直接利用上面的结论可以知道：转置矩阵的行空间和零空间当然也是相互正交的，因此，矩阵 A的列空间和左零空间在中同样满足正交补的关系。

通过上面的思考过程，我们找到了这两组满足正交补关系的子空间，那我们是不是就知道了应该向哪儿投影了呢？对，没错。

3.2.4 处理无解方程组的近似解

我们沿着上文讨论的思路，首先处理无解方程组的近似解问题。我们回顾一下本章最开始的这个方程组：，我们把方程组写成矩阵相乘的形式：，其中，我们令矩阵，向量。

我们知道矩阵A的列向量的线性组合构成了他的列空间，如果要求方程组有解，则必须满足向量b在矩阵A的列空间上。很遗憾，此时向量b并不在矩阵A的列空间上，因而方程组无解。

那么，我们就应该在矩阵A的列空间上寻找一个距离向量b最近的向量，用它来表示方程组的近似解。因此，线性方程组近似解的问题就被我们转化为了熟悉的“向量向二维子空间投影的问题”了。转化后的等价问题描述如下：

我们将向量b向矩阵A的列空间进行投影，获得投影向量p。而误差向量e则正是向量b向列空间的正交补子空间------左零空间上的投影。向量则是我们最终想要获取的近似解向量：。

因此，我们直接套用3.1节中的公式：

，我们代入具体的数值，就能得到线性方程组的近似解向量：

即这个方程组的近似解是：。

我们从最终结果出发再讨论一下近似的概念，我们把近似解带回到原方程中，就得到了一个三维列向量：，我们称x=0.84，y=1.87为线性方程组的近似解，正是因为由此得到的三维向量是列空间中距离原向量距离最近的一个向量。

我们这里用Python工具来检验一下计算结果：

代码如下：

import numpy as np
from scipy import linalg
A = np.array([[2, 1],
              [1, 2],
              [1, 4]])
b = np.array([[4],
              [3],
              [9]])
A_T_A = np.dot(A.T,A)
x = np.dot(np.dot(linalg.inv(A_T_A),A.T),b)
print(x)

运行结果：