基于最小投影距离为评价指标推理:
假设数据集是个维数据,,也就是默认为行列的矩阵。这个矩阵的数据已经进行了中心化。经过投影变换得到新坐标为 ,其中 是标准正交基,即 ,。
考虑到整个样本集,样本点到这个超平面的距离足够近,目标变为最小化 。对此式进行推理,可得:
在推导过程中,用到了:
最后两步是将代数和转为矩阵形式。 由于 的每一列向量 是标准正交基, 是数据集的协方差矩阵, 是一个常量(因为归一化了)。最小化 的问题可以等价于
利用拉格朗日函数可得到
对 求导,可得 ,也即 。 是 个特征向量组成的矩阵, 为 的特征值。 即为我们想要的矩阵。 对于原始数据,只需要 ,就可把原始数据集降维到最小投影距离的 维数据集。
由上述分析,得到PCA的算法流程。
输入: 维样本集 ,目标降维的维数 。 输出:降维后的新样本集 。 主要步骤如下:
PCA算法主要优缺点 优点:
缺点: