主成分分析(PCA)是将高维的数据通过线性变换投影到低维空间,这种变换没有损失原来数据的主要信息,和自编码器的思想类似等等类似。注意这里是使用线性变换将高维数据投影到低维空间。
核心思想:找出最能够代表原始数据的投影方法。被PCA降掉的那些维度只能是那些噪声或是冗余的数据。
PCA可解决训练数据中存在数据特征过多或特征累赘的问题。核心思想是将维特征映射到维( < ),这n维形成主要成分,是重构出来最能代表原始数据的正交特征。这种方法和压缩不一样,PCA没有重构的要求,但是有保留主要成分的思想。
如图1所示,假设数据集是个维,。如果,需要降维到,现在想找到某一维度方向代表这两个维度的数据。图1中有两个向量方向,但是哪个向量才是我们所想要的,可以更好代表原始数据集的呢?这里降维就是2降到1,是必要的。
从图1可看出,比好,这里有以下两个主要评价指标(两个原则):
如果我们需要降维的目标维数是其他任意维,则: