PCA与LDA与许多相似之处，都是一种将高维数据降维的方法，区别是LDA是带标签的，而PCA是不带标签的，所以是一种unsupervised learning。上一篇写过了LDA的数学原理，所以接着上一篇总结一下PCA的数学原理。同时感到上一篇还有一些地方没有写明白，在参考了几篇文章后，在这篇博文中重新总结一下。

向量表示、基变换、矩阵乘法的几何意义

这里推荐一个视频：https://www.bilibili.com/video/av6731067/

简单的说，向量可以看作是基进行伸缩变换形成的，也可以看作是在该基下的坐标。矩阵是基变换的一种表示形式，矩阵的列向量即新的基的坐标。而矩阵乘法的含义，即是将一组向量由在原来基下的坐标，转换到新的基下表示的坐标。

降维

为了避免过于抽象的讨论，我们以一个具体的例子展开。假设我们的数据由五条记录组成，将它们表示成矩阵形式

![image_1boc247chg3e1pgrkqj1fnn1tbr9.png-5kB][1]

其中每一列为一条数据记录，而一行为一个字段。为了后续处理方便，我们首先将每个字段内所有值都减去字段均值，其结果是将每个字段都变为均值为0（简化之后方差的计算）。

我们看上面的数据，第一个字段均值为2，第二个字段均值为3，所以变换后：

![image_1boc24t08o2ceag1oab19jci32m.png-5.3kB][2]

我们可以看下五条数据在平面直角坐标系内的样子：

![image_1boc25jst1si1ogikj2j8n104b13.png-28.1kB][3]

之后的问题是要在二维平面中选择一个方向，将所有数据都投影到这个方向所在直线上，用投影值表示原始记录。这是一个实际的二维降到一维的问题。

以上图为例，可以看出如果向x轴投影，那么最左边的两个点会重叠在一起，中间的两个点也会重叠在一起，于是本身四个各不相同的二维点投影后只剩下两个不同的值了，这是一种严重的信息丢失，同理，如果向y轴投影最上面的两个点和分布在x轴上的两个点也会重叠。所以看来x和y轴都不是最好的投影选择。我们直观目测，如果向通过第一象限和第三象限的斜线投影，则五个点在投影后还是可以区分的。

那么如何选择这个方向（或者说基）才能尽量保留最多的原始信息呢？一种直观的看法是：希望投影后的投影值尽可能分散。

一个字段的方差可以看做是每个元素与字段均值的差的平方和的均值，即：

![image_1boc29l64361mta1okdhhr13de1g.png-5.8kB][4]

因为均值之前已化为0，则：

![image_1boc2aen912oi1i381cnhhou1t0u1t.png-5.2kB][5]

协方差

对于上面二维降成一维的问题来说，找到那个使得方差最大的方向就可以了。不过对于更高维，还有一个问题需要解决。考虑三维降到二维问题。与之前相同，首先我们希望找到一个方向使得投影后方差最大，这样就完成了第一个方向的选择，继而我们选择第二个投影方向。

如果我们还是单纯只选择方差最大的方向，很明显，这个方向与第一个方向应该是“几乎重合在一起”，显然这样的维度是没有用的，因此，应该有其他约束条件。从直观上说，让两个字段尽可能表示更多的原始信息，我们是不希望它们之间存在（线性）相关性的，因为相关性意味着两个字段不是完全独立，必然存在重复表示的信息。

数学上可以用两个字段的协方差表示其相关性，由于已经让每个字段均值为0，则：

![image_1boc2droi1g4mavmn5g1vtnikf2a.png-5.7kB][6]

可以看到，在字段均值为0的情况下，两个字段的协方差简洁的表示为其内积除以元素数m。

当协方差为0时，表示两个字段完全独立。为了让协方差为0，我们选择第二个基时只能在与第一个基正交的方向上选择。因此最终选择的两个方向一定是正交的。

至此，我们得到了降维问题的优化目标：将一组N维向量降为K维（K大于0，小于N），其目标是选择K个单位（模为1）正交基，使得原始数据变换到这组基上后，各字段两两间协方差为0，而字段的方差则尽可能大（在正交的约束下，取最大的K个方差）。

协方差矩阵

上面我们导出了优化目标，但是这个目标似乎不能直接作为操作指南（或者说算法），因为它只说要什么，但根本没有说怎么做。所以我们要继续在数学上研究计算方案。

我们看到，最终要达到的目的与字段内方差及字段间协方差有密切关系。因此我们希望能将两者统一表示，仔细观察发现，两者均可以表示为内积的形式，而内积又与矩阵相乘密切相关。

假设我们只有a和b两个字段，那么我们将它们按行组成矩阵X：

![image_1boc2uha2ofj18tn1h011sf52m02n.png-5.6kB][7]

然后我们用X乘以X的转置，并乘上系数1/m：

![image_1boc2vmhfj70rvndm17o11nqj34.png-12.6kB][8]

这个矩阵对角线上的两个元素分别是两个字段的方差，而其它元素是a和b的协方差。两者被统一到了一个矩阵的。

根据矩阵相乘的运算法则，这个结论很容易被推广到一般情况：

设我们有m个n维数据记录，将其按列排成n乘m的矩阵X，设，则C是一个对称矩阵，其对角线分别个各个字段的方差，而第i行j列和j行i列元素相同，表示i和j两个字段的协方差。

协方差矩阵对角化

根据上述推导，要达到方差最大，协方差最小，等价于将协方差矩阵对角化：即除对角线外的其它元素化为0，并且在对角线上将元素按大小从上到下排列，这样我们就达到了优化目的。

设原始数据矩阵X对应的协方差矩阵为C，而P是一组基按行组成的矩阵，设Y=PX，则Y为X对P做基变换后的数据。设Y的协方差矩阵为D，我们推导一下D与C的关系：

![image_1boc35jh11cph1a3v162bpo2fpg3h.png-11.5kB][9]

优化目标变成了寻找一个矩阵P，满足PCPTPCPT是一个对角矩阵，并且对角元素按从大到小依次排列，那么P的前K行就是要寻找的基，用P的前K行组成的矩阵乘以X就使得X从N维降到了K维并满足上述优化条件。

之后可运用线性代数中的实对称矩阵对角化即可。

总结：

总结一下PCA的算法步骤：

设有m条n维数据。

1）将原始数据按列组成n行m列矩阵X
2）将X的每一行（代表一个属性字段）进行零均值化，即减去这一行的均值
3）求出协方差矩阵
4）求出协方差矩阵的特征值及对应的特征向量
5）将特征向量按对应特征值大小从上到下按行排列成矩阵，取前k行组成矩阵P
6）Y=PX即为降维到k维后的数据

参考：https://www.bilibili.com/video/av6731067/