LDA

LDA的全称是Linear Discriminant Analysis（线性判别分析），是一种supervised learning。LDA的原理是，将带标签的数据（点），通过投影的方法，投影到维度更低的空间中，使得投影后的点，会形成按类别区分，相同类别的点，将会在投影后的空间中更接近。要说明白LDA，首先得弄明白线性分类器(Linear Classifier)：因为LDA是一种线性分类器。对于K-分类的一个分类问题，会有K个线性函数：

image_1bmm1qol8t62138j1s28n1darh9.png-4kB

当满足条件：对于所有的j，都有Yk > Yj,的时候，我们就说x属于类别k。对于每一个分类，都有一个公式去算一个分值，在所有的公式得到的分值中，找一个最大的，就是所属的分类了。

上式实际上就是一种投影，是将一个高维的点投影到一条高维的直线上，LDA最求的目标是，给出一个标注了类别的数据集，投影到了一条直线之后，能够使得点尽量的按类别区分开，当k=2即二分类问题的时候，如下图所示：

image_1bmm1snljalr125it1t1heghe8m.png-10kB
下面推到一下二分类LDA问题的公式：

假设用来区分二分类的直线（投影函数)为：
image_1bmm1v7clj34b09tn11r9o199i1j.png-1.9kB

LDA分类的一个目标是使得不同类别之间的距离越远越好，同一类别之中的距离越近越好（即需要找一个最佳的w的值），所以我们需要定义几个关键的值。

类别i的原始中心点为：（Di表示属于类别i的点)

image_1bmm1vuunkht1k31d7a1eim1hlo20.png-3.5kB

类别i投影后的中心点为：

image_1bmm20a7j618lkv1e7m6vlukn2d.png-3kB

衡量类别i投影后，类别点之间的分散程度（方差）为：

image_1bmm21d15d0c1ofslo7139dldk2q.png-5.4kB

最终我们可以得到一个下面的公式，表示LDA投影到w后的损失函数：

image_1bmm21pht1m7j1mb8n6daf61vir37.png-6.4kB

我们分类的目标是，使得类别内的点距离越近越好（集中），类别间的点越远越好。分母表示每一个类别内的方差之和，方差越大表示一个类别内的点越分散，分子为两个类别各自的中心点的距离的平方，我们最大化J(w)就可以求出最优的w了。想要求出最优的w，可以使用拉格朗日乘子法，但是现在我们得到的J(w)里面，w是不能被单独提出来的，我们就得想办法将w单独提出来。

我们定义一个投影前的各类别分散程度的矩阵，矩阵的含义是，如果某一个分类的输入点集Di里面的点距离这个分类的中心店mi越近，则Si里面元素的值就越小，如果分类的点都紧紧地围绕着mi，则Si里面的元素值越更接近0.

image_1bmm2sifg106s1dogsm0hqagub3k.png-6kB