两分类-硬分类-线性判别分析 LDA

在 LDA 中,我们的基本想法是选定一个方向,将试验样本顺着这个方向投影,投影后的数据需要满足两个条件,从而可以更好地分类:

  1. 相同类内部的试验样本距离接近。
  2. 不同类别之间的距离较大。

首先是投影,我们假定原来的数据是向量 ,那么顺着 方向的投影就是标量: 对第一点,相同类内部的样本更为接近,我们假设属于两类的试验样本数量分别是 ,那么我们采用方差矩阵来表征每一个类内的总体分布,这里我们使用了协方差的定义,用 表示原数据的协方差: 所以类内距离可以记为: 对于第二点,我们可以用两类的均值表示这个距离: 综合这两点,由于协方差是一个矩阵,于是我们用将这两个值相除来得到我们的损失函数,并最大化这个值: 这样,我们就把损失函数和原数据集以及参数结合起来了。下面对这个损失函数求偏导,注意我们其实对 的绝对值没有任何要求,只对方向有要求,因此只要一个方程就可以求解了: 于是 就是我们需要寻找的方向。最后可以归一化求得单位的 值。