Linear Discriminant Analysis线性判别分析

两分类-硬分类-线性判别分析 LDA

在 LDA 中，我们的基本想法是选定一个方向，将试验样本顺着这个方向投影，投影后的数据需要满足两个条件，从而可以更好地分类：

相同类内部的试验样本距离接近。
不同类别之间的距离较大。

首先是投影，我们假定原来的数据是向量 $x$ ，那么顺着 $w$ 方向的投影就是标量： $z = w^{T} \cdot x (= ∣ w ∣ \cdot ∣ x ∣ cos θ)$ 对第一点，相同类内部的样本更为接近，我们假设属于两类的试验样本数量分别是 $N_{1}$ 和 $N_{2}$ ，那么我们采用方差矩阵来表征每一个类内的总体分布，这里我们使用了协方差的定义，用 $S$ 表示原数据的协方差： $C_{1} : Va r_{z} [C_{1}] C_{2} : Va r_{z} [C_{2}] = \frac{1}{N _{1}} i = 1 \sum N_{1} (z_{i} - \overline{z_{c 1}}) (z_{i} - \overline{z_{c 1}})^{T} = \frac{1}{N _{1}} i = 1 \sum N_{1} (w^{T} x_{i} - \frac{1}{N _{1}} j = 1 \sum N_{1} w^{T} x_{j}) (w^{T} x_{i} - \frac{1}{N _{1}} j = 1 \sum N_{1} w^{T} x_{j})^{T} = w^{T} \frac{1}{N _{1}} i = 1 \sum N_{1} (x_{i} - \overline{x_{c 1}}) (x_{i} - \overline{x_{c 1}})^{T} w = w^{T} S_{1} w = \frac{1}{N _{2}} i = 1 \sum N_{2} (z_{i} - \overline{z_{c 2}}) (z_{i} - \overline{z_{c 2}})^{T} = w^{T} S_{2} w$ 所以类内距离可以记为： $Va r_{z} [C_{1}] + Va r_{z} [C_{2}] = w^{T} (S_{1} + S_{2}) w$ 对于第二点，我们可以用两类的均值表示这个距离： $(\overline{z_{c 1}} - \overline{z_{c 2}})^{2} = (\frac{1}{N _{1}} i = 1 \sum N_{1} w^{T} x_{i} - \frac{1}{N _{2}} i = 1 \sum N_{2} w^{T} x_{i})^{2} = (w^{T} (\overline{x_{c 1}} - \overline{x_{c 2}}))^{2} = w^{T} (\overline{x_{c 1}} - \overline{x_{c 2}}) (\overline{x_{c 1}} - \overline{x_{c 2}})^{T} w$ 综合这两点，由于协方差是一个矩阵，于是我们用将这两个值相除来得到我们的损失函数，并最大化这个值： $\overset{w}{^} = w a r g ma x J (w) = w a r g ma x \frac{( z _{c 1} - z _{c 2} ) ^{2}}{Va r _{z} [ C _{1} ] + Va r _{z} [ C _{2} ]} = w a r g ma x \frac{w ^{T} ( x _{c 1} - x _{c 2} ) ( x _{c 1} - x _{c 2} ) ^{T} w}{w ^{T} ( S _{1} + S _{2} ) w} = w a r g ma x \frac{w ^{T} S _{b} w}{w ^{T} S _{w} w}$ 这样，我们就把损失函数和原数据集以及参数结合起来了。下面对这个损失函数求偏导，注意我们其实对 $w$ 的绝对值没有任何要求，只对方向有要求，因此只要一个方程就可以求解了： $\frac{\partial}{\partial w} J (w) = 2 S_{b} w (w^{T} S_{w} w)^{- 1} - 2 w^{T} S_{b} w (w^{T} S_{w} w)^{- 2} S_{w} w = 0 ⟹ S_{b} w (w^{T} S_{w} w) = (w^{T} S_{b} w) S_{w} w ⟹ w \propto S_{w}^{- 1} S_{b} w = S_{w}^{- 1} (\overline{x_{c 1}} - \overline{x_{c 2}}) (\overline{x_{c 1}} - \overline{x_{c 2}})^{T} w \propto S_{w}^{- 1} (\overline{x_{c 1}} - \overline{x_{c 2}})$ 于是 $S_{w}^{- 1} (\overline{x_{c 1}} - \overline{x_{c 2}})$ 就是我们需要寻找的方向。最后可以归一化求得单位的 $w$ 值。

Machine Learning

两分类-硬分类-线性判别分析 LDA