高斯分布

一维情况 MLE
多维情况

一维情况 MLE

高斯分布在机器学习中占有举足轻重的作用。在 MLE 方法中：

$θ = (μ, Σ) = (μ, σ^{2}), θ_{M L E} = θ a r g ma x lo g p (X ∣ θ) ii d = θ a r g ma x i = 1 \sum N lo g p (x_{i} ∣ θ)$ 一般地，高斯分布的概率密度函数PDF写为：

$p (x ∣ μ, Σ) = \frac{1}{( 2 π ) ^{p /2} ∣Σ ∣ ^{1/2}} e^{- \frac{1}{2} (x - μ)^{T} Σ^{- 1} (x - μ)}$ 带入 MLE 中我们考虑一维的情况

$lo g p (X ∣ θ) = i = 1 \sum N lo g p (x_{i} ∣ θ) = i = 1 \sum N lo g \frac{1}{2 π σ} exp (- (x_{i} - μ)^{2} /2 σ^{2})$ 首先对 $μ$ 的极值可以得到： $μ_{M L E} = μ a r g ma x lo g p (X ∣ θ) = μ a r g ma x i = 1 \sum N (x_{i} - μ)^{2}$ 于是： $\frac{\partial}{\partial μ} i = 1 \sum N (x_{i} - μ)^{2} = 0 ⟶ μ_{M L E} = \frac{1}{N} i = 1 \sum N x_{i}$ 其次对 $θ$ 中的另一个参数 $σ$ ，有： $σ_{M L E} = σ a r g ma x lo g p (X ∣ θ) = σ a r g ma x i = 1 \sum N [- lo g σ - \frac{1}{2 σ ^{2}} (x_{i} - μ)^{2}] = σ a r g min i = 1 \sum N [lo g σ + \frac{1}{2 σ ^{2}} (x_{i} - μ)^{2}]$ 于是： $\frac{\partial}{\partial σ} i = 1 \sum N [lo g σ + \frac{1}{2 σ ^{2}} (x_{i} - μ)^{2}] = 0 ⟶ σ_{M L E}^{2} = \frac{1}{N} i = 1 \sum N (x_{i} - μ)^{2}$ 值得注意的是，上面的推导中，首先对 $μ$ 求 MLE，然后利用这个结果求 $σ_{M L E}$ ，因此可以预期的是对数据集求期望时 $E_{D} [μ_{M L E}]$ 是无偏差的： $E_{D} [μ_{M L E}] = E_{D} [\frac{1}{N} i = 1 \sum N x_{i}] = \frac{1}{N} i = 1 \sum N E_{D} [x_{i}] = μ$ 但是当对 $σ_{M L E}$ 求期望的时候由于使用了单个数据集的 $μ_{M L E}$ ，因此对所有数据集求期望的时候我们会发现 $σ_{M L E}$ 是有偏的：

$E_{D} [σ_{M L E}^{2}] = E_{D} [\frac{1}{N} i = 1 \sum N (x_{i} - μ_{M L E})^{2}] = E_{D} [\frac{1}{N} i = 1 \sum N (x_{i}^{2} - 2 x_{i} μ_{M L E} + μ_{M L E}^{2}) = E_{D} [\frac{1}{N} i = 1 \sum N x_{i}^{2} - μ_{M L E}^{2}] = E_{D} [\frac{1}{N} i = 1 \sum N x_{i}^{2} - μ^{2} + μ^{2} - μ_{M L E}^{2}] = E_{D} [\frac{1}{N} i = 1 \sum N x_{i}^{2} - μ^{2}] - E_{D} [μ_{M L E}^{2} - μ^{2}] = σ^{2} - (E_{D} [μ_{M L E}^{2}] - μ^{2}) = σ^{2} - (E_{D} [μ_{M L E}^{2}] - E_{D}^{2} [μ_{M L E}]) = σ^{2} - Va r [μ_{M L E}] = σ^{2} - Va r [\frac{1}{N} i = 1 \sum N x_{i}] = σ^{2} - \frac{1}{N ^{2}} i = 1 \sum N Va r [x_{i}] = \frac{N - 1}{N} σ^{2}$ 所以： $\overset{σ}{^}^{2} = \frac{1}{N - 1} i = 1 \sum N (x_{i} - μ)^{2}$

多维情况

多维高斯分布表达式为： $p (x ∣ μ, Σ) = \frac{1}{( 2 π ) ^{p /2} ∣Σ ∣ ^{1/2}} e^{- \frac{1}{2} (x - μ)^{T} Σ^{- 1} (x - μ)}$ 其中 $x, μ \in R^{p}, Σ \in R^{p \times p}$ ， $Σ$ 为协方差矩阵，一般而言也是半正定矩阵。这里我们只考虑正定矩阵。首先我们处理指数上的数字，指数上的数字可以记为 $x$ 和 $μ$ 之间的马氏距离。对于对称的协方差矩阵可进行特征值分解， $Σ = U Λ U^{T} = (u_{1}, u_{2}, \dots, u_{p}) d ia g (λ_{i}) (u_{1}, u_{2}, \dots, u_{p})^{T} = i = 1 \sum p u_{i} λ_{i} u_{i}^{T}$ ，于是：

$Σ^{- 1} = i = 1 \sum p u_{i} \frac{1}{λ _{i}} u_{i}^{T}$

$Δ = (x - μ)^{T} Σ^{- 1} (x - μ) = i = 1 \sum p (x - μ)^{T} u_{i} \frac{1}{λ _{i}} u_{i}^{T} (x - μ) = i = 1 \sum p \frac{y _{i}^{2}}{λ _{i}}$

我们注意到 $y_{i}$ 是 $x - μ$ 在特征向量 $u_{i}$ 上的投影长度，因此上式子就是 $Δ$ 取不同值时的同心椭圆。

下面我们看多维高斯模型在实际应用时的两个问题

参数 $Σ, μ$ 的自由度为 $O (p^{2})$ 对于维度很高的数据其自由度太高。解决方案：高自由度的来源是 $Σ$ 有 $\frac{p ( p + 1 )}{2}$ 个自由参数，可以假设其是对角矩阵，甚至在各向同性假设中假设其对角线上的元素都相同。前一种的算法有 Factor Analysis，后一种有概率 PCA(p-PCA) 。
第二个问题是单个高斯分布是单峰的，对有多个峰的数据分布不能得到好的结果。解决方案：高斯混合GMM 模型。

下面对多维高斯分布的常用定理进行介绍。

我们记 $x = (x_{1}, x_{2}, \dots, x_{p})^{T} = (x_{a, m \times 1}, x_{b, n \times 1})^{T}, μ = (μ_{a, m \times 1}, μ_{b, n \times 1}), Σ = (Σ_{aa} Σ_{ba} Σ_{ab} Σ_{bb})$ ，已知 $x \sim N (μ, Σ)$ 。

首先是一个高斯分布的定理：

定理：已知 $x \sim N (μ, Σ), y \sim A x + b$ ，那么 $y \sim N (A μ + b, A Σ A^{T})$ 。

证明： $E [y] = E [A x + b] = A E [x] + b = A μ + b$ ， $Va r [y] = Va r [A x + b] = Va r [A x] = A \cdot Va r [x] \cdot A^{T}$ 。

下面利用这个定理得到 $p (x_{a}), p (x_{b}), p (x_{a} ∣ x_{b}), p (x_{b} ∣ x_{a})$ 这四个量。

$x_{a} = (I_{m \times m} O_{m \times n})) (x_{a} x_{b})$ ，代入定理中得到： $E [x_{a}] = (I O) (μ_{a} μ_{b}) = μ_{a} Va r [x_{a}] = (I O) (Σ_{aa} Σ_{ba} Σ_{ab} Σ_{bb}) (I O) = Σ_{aa}$ 所以 $x_{a} \sim N (μ_{a}, Σ_{aa})$ 。
同样的， $x_{b} \sim N (μ_{b}, Σ_{bb})$ 。
对于两个条件概率，我们引入三个量： $x_{b \cdot a} = x_{b} - Σ_{ba} Σ_{aa}^{- 1} x_{a} μ_{b \cdot a} = μ_{b} - Σ_{ba} Σ_{aa}^{- 1} μ_{a} Σ_{bb \cdot a} = Σ_{bb} - Σ_{ba} Σ_{aa}^{- 1} Σ_{ab}$ 特别的，最后一个式子叫做 $Σ_{bb}$ 的 Schur Complementary。可以看到： $x_{b \cdot a} = (- Σ_{ba} Σ_{aa}^{- 1} I_{n \times n}) (x_{a} x_{b})$ 所以： $E [x_{b \cdot a}] = (- Σ_{ba} Σ_{aa}^{- 1} I_{n \times n}) (μ_{a} μ_{b}) = μ_{b \cdot a} Va r [x_{b \cdot a}] = (- Σ_{ba} Σ_{aa}^{- 1} I_{n \times n}) (Σ_{aa} Σ_{ba} Σ_{ab} Σ_{bb}) (- Σ_{aa}^{- 1} Σ_{ba}^{T} I_{n \times n}) = Σ_{bb \cdot a}$ 利用这三个量可以得到 $x_{b} = x_{b \cdot a} + Σ_{ba} Σ_{aa}^{- 1} x_{a}$ 。因此： $E [x_{b} ∣ x_{a}] = μ_{b \cdot a} + Σ_{ba} Σ_{aa}^{- 1} x_{a}$

$Va r [x_{b} ∣ x_{a}] = Σ_{bb \cdot a}$

这里同样用到了定理。
同样： $x_{a \cdot b} = x_{a} - Σ_{ab} Σ_{bb}^{- 1} x_{b} μ_{a \cdot b} = μ_{a} - Σ_{ab} Σ_{bb}^{- 1} μ_{b} Σ_{aa \cdot b} = Σ_{aa} - Σ_{ab} Σ_{bb}^{- 1} Σ_{ba}$ 所以： $E [x_{a} ∣ x_{b}] = μ_{a \cdot b} + Σ_{ab} Σ_{bb}^{- 1} x_{b}$

$Va r [x_{a} ∣ x_{b}] = Σ_{aa \cdot b}$

下面利用上边四个量，求解线性模型：

已知： $p (x) = N (μ, Λ^{- 1}), p (y ∣ x) = N (A x + b, L^{- 1})$ ，求解： $p (y), p (x ∣ y)$ 。

解：令 $y = A x + b + ϵ, ϵ \sim N (0, L^{- 1})$ ，所以 $E [y] = E [A x + b + ϵ] = A μ + b$ ， $Va r [y] = A Λ^{- 1} A^{T} + L^{- 1}$ ，因此： $> p (y) = N (A μ + b, L^{- 1} + A Λ^{- 1} A^{T}) >$ 引入 $z = (x y)$ ，我们可以得到 $C o v [x, y] = E [(x - E [x]) (y - E [y])^{T}]$ 。对于这个协方差可以直接计算： $> > C o v (x, y) = E [(x - μ) (A x - A μ + ϵ)^{T}] = E [(x - μ) (x - μ)^{T} A^{T}] = Va r [x] A^{T} = Λ^{- 1} A^{T} > >$ 注意到协方差矩阵的对称性，所以 $p (z) = N (μ A μ + b), (Λ^{- 1} A Λ^{- 1} Λ^{- 1} A^{T} L^{- 1} + A Λ^{- 1} A^{T}))$ 。根据之前的公式，我们可以得到： $> E [x ∣ y] = μ + Λ^{- 1} A^{T} (L^{- 1} + A Λ^{- 1} A^{T})^{- 1} (y - A μ - b) >$

$> Va r [x ∣ y] = Λ^{- 1} - Λ^{- 1} A^{T} (L^{- 1} + A Λ^{- 1} A^{T})^{- 1} A Λ^{- 1} >$

Machine Learning

高斯分布

一维情况 MLE

多维情况