线性回归——正则方程法求解

Least squares revisited
最小二乘法
噪声为高斯分布的 MLE
权重先验也为高斯分布的 MAP

假设数据集为： $D = {(x_{1}, y_{1}), (x_{2}, y_{2}), \dots, (x_{N}, y_{N})}$ 其中 $x_{i} \in R^{p}, y_{i} \in R, i = 1, 2, ..., N$

考虑截距的话，则 $x_{i} \in R^{p + 1}, y_{i} \in R, i = 1, 2, ..., N$ ，此时X、W和Y的表达式如下：

$X = (x_{1} x_{2} \dots x_{N})^{T} = x_{1}^{T} x_{2}^{T} ⋮ x_{N}^{T} = 11 ⋮ 1 x_{11} x_{21} ⋮ x_{N 1} x_{12} x_{22} ⋮ x_{N 2} \dots \dots ⋮ \dots x_{1 p} x_{2 p} ⋮ x_{Np}_{N * （ p + 1 ）}$

$W = w_{0} w_{1} w_{2} ⋮ w_{p}_{(p + 1) \times 1}$

$Y = y_{1} y_{2} ⋮ y_{N}_{N \times 1}$

方便起见，后面我们记： $X = (x_{1}, x_{2}, \dots, x_{N})^{T}, Y = (y_{1}, y_{2}, \dots, y_{N})^{T}$ 对每一个样本数据，作出如下的线性回归假设： $f (w) = w^{T} x$

Least squares revisited

Armed with the tools of matrix derivatives, let us now proceed to find in closed-form the value of θ that minimizes J(θ). We begin by re-writing J in matrix-vectorial notation.

Given a training set, define the design matrix X to be the n-by-d matrix (actually n-by-d + 1, if we include the intercept term) that contains the training examples’ input values in its rows:

$X = - (x^{(1)})^{T} - - (x^{(2)})^{T} - ⋮ - (x^{(n)})^{T} - .$

Also, let $y$ be the $n$ -dimensional vector containing all the target values from the training set:

$y = y^{(1)} y^{(2)} ⋮ y^{(n)} .$

Now, since $h_{θ} (x^{(i)}) = (x^{(i)})^{T} θ,$ we can easily verify that

Thus, using the fact that for a vector $z,$ we have that $z^{T} z = \sum_{i} z_{i}^{2} :$

$\frac{1}{2} (Xθ - y)^{T} (Xθ - y) = = \frac{1}{2} i = 1 \sum n (h_{θ} (x^{(i)}) - y^{(i)})^{2} J (θ)$

Finally, to minimize $J$ let's find its derivatives with respect to $θ$ . Hence,

$\nabla_{θ} J (θ) = \nabla_{θ} \frac{1}{2} (Xθ - y)^{T} (Xθ - y) = \frac{1}{2} \nabla_{θ} ((Xθ)^{T} Xθ - (Xθ)^{T} y - y^{T} (Xθ) + y^{T} y) = \frac{1}{2} \nabla_{θ} (θ^{T} (X^{T} X) θ - y^{T} (Xθ) - y^{T} (Xθ)) = \frac{1}{2} \nabla_{θ} (θ^{T} (X^{T} X) θ - 2 (X^{T} y)^{T} θ) = \frac{1}{2} (2 X^{T} Xθ - 2 X^{T} y) = X^{T} Xθ - X^{T} y$ In the third step, we used the fact that $a^{T} b = b^{T} a$ , and in the fifth step used the facts $\nabla_{x} b^{T} x = b$ and $\nabla_{x} x^{T} A x = 2 A x$ for symmetric matrix $A$ (fon more details, see Section 4.3 of “Linear Algebra Review and Reference”). To minimize $J,$ we set its derivatives to zero, and obtain the normal equations:

$X^{T} Xθ = X^{T} y$

Thus, the value of $θ$ that minimizes $J (θ)$ is given in closed form by the equation

$θ = (X^{T} X)^{- 1} X^{T} y$

最小二乘法

对这个问题，采用二范数定义的平方误差来定义损失函数： $L (w) = i = 1 \sum N ∣∣ w^{T} x_{i} - y_{i} ∣ ∣_{2}^{2}$ 展开得到： $L (w) = (w^{T} x_{1} - y_{1}, \dots, w^{T} x_{N} - y_{N}) \cdot (w^{T} x_{1} - y_{1}, \dots, w^{T} x_{N} - y_{N})^{T} = (w^{T} X^{T} - Y^{T}) \cdot (Xw - Y) = w^{T} X^{T} Xw - Y^{T} Xw - w^{T} X^{T} Y + Y^{T} Y = w^{T} X^{T} Xw - 2 w^{T} X^{T} Y + Y^{T} Y$ 最小化这个值的 $\overset{w}{^}$ ： $\overset{w}{^} = w a r g min L (w) ⟶ \frac{\partial}{\partial w} L (w) = 0 ⟶ 2 X^{T} X \overset{w}{^} - 2 X^{T} Y = 0 ⟶ \overset{w}{^} = (X^{T} X)^{- 1} X^{T} Y = X^{+} Y$ 这个式子中 $(X^{T} X)^{- 1} X^{T}$ 又被称为伪逆。对于行满秩或者列满秩的 $X$ ，可以直接求解，但是对于非满秩的样本集合，需要使用奇异值分解（SVD）的方法，对 $X$ 求奇异值分解，得到 $X = U Σ V^{T}$ 于是： $X^{+} = V Σ^{- 1} U^{T}$ 在几何上，最小二乘法相当于模型（这里就是直线）和试验值的距离的平方求和，假设我们的试验样本张成一个 $p$ 维空间（满秩的情况）： $X = Sp an (x_{1}, \dots, x_{N})$ ，而模型可以写成 $f (w) = Xβ$ ，也就是 $x_{1}, \dots, x_{N}$ 的某种组合，而最小二乘法就是说希望 $Y$ 和这个模型距离越小越好，于是它们的差应该与这个张成的空间垂直： $X^{T} \cdot (Y - Xβ) = 0 ⟶ β = (X^{T} X)^{- 1} X^{T} Y$

噪声为高斯分布的 MLE

对于一维的情况，记 $y = w^{T} x + ϵ, ϵ \sim N (0, σ^{2})$ ，那么 $y \sim N (w^{T} x, σ^{2})$ 。代入极大似然估计中： $L (w) = lo g p (Y ∣ X, w) w a r g ma x L (w) = lo g i = 1 \prod N p (y_{i} ∣ x_{i}, w) = i = 1 \sum N lo g (\frac{1}{2 πσ} e^{- \frac{( y _{i} - w ^{T} x _{i} ) ^{2}}{2 σ ^{2}}}) = w a r g min i = 1^{N} \sum (y_{i} - w^{T} x_{i})^{2}$ 这个表达式和最小二乘估计得到的结果一样。

权重先验也为高斯分布的 MAP

取先验分布 $w \sim N (0, σ_{0}^{2})$ 。于是： $\overset{w}{^} = w a r g ma x p (w ∣ Y) = w a r g ma x p (Y ∣ w) p (w) = w a r g ma x lo g p (Y ∣ w) p (w) = w a r g ma x (lo g p (Y ∣ w) + lo g p (w)) = w a r g min [(y - w^{T} x)^{2} + \frac{σ ^{2}}{σ _{0}^{2}} w^{T} w]$ 这里省略了 $X$ ， $p (Y)$ 和 $w$ 没有关系，同时也利用了上面高斯分布的 MLE的结果。

我们将会看到，超参数 $σ_{0}$ 的存在和下面会介绍的 Ridge 正则项可以对应，同样的如果将先验分布取为 Laplace 分布，那么就会得到和 L1 正则类似的结果。

Machine Learning

线性回归——正则方程法求解

Least squares revisited

最小二乘法

噪声为高斯分布的 MLE

权重先验也为高斯分布的 MAP