Logistic Regression逻辑回归

两分类-软分类-概率判别模型-Logistic 回归

有时候我们只要得到一个类别的概率，那么我们需要一种能输出 $[0, 1]$ 区间的值的函数。考虑两分类模型，我们利用判别模型，希望对 $p (C ∣ x)$ 建模，利用贝叶斯定理： $p (C_{1} ∣ x) = \frac{p ( x ∣ C _{1} ) p ( C _{1} )}{p ( x ∣ C _{1} ) p ( C _{1} ) + p ( x ∣ C _{2} ) p ( C _{2} )}$ 取 $a = ln \frac{p ( x ∣ C _{1} ) p ( C _{1} )}{p ( x ∣ C _{2} ) p ( C _{2} )}$ ，于是： $p (C_{1} ∣ x) = \frac{1}{1 + exp ( - a )}$ 上面的式子叫 Logistic Sigmoid 函数，其参数表示了两类联合概率比值的对数。在判别式中，不关心这个参数的具体值，模型假设直接对 $a$ 进行。

Logistic 回归的模型假设是： $a = w^{T} x$ 于是，通过寻找 $w$ 的最佳值可以得到在这个模型假设下的最佳模型。概率判别模型常用最大似然估计的方式来确定参数。

对于一次观测，获得分类 $y$ 的概率为（假定 $C_{1} = 1, C_{2} = 0$ ）： $p (y ∣ x) = p_{1}^{y} p_{0}^{1 - y}$

那么对于 $N$ 次独立全同的观测 MLE为： $\overset{w}{^} = a r g ma x_{w} J (w) = a r g ma x_{w} i = 1 \sum N (y_{i} lo g p_{1} + (1 - y_{i}) lo g p_{0})$ 注意到，这个表达式是交叉熵表达式的相反数乘 $N$ ，MLE 中的对数也保证了可以和指数函数相匹配，从而在大的区间汇总获取稳定的梯度。

对这个函数求导数，注意到： $p_{1}^{'} = (\frac{1}{1 + exp ( - a )})^{'} = p_{1} (1 - p_{1})$ 则： $J^{'} (w) = i = 1 \sum N y_{i} (1 - p_{1}) x_{i} - p_{1} x_{i} + y_{i} p_{1} x_{i} = i = 1 \sum N (y_{i} - p_{1}) x_{i}$ 由于概率值的非线性，放在求和符号中时，这个式子无法直接求解。于是在实际训练的时候，和感知机类似，也可以使用不同大小的批量随机梯度上升（对于最小化就是梯度下降）来获得这个函数的极大值。

Machine Learning

两分类-软分类-概率判别模型-Logistic 回归