线性回归正则化

在实际应用时,如果样本容量不远远大于样本的特征维度,很可能造成过拟合,对这种情况,我们有下面三个解决方式:

  • 加数据
  • 特征选择(手动删除一些不重要的特征)、特征提取(降维如PCA)
  • 正则化

正则化一般是在损失函数(如上面介绍的最小二乘损失)上加入正则化项(表示模型的复杂度对模型的惩罚),下面我们介绍一般情况下的两种正则化框架。 下面对最小二乘误差分别分析这两者的区别。

L1 Lasso

L1正则化可以引起稀疏解。

从最小化损失的角度看,由于 L1 项求导在0附近的左右导数都不是0,因此更容易取到0解。

从另一个方面看,L1 正则化相当于: 我们已经看到平方误差损失函数在 空间是一个椭球,因此上式求解就是椭球和 的切点,因此更容易相切在坐标轴上。

L2 Ridge

可以看到,这个正则化参数和前面的 MAP 结果不谋而合。利用2范数进行正则化不仅可以是模型选择 较小的参数,同时也避免 不可逆的问题。