岭回归
简介
岭回归本质上是 线性回归 + L2 正则化。
岭回归与线性回归
线性回归中通过正规方程得到的 w 的估计:
但是,当我们有 N 个样本,每个样本有 $x_i \in R^p$, 当 N < p 时, $X^TX$ 不可逆, 无法通过正规方程计算,容易造成过拟合。
岭回归通过在矩阵 $X^TX$ 上加一个 $\lambda I$ 来使得矩阵可逆, 此时的 w 的估计:
而岭回归本质上是对 $L(w)$ 进行 L2 正则化, 此时的 $J(w)$ 表示为:
那么对 $w$ 的极大似然估计有:
那么我们就解得:
因此说, 岭回归本质上是 线性回归 + L2 正则化, 从而达到抑制过拟合的效果。
QA
1. 什么时候使用岭回归 ?
如果样本数据过少导致线性回归拟合较差,则考虑采用岭回归。如何输入特征的维度很高,而且是稀疏线性关系的话, 岭回归就不太合适,考虑使用Lasso回归。