正则化 (regularization) - 机器学习中正则化是指在损失函数中通过引入一些额外的信息,来防止(ill-posed)
问题或 过拟合问题。一般这些额外的信息是用来对模型复杂度进行惩罚([Occam's razor]([https://en.wikipedia.org/wiki/Occam's_razor))](https://en.wikipedia.org/wiki/Occam's_razor))).
范数(Norm)
前提:当特征features > 样本,样本数偏少时,易过拟合。
为了缓解overfit,引入regularization. 其中有Lp
范数正则化Lp | 作用 | 特点 | 场景 | ||
---|---|---|---|---|---|
L0 | L0范数的最小化问题在实际应用中是NP难问题,因此很多情况下,L0优化问题就会被relaxe为更高维度的范数问题,如L1范数,L2范数最小化问题 | ||||
L1 | LASSO Regression (曼哈顿距离) | 降低过拟合 | 更易获得sparse的解,2.倾向于选择很少的一些非常大的值和很多的insignificant的小值。3.L1范数的最优解相对于L2范数要少,但其往往是最优解, | 计算机视觉Sum of Absolute Differents,Mean Absolute Error都是利用L1范式的定义 | |
L2 | Ridge regression (欧基里德距离) | 降低过拟合 | 更多的非常少的特别大的值,却又很多相对小的值. 3.更多的倾向于某种局部最优解. | 处理特征数多过样本数,通过引入惩罚项,减少不重要的参数 | |
拓展:贝叶斯先验
正则化项从贝叶斯学习理论的角度来看,其相当于一种先验函数。即当你训练一个模型时,仅仅依靠当前的训练集数据是不够的,为了实现更好的预测(泛化)效果,我们还应该加上先验项。而L1则相当于设置一个Laplacean先验,去选择MAP(maximum a posteriori)假设。而L2则类似于 Gaussian先验。如下图所示:
从上图可以看出,L1先验对大值和小值的tolerate都很好,而L2先验则倾向于均匀化大值和小值。