正则化 (regularization) - 机器学习中正则化是指在损失函数中通过引入一些额外的信息,来防止(ill-posed)

问题或 过拟合问题。一般这些额外的信息是用来对模型复杂度进行惩罚([Occam's razor]([https://en.wikipedia.org/wiki/Occam's_razor))](https://en.wikipedia.org/wiki/Occam's_razor))).

范数(Norm)

前提:当特征features > 样本,样本数偏少时,易过拟合。

为了缓解overfit,引入regularization. 其中有Lp

范数正则化Lp 作用 特点 场景
L0 L0范数的最小化问题在实际应用中是NP难问题,因此很多情况下,L0优化问题就会被relaxe为更高维度的范数问题,如L1范数,L2范数最小化问题
L1 LASSO Regression (曼哈顿距离) 降低过拟合 更易获得sparse的解,2.倾向于选择很少的一些非常大的值和很多的insignificant的小值。3.L1范数的最优解相对于L2范数要少,但其往往是最优解, 计算机视觉Sum of Absolute Differents,Mean Absolute Error都是利用L1范式的定义
L2 Ridge regression (欧基里德距离) 降低过拟合 更多的非常少的特别大的值,却又很多相对小的值. 3.更多的倾向于某种局部最优解. 处理特征数多过样本数,通过引入惩罚项,减少不重要的参数

拓展:贝叶斯先验

正则化项从贝叶斯学习理论的角度来看,其相当于一种先验函数。即当你训练一个模型时,仅仅依靠当前的训练集数据是不够的,为了实现更好的预测(泛化)效果,我们还应该加上先验项。而L1则相当于设置一个Laplacean先验,去选择MAP(maximum a posteriori)假设。而L2则类似于 Gaussian先验。如下图所示:

从上图可以看出,L1先验对大值和小值的tolerate都很好,而L2先验则倾向于均匀化大值和小值。

results matching ""

    No results matching ""