正则化 (regularization) - 机器学习中正则化是指在损失函数中通过引入一些额外的信息，来防止(ill-posed)

问题或过拟合问题。一般这些额外的信息是用来对模型复杂度进行惩罚（[Occam's razor]([https://en.wikipedia.org/wiki/Occam's_razor)）](https://en.wikipedia.org/wiki/Occam's_razor)）).

范数（Norm）

前提：当特征features > 样本，样本数偏少时，易过拟合。

为了缓解overfit,引入regularization. 其中有Lp

范数正则化Lp		作用	特点		场景
	L0		L0范数的最小化问题在实际应用中是NP难问题，因此很多情况下，L0优化问题就会被relaxe为更高维度的范数问题，如L1范数，L2范数最小化问题
L1	LASSO Regression (曼哈顿距离)	降低过拟合	更易获得sparse的解，2.倾向于选择很少的一些非常大的值和很多的insignificant的小值。3.L1范数的最优解相对于L2范数要少，但其往往是最优解，		计算机视觉Sum of Absolute Differents，Mean Absolute Error都是利用L1范式的定义
L2	Ridge regression (欧基里德距离)	降低过拟合	更多的非常少的特别大的值，却又很多相对小的值. 3.更多的倾向于某种局部最优解.	处理特征数多过样本数，通过引入惩罚项，减少不重要的参数

拓展：贝叶斯先验

正则化项从贝叶斯学习理论的角度来看，其相当于一种先验函数。即当你训练一个模型时，仅仅依靠当前的训练集数据是不够的，为了实现更好的预测（泛化）效果，我们还应该加上先验项。而L1则相当于设置一个Laplacean先验，去选择MAP（maximum a posteriori）假设。而L2则类似于 Gaussian先验。如下图所示：

从上图可以看出，L1先验对大值和小值的tolerate都很好，而L2先验则倾向于均匀化大值和小值。

范数正则化L1L2

results matching ""

No results matching ""