机器学习

正则化（Regularization）

正则化L1L2过拟合稀疏

一句话摘要

防止模型过拟合的重要技术，通过在损失函数中添加惩罚项来限制模型复杂度，提升泛化能力。

什么是正则化？

正则化（Regularization） 是在损失函数中添加一个惩罚项，限制模型参数的大小，从而防止过拟合、提升模型的泛化能力。

直观理解

原始目标：找到使预测误差最小的参数。

加了正则化：找到使"预测误差 + 参数惩罚"最小的参数。

这就像告诉模型："不仅要拟合数据，还不能太复杂。"参数值越大，惩罚越大，模型被迫使用更简单的参数。

正则化后的损失函数 = 原始损失 + λ × 惩罚项

其中 λ 是正则化强度，λ 越大，对复杂度的限制越强。

三种正则化方法

L0 正则化

惩罚项：非零权重的个数

直接限制模型使用的参数数量
能产生最稀疏的解
缺点：不光滑、不可微，无法用梯度下降优化
实际中很少直接使用

L1 正则化（Lasso）

惩罚项：权重绝对值之和 = |w₁| + |w₂| + ... + |wₙ|

倾向于产生稀疏解（部分权重变为0）
天然具有特征选择功能（权重为0的特征被排除）
可以用梯度下降优化

L2 正则化（Ridge）

惩罚项：权重平方和 = w₁² + w₂² + ... + wₙ²

使权重均匀缩小，而不是变为0
不产生稀疏解
有助于模型平滑性和泛化能力
最常用的正则化方法

三种方法的对比

方法	惩罚项	稀疏性	可优化性	特征选择
L0	非零权重个数	最稀疏	不可微，难优化	有
L1	绝对值之和	稀疏	可优化	有
L2	平方和	不稀疏	可优化	无

考试要点

正则化的作用：防止过拟合，通过惩罚项限制模型复杂度
L0不可微，难以优化
L1产生稀疏解，有助于特征选择
L2使权重均匀分布，提升泛化能力

微信二维码

扫码备注【NOAI】加交流群