什么是正则化?
正则化(Regularization) 是在损失函数中添加一个惩罚项,限制模型参数的大小,从而防止过拟合、提升模型的泛化能力。
直观理解
原始目标:找到使预测误差最小的参数。
加了正则化:找到使"预测误差 + 参数惩罚"最小的参数。
这就像告诉模型:"不仅要拟合数据,还不能太复杂。"参数值越大,惩罚越大,模型被迫使用更简单的参数。
正则化后的损失函数 = 原始损失 + λ × 惩罚项
其中 λ 是正则化强度,λ 越大,对复杂度的限制越强。
三种正则化方法
L0 正则化
惩罚项:非零权重的个数
- 直接限制模型使用的参数数量
- 能产生最稀疏的解
- 缺点:不光滑、不可微,无法用梯度下降优化
- 实际中很少直接使用
L1 正则化(Lasso)
惩罚项:权重绝对值之和 = |w₁| + |w₂| + ... + |wₙ|
- 倾向于产生稀疏解(部分权重变为0)
- 天然具有特征选择功能(权重为0的特征被排除)
- 可以用梯度下降优化
L2 正则化(Ridge)
惩罚项:权重平方和 = w₁² + w₂² + ... + wₙ²
- 使权重均匀缩小,而不是变为0
- 不产生稀疏解
- 有助于模型平滑性和泛化能力
- 最常用的正则化方法
三种方法的对比
| 方法 | 惩罚项 | 稀疏性 | 可优化性 | 特征选择 |
|---|---|---|---|---|
| L0 | 非零权重个数 | 最稀疏 | 不可微,难优化 | 有 |
| L1 | 绝对值之和 | 稀疏 | 可优化 | 有 |
| L2 | 平方和 | 不稀疏 | 可优化 | 无 |
考试要点
- 正则化的作用:防止过拟合,通过惩罚项限制模型复杂度
- L0不可微,难以优化
- L1产生稀疏解,有助于特征选择
- L2使权重均匀分布,提升泛化能力