机器学习

正则化(Regularization)

正则化L1L2过拟合稀疏
一句话摘要

防止模型过拟合的重要技术,通过在损失函数中添加惩罚项来限制模型复杂度,提升泛化能力。

什么是正则化?

正则化(Regularization) 是在损失函数中添加一个惩罚项,限制模型参数的大小,从而防止过拟合、提升模型的泛化能力。

直观理解

原始目标:找到使预测误差最小的参数。

加了正则化:找到使"预测误差 + 参数惩罚"最小的参数。

这就像告诉模型:"不仅要拟合数据,还不能太复杂。"参数值越大,惩罚越大,模型被迫使用更简单的参数。

正则化后的损失函数 = 原始损失 + λ × 惩罚项

其中 λ 是正则化强度,λ 越大,对复杂度的限制越强。

三种正则化方法

L0 正则化

惩罚项:非零权重的个数

  • 直接限制模型使用的参数数量
  • 能产生最稀疏的解
  • 缺点:不光滑、不可微,无法用梯度下降优化
  • 实际中很少直接使用

L1 正则化(Lasso)

惩罚项:权重绝对值之和 = |w₁| + |w₂| + ... + |wₙ|

  • 倾向于产生稀疏解(部分权重变为0)
  • 天然具有特征选择功能(权重为0的特征被排除)
  • 可以用梯度下降优化

L2 正则化(Ridge)

惩罚项:权重平方和 = w₁² + w₂² + ... + wₙ²

  • 使权重均匀缩小,而不是变为0
  • 不产生稀疏解
  • 有助于模型平滑性和泛化能力
  • 最常用的正则化方法

三种方法的对比

方法惩罚项稀疏性可优化性特征选择
L0非零权重个数最稀疏不可微,难优化
L1绝对值之和稀疏可优化
L2平方和不稀疏可优化

考试要点

  • 正则化的作用:防止过拟合,通过惩罚项限制模型复杂度
  • L0不可微,难以优化
  • L1产生稀疏解,有助于特征选择
  • L2使权重均匀分布,提升泛化能力
微信二维码

扫码备注【NOAI】加交流群