职场耍小聪明最新章节第961章 AI里的白盒黑盒和正则化第2页_职场耍小聪明全文阅读

笔趣阁>职场耍小聪明 > 第961章 AI里的白盒黑盒和正则化（第2页）

l1和l2的核心差异源于惩罚项的“几何形状”，可通过“约束域”直观理解：假设模型仅含两个参数和，正则化等价于在“参数空间”中加入一个约束域，损失函数的最优解需落在“约束域与损失函数等高线的切点”上：

小主，这个章节后面还有哦，请点击下一页继续阅读，后面更精彩！

l2的约束域是圆形：切点通常不在坐标轴上，因此参数不会为0；

l1的约束域是正方形：正方形的顶点在坐标轴上（如，切点更易落在顶点，导致某一参数为0。

对比维度

l1正则化（）

l2正则化（rid）

惩罚项形式（绝对值和）（平方和）参数效果部分参数置为0（稀疏化特征选择）

所有参数缩小，不置为0

抗多重共线性

弱（可能删除相关特征中的一个）

强（通过缩小参数缓解相关性影响）

优化难度

高（不可导，需特殊方法）

低（可导，支持梯度下降）

适用场景

高维、冗余特征数据

特征均有意义、需保留所有特征

4etic（弹性网络）：l1与l2的结合

为兼顾l1的“特征选择”和l2的“抗共线性”，etic同时引入l1和l2惩罚项，损失函数为：其中控制l1强度，控制l2强度。适用场景：特征维度极高且存在多重共线性的场景（如基因数据，特征数远大于样本数，且基因间存在相关性）。

三、深度学习中的正则化方法

深度学习模型（如n、tranfrr）参数规模庞大（动辄千万级），过拟合风险更高，除了上述l1l2，还需针对性的正则化技术。

1权重衰减（weightdecay）

本质

：深度学习中l2正则化的常用实现方式，通过在优化器中直接对参数进行“按比例衰减”（如gd、ada优化器均支持weight_decay参数）。

原理

：每次参数更新时，先将参数乘以一个小于1的系数（如099），再进行梯度下降，等价于在损失函数中加入l2惩罚项。

注意

：权重衰减仅作用于权重参数，不作用于偏置项和batchnr的参数（因这些参数对模型复杂度影响小）。

2drput（随机失活）

原理

（以全连接层为例）：训练时，随机“关闭”（置为0）一部分神经元（比例由参数p控制，通常取02~05），迫使模型不依赖某一特定神经元，学习更鲁棒的特征；测试时，不关闭任何神经元，而是将所有神经元的输出乘以