笔趣阁

笔趣阁>职场耍小聪明 > 第961章 AI里的白盒黑盒和正则化(第2页)

第961章 AI里的白盒黑盒和正则化(第2页)

l1和l2的核心差异源于惩罚项的“几何形状”,可通过“约束域”直观理解:假设模型仅含两个参数和,正则化等价于在“参数空间”中加入一个约束域,损失函数的最优解需落在“约束域与损失函数等高线的切点”上:

小主,这个章节后面还有哦,请点击下一页继续阅读,后面更精彩!

l2的约束域是圆形:切点通常不在坐标轴上,因此参数不会为0;

l1的约束域是正方形:正方形的顶点在坐标轴上(如,切点更易落在顶点,导致某一参数为0。

对比维度

l1正则化()

l2正则化(rid)

惩罚项形式(绝对值和)(平方和)参数效果部分参数置为0(稀疏化特征选择)

所有参数缩小,不置为0

抗多重共线性

弱(可能删除相关特征中的一个)

强(通过缩小参数缓解相关性影响)

优化难度

高(不可导,需特殊方法)

低(可导,支持梯度下降)

适用场景

高维、冗余特征数据

特征均有意义、需保留所有特征

4etic(弹性网络):l1与l2的结合

为兼顾l1的“特征选择”和l2的“抗共线性”,etic同时引入l1和l2惩罚项,损失函数为:其中控制l1强度,控制l2强度。适用场景:特征维度极高且存在多重共线性的场景(如基因数据,特征数远大于样本数,且基因间存在相关性)。

三、深度学习中的正则化方法

深度学习模型(如n、tranfrr)参数规模庞大(动辄千万级),过拟合风险更高,除了上述l1l2,还需针对性的正则化技术。

1权重衰减(weightdecay)

本质

:深度学习中l2正则化的常用实现方式,通过在优化器中直接对参数进行“按比例衰减”(如gd、ada优化器均支持weight_decay参数)。

原理

:每次参数更新时,先将参数乘以一个小于1的系数(如099),再进行梯度下降,等价于在损失函数中加入l2惩罚项。

注意

:权重衰减仅作用于权重参数,不作用于偏置项和batchnr的参数(因这些参数对模型复杂度影响小)。

2drput(随机失活)

原理

(以全连接层为例):训练时,随机“关闭”(置为0)一部分神经元(比例由参数p控制,通常取02~05),迫使模型不依赖某一特定神经元,学习更鲁棒的特征;测试时,不关闭任何神经元,而是将所有神经元的输出乘以

已完结热门小说推荐

最新标签