笔趣阁

笔趣阁>职场耍小聪明 > 第961章 AI里的白盒黑盒和正则化(第3页)

第961章 AI里的白盒黑盒和正则化(第3页)

就是(或对权重进行缩放),保证输出分布一致。

示例

:一个含100个神经元的全连接层,p=05时,每次训练迭代会随机选择50个神经元置为0,仅用剩余50个神经元计算;测试时,100个神经元全部激活,输出乘以05。

核心作用

:避免“神经元共适应”(即多个神经元依赖彼此的错误特征),模拟“集成学习”(每次训练都是一个不同的小模型,测试时融合所有小模型的预测)。

3batchnralizat(批量归一化,bn)

原理

:对每一层的输入数据进行“标准化”(使数据均值为0、方差为1),并引入可学习的缩放参数和偏移参数,增强模型灵活性。

正则化效果

:训练时,bn使用“批次内数据的均值和方差”,测试时使用“训练过程中移动平均的均值和方差”,这种差异会给模型带来微小的噪声,间接抑制过拟合。

附加价值

:加速模型收敛(避免梯度消失爆炸),允许使用更高的学习率,是深度学习的“标配”技术之一(虽非专门为正则化设计,但正则化效果显着)。

4早停(earlytppg)

原理

:训练过程中,持续监控模型在验证集上的性能(如准确率、损失);当验证集性能不再提升(甚至下降)时,立即停止训练,避免模型继续学习训练数据中的噪声。

本质

:通过限制训练迭代次数,防止模型“过度训练”,相当于在“模型复杂度随训练次数增长”的过程中,选择“泛化能力最强”的中间状态。

操作步骤

将数据分为训练集、验证集、测试集;

每次迭代后,计算验证集损失;

若验证集损失连续k次(如10次)未下降,停止训练,保存此时的模型参数。

5数据增强(dataaugntat)

原理

:通过对训练数据进行“随机变换”(不改变标签),人工扩大训练集规模,让模型接触更多样化的样本,减少对原始数据噪声的依赖。

常见手段

(以图像数据为例):

几何变换:随机裁剪、翻转、旋转、缩放;

这章没有结束,请点击下一页继续阅读!

像素变换:随机调整亮度、对比度、饱和度、添加高斯噪声;

高级变换:)职场小聪明。

已完结热门小说推荐

最新标签