就是(或对权重进行缩放),保证输出分布一致。
示例
:一个含100个神经元的全连接层,p=05时,每次训练迭代会随机选择50个神经元置为0,仅用剩余50个神经元计算;测试时,100个神经元全部激活,输出乘以05。
核心作用
:避免“神经元共适应”(即多个神经元依赖彼此的错误特征),模拟“集成学习”(每次训练都是一个不同的小模型,测试时融合所有小模型的预测)。
3batchnralizat(批量归一化,bn)
原理
:对每一层的输入数据进行“标准化”(使数据均值为0、方差为1),并引入可学习的缩放参数和偏移参数,增强模型灵活性。
正则化效果
:训练时,bn使用“批次内数据的均值和方差”,测试时使用“训练过程中移动平均的均值和方差”,这种差异会给模型带来微小的噪声,间接抑制过拟合。
附加价值
:加速模型收敛(避免梯度消失爆炸),允许使用更高的学习率,是深度学习的“标配”技术之一(虽非专门为正则化设计,但正则化效果显着)。
4早停(earlytppg)
原理
:训练过程中,持续监控模型在验证集上的性能(如准确率、损失);当验证集性能不再提升(甚至下降)时,立即停止训练,避免模型继续学习训练数据中的噪声。
本质
:通过限制训练迭代次数,防止模型“过度训练”,相当于在“模型复杂度随训练次数增长”的过程中,选择“泛化能力最强”的中间状态。
操作步骤
:
将数据分为训练集、验证集、测试集;
每次迭代后,计算验证集损失;
若验证集损失连续k次(如10次)未下降,停止训练,保存此时的模型参数。
5数据增强(dataaugntat)
原理
:通过对训练数据进行“随机变换”(不改变标签),人工扩大训练集规模,让模型接触更多样化的样本,减少对原始数据噪声的依赖。
常见手段
(以图像数据为例):
几何变换:随机裁剪、翻转、旋转、缩放;
这章没有结束,请点击下一页继续阅读!
像素变换:随机调整亮度、对比度、饱和度、添加高斯噪声;
高级变换:)职场小聪明。