职场耍小聪明最新章节第961章 AI里的白盒黑盒和正则化第3页_职场耍小聪明全文阅读

笔趣阁>职场耍小聪明 > 第961章 AI里的白盒黑盒和正则化（第3页）

就是（或对权重进行缩放），保证输出分布一致。

示例

：一个含100个神经元的全连接层，p=05时，每次训练迭代会随机选择50个神经元置为0，仅用剩余50个神经元计算；测试时，100个神经元全部激活，输出乘以05。

核心作用

：避免“神经元共适应”（即多个神经元依赖彼此的错误特征），模拟“集成学习”（每次训练都是一个不同的小模型，测试时融合所有小模型的预测）。

3batchnralizat（批量归一化，bn）

原理

：对每一层的输入数据进行“标准化”（使数据均值为0、方差为1），并引入可学习的缩放参数和偏移参数，增强模型灵活性。

正则化效果

：训练时，bn使用“批次内数据的均值和方差”，测试时使用“训练过程中移动平均的均值和方差”，这种差异会给模型带来微小的噪声，间接抑制过拟合。

附加价值

：加速模型收敛（避免梯度消失爆炸），允许使用更高的学习率，是深度学习的“标配”技术之一（虽非专门为正则化设计，但正则化效果显着）。

4早停（earlytppg）

原理

：训练过程中，持续监控模型在验证集上的性能（如准确率、损失）；当验证集性能不再提升（甚至下降）时，立即停止训练，避免模型继续学习训练数据中的噪声。

本质

：通过限制训练迭代次数，防止模型“过度训练”，相当于在“模型复杂度随训练次数增长”的过程中，选择“泛化能力最强”的中间状态。

操作步骤

：

将数据分为训练集、验证集、测试集；

每次迭代后，计算验证集损失；

若验证集损失连续k次（如10次）未下降，停止训练，保存此时的模型参数。

5数据增强（dataaugntat）

原理

：通过对训练数据进行“随机变换”（不改变标签），人工扩大训练集规模，让模型接触更多样化的样本，减少对原始数据噪声的依赖。

常见手段

（以图像数据为例）：

几何变换：随机裁剪、翻转、旋转、缩放；

这章没有结束，请点击下一页继续阅读！

像素变换：随机调整亮度、对比度、饱和度、添加高斯噪声；

高级变换：）职场小聪明。