梯度消失和梯度爆炸是深度神经网络训练中常见的问题,尤其在较深的网络或循环神经网络(RNN)中表现明显。这些问题会导致模型难以收敛或出现不稳定性。以下是这两个问题的详解,包括其成因、影响及应对策略。
一、梯度消失问题
1. 问题描述
梯度消失是指在反向传播过程中,梯度逐层变小,最终接近于零。这使得靠近输入层的权重更新几乎停止,导致模型无法有效训练。
2. 成因
- 激活函数的性质:
- Sigmoid 和 Tanh 激活函数在接近饱和区时(输入值绝对值较大),导数趋近于零。
-
在反向传播中,梯度是通过链式法则逐层相乘的,若每层梯度小于 1,最终梯度会指数级衰减。
-
网络深度:
- 网络越深,梯...