Policy Gradient Ascent(策略梯度上升)是强化学习中直接优化策略参数的一类方法,核心思想是通过梯度上升调整策略网络的参数,使得智能体在环境中获得的期望累积回报最大化。它属于策略梯度(Policy Gradient)算法家族,适用于连续或高维动作空间场景(如机器人控制)。
核心思想:直接优化策略
与价值函数方法(如Q-learning,通过估计“状态-动作价值”间接优化策略)不同,策略梯度方法直接对策略参数$\theta$(如神经网络权重)进行优化。策略$\pi_\theta(a|s)$表示在状态$s$下选择动作$a$的概率(随机策略)或确定动作(确定性策略)。目标是最...