- 定义与核心思想
- Dueling DQN是DQN的另一种改进架构。它的核心思想是将Q - 值函数拆分为状态价值函数(Value function)和优势函数(Advantage function)。状态价值函数$V(s)$表示在状态$s$下的价值,而优势函数$A(s,a)$表示在状态$s$下采取动作$a$相对于其他动作的优势。
- 其Q - 值函数可以表示为:$Q(s,a)=V(s)+A(s,a)-\frac{1}{|A|}\sum_{a'}A(s,a')$,其中$|A|$是动作空间的大小。这样的分解使得网络能够更独立地学习状态的价值和动作相对于其他动作的优势。
- 网络架构
- Dueling D...
Dueling DQN
评论
98 views