Post

深度强化学习核心算法与应用

深度强化学习核心算法与应用

深度强化学习核心算法与应用

作者:未知作者 笔记数:1 条

1.4 基于策略的值函数

由于Q值直接对动作进行打分,因此通常在动作离散的情况下,会使用Q值来学习(Q-Learning的方法),而动作空间很大的时候,则使用V值对策略进行梯度迭代(策略梯度的方法)。

This post is licensed under CC BY 4.0 by the author.