深度强化学习核心算法与应用 Posted Apr 19, 2026 By 1 min read 深度强化学习核心算法与应用 Contents 深度强化学习核心算法与应用 深度强化学习核心算法与应用作者:未知作者 笔记数:1 条1.4 基于策略的值函数由于Q值直接对动作进行打分,因此通常在动作离散的情况下,会使用Q值来学习(Q-Learning的方法),而动作空间很大的时候,则使用V值对策略进行梯度迭代(策略梯度的方法)。 This post is licensed under CC BY 4.0 by the author. Share