深度强化学习核心算法与应用

Posted Apr 19, 2026

1 min read

深度强化学习核心算法与应用

作者：未知作者笔记数：1 条

1.4 基于策略的值函数

由于Q值直接对动作进行打分，因此通常在动作离散的情况下，会使用Q值来学习（Q-Learning的方法），而动作空间很大的时候，则使用V值对策略进行梯度迭代（策略梯度的方法）。

This post is licensed under CC BY 4.0 by the author.