强化学习

Posted Apr 19, 2026

2 min read

强化学习

作者：未知作者笔记数：14 条

第9章 Actor-Critic及变种

近似的值函数来指导策略参数更新，这就是Actor-Critic策略梯度的主要思想。

Actor-Critic算法的引入，主要是为了解决Policy Gradient算法中回合更新效率低的问题，即它仅能在一个回合完成之后，才能更新参数。Actor-Critic算法可以实现单步更新，收敛要快很多。

自举的方法也有它的好处，它减少了算法的方差，提高了学习的速度，并且它克服了蒙特卡罗只能学习完整轨迹的限制

在线策略%离线策略：生成采样数据 vs 评估改进的策略

根据生成采样数据所使用的策略和评估改进的策略是否为同一个策略，行动者-评论家（Actor-Critic）方法又可以分为在线策略AC和离线策略AC。

π(a s,theta)

在线策略的行动者-评论家（Actor-Critic）方法表示用来采样的策略同时也是需要评估改进的策略，记为π（s a，θ）

如下为线性近似函数：Qw（s，a）=w Tϕ（s，a）ϕ（s，a）可以是前面介绍的任意一个基函数

基线函数B（s），要求这一函数仅与状态有关，与行为无关，因而不改变梯度本身

基线函数的特点是能在不改变策略梯度的同时降低其方差。

评论家Critic部分是一个优势函数，对应的AC方法也变成了Advantage Actor-Critic方法

因此，相比于随机策略方法，确定性策略需要的样本数据要小，确定性策略方法的效率比随机策略的效率高很多，这也是确定性策略方法最主要的优点。

行动策略：action网络输出的action + 噪声

行动策略是随机策略，评估策略是确定性策略

This post is licensed under CC BY 4.0 by the author.