Simple VLA-RL
1. 研究背景
Simple VLA-RL: scaling VLA Training via Reinforcement Learning: https://github.com/PRIME-RL/SimpleVLA-RL
问题:针对机器人领域VLA模型主要采用大规模预训练和有监督微调(supervised fine-tune)的方案,存在两个问题
- 样本效率:数据稀缺、高质量机器人轨迹采集成本高
- 泛化性问题:针对分布偏移(distribution shift)场景适应性差
思路:RL在推理大模型领域的成功能否复制应用到VLA模型?
Simple VLA-RL:
- 基于veRL(Volcano Engine Reinforcement Learning)
- VLA-specific trajectory sampling
- scalable parallelization
- multi-environment rendering
- 稀疏奖励:0/1奖励
- GRPO算法
2. 交互式VLA轨迹采样(Interactive VLA Rollout)
VLA和LLM在轨迹生成上存在根本不同:
- LLM生成:开环自回归,基于历史文本token预测下一个token,无真实环境反馈
- 一次性生成完整的序列或逐token生成,无需等待外部响应
- VLA生成:闭环交互式生成
- 保持LLM自回归生成能力的基础上,解决物理可行性、闭环、稀疏奖励、安全探索等一系列问题
3. VLA模型action decoding的三种方案
VLA模型的三种动作解码策略,本质上是在离散可控性、连续精度、计算效率与RL 兼容性四个维度的权衡。
当前主流趋势是:离散 token 自回归 + 动作块优化成为通用选择,而扩散并行解码则是未来提升推理速度与动作质量的重要方向,两种策略的融合(如 Discrete Diffusion VLA)可能成为下一代 VLA 模型的核心设计。
\[a_t = Decoder(h_{\theta}(s_t))\]
- 离散token
- 连续值回归
- 扩散模型
1. 基于离散token的自回归解码(Autoregressive Token-based Decoding)
- 原理:
- 动作token化:连续动作空间离散化为固定大小的token词汇表,通过动作量化器(例如VQ-VAE、k-means)实现连续→离散映射
- 自回归生成:模型逐 token 预测下一个动作 token,基于历史 token 序列和当前环境状态,与 LLM 文本生成范式一致
- 动作块(Action Chunk)优化:一次生成 k 个动作 token(如 5-8 步),而非单步生成,平衡延迟与执行效率,是 VLA 规模化训练的关键设计
- 典型:
- OpenVLA-OFT、RT-2、π0 等主流 VLA 模型均采用此策略
- 输出动作 token 概率分布,支持随机采样(探索)与贪心 / 束搜索(利用)两种模式
- 优势:
- RL兼容:适配PPO、GRPO等算法
- 离散可控:token 化使动作生成可被精确控制,便于实现安全约束与探索增强策略
- VLM 原生兼容:复用 LLM 自回归生成能力,最大化利用预训练视觉 - 语言先验知识
- 局限:
- 解码延迟:逐 token 生成导致推理速度受限,需动作块优化提升效率
- 量化误差:离散化引入信息损失,可能影响动作精度
2. 连续值回归解码(Continuous Regression Decoding、 Deterministic Regression via MLPs)
- 原理:
- 直接回归:模型输出连续动作值(如末端执行器的 Δx, Δy, Δz 位移),无需离散 token 化,通过回归头预测具体数值。
- 两种实现方式:
- 纯回归:直接输出连续动作向量,使用 MSE 损失训练
- 加权期望:保留离散 token 分布,通过 softmax 加权平均计算连续动作值,兼顾分布特性与连续性
- 典型:
- ContinuousVLA、部分早期 VLA 模型采用此策略;适用于需要高精度控制的场景(如精密装配、微小物体操作)
- 优势:
- 无量化误差:直接输出连续动作,避免离散化导致的精度损失
- 推理高效:无需 token 解码步骤,端到端延迟更低
- 动力学适配:更贴合机器人连续控制本质,减少离散→连续转换开销
- 局限性:
- RL 适配复杂:连续动作分布表示(如高斯)需额外设计,策略梯度计算更复杂
- 探索控制难:连续空间探索需精心设计噪声注入机制,安全性保障更具挑战
- 与 VLM 预训练脱节:无法直接复用 LLM 离散生成能力,需额外适配
3. 基于扩散模型(diffusion-based denoising on latent states)
- 原理:借鉴扩散模型思想,从随机噪声动作序列开始,通过多轮迭代逐步细化为可行动作轨迹
- 离散扩散:在 token 空间进行迭代细化,保持 VLM 离散接口,如 Discrete Diffusion VLA
- 连续扩散:直接在连续动作空间优化,如 CogACT、Diffusion Policy 等模型
- 双向注意力:采用 BERT-style 双向编码,支持并行生成所有动作 token,突破自回归瓶颈
- 关键优势:
- 动作质量:迭代细化过程显著提升动作轨迹的物理可行性与平滑性
- 并行效率:双向注意力支持一次性生成完整动作序列,推理速度大幅提升(可达自回归的 4 倍)
- 容错能力:多轮细化允许模型修正错误预测,鲁棒性更强
- 局限性:
- 计算成本:多轮迭代导致训练 / 推理计算量增加,对硬件要求更高
- RL 集成难:扩散过程的随机性与 RL 的确定性优化目标存在冲突
- 延迟权衡:并行生成虽降低延迟,但多轮细化可能抵消部分收益
4. GRPO优化目标
1. 奖励模型:
SimpleVLA-RL 采用一个简单的二元奖励函数进行训练,成功轨迹中的所有token都分配了1的奖励,而不成功轨迹的token都分配0的奖励。
\[R(a_{i,t} \mid s_{i,t}) = \begin{cases} 1, & {is\_successful}[\text{traj}_i(a_i, s_i)] \\ 0, & \text{otherwise} \end{cases}\]2. 优化目标:
\(J(\theta) = \mathbb{E}_{s_0 \sim \mathcal{D},\ \{a_t\}_{i=1}^G \sim \pi_{\theta_{\text{old}}}(\cdot \mid s_t)} \left[ \frac{1}{G} \sum_{i=1}^G \frac{1}{|a_i|} \sum_{t=1}^{|a_i|} \min\left( r_{i,t}(\theta) \hat{A}_i,\ \operatorname{clip}\left(r_{i,t}(\theta),\ 1 - \varepsilon_{\text{low}},\ 1 + \varepsilon_{\text{high}}\right) \hat{A}_i \right) \right]\)
- 删除KL散度:KL散度限制了策略的探索能力
- Clip Higher提升探索:clip range从[0.8,1.2]修改为[0.8,1.28]
- Higher Rollout Temperature提升探索:T从1.0提升为1.6 \(a_t = y_t \in \mathcal{V},\ \text{where}\ y_t \sim \pi_{\theta}(\cdot \mid s_t) = \text{softmax}\left( \frac{f_{\theta}(s_t)}{T} \right)\) 其中$f_{\theta}(s_t)\in \mathbb{E}^{|v|}$代表了LLM输出的logit输出,T代表温度控制了采样的随机性。
3. 约束条件「Dynamic Sampling」:
问题: 当所有轨迹被分配相同的奖励时,Critic-free强化学习算法存在梯度消失的问题。例如GRPO算法,当所有的轨迹奖励相同,优势函数预估会变成0进而导致null gradients和unstable训练。
方案: During rollout, we exclude groups in which all trajectories either succeed or fail。
\[0 < \left\{\text{traj}_i(a_i, s_i) \mid is\_successful[\text{traj}_i(a_i, s_i)] \right\} < G\]4. 重要性
\[r_{i,t}(\theta) = \frac{\pi_{\theta}(a_{i,t} \mid s_{i,t})}{\pi_{\theta_{\text{old}}}(a_{i,t} \mid s_{i,t})}\]5. 归一化优势函数
\[\hat{A}_i = \frac{R_i - \text{mean}\left(\{R_i\}_{i=1}^G\right)}{\text{std}\left(\{R_i\}_{i=1}^G\right)}\]5. 仿真评测
1. 基于OpenVLA-OPT做以下修改
- 状态输入:single-view images、language instructions、robot proprioceptive states
- employ only parallel decoding and action chunking designs
- We use the LLaMA2 output head to generate action tokens and the cross-entropy loss, whereas the official model uses an MLP to generate continuous actions and L1 regression.
- 从0开始训练,而不是使用OpenVLA-OPT的checkpoint
2. Baselines
- UniVLA
- RDT-1B
- $\pi_0$
- $\pi_{fast}$
- Nora
- Open-VLA
- Octo
- DP
- DP3
3. Benchmarks
- LIBERO
- RoboTwin1.0
- RoboTwin2.0
