Post

Simple VLA-RL

Simple VLA-RL

1. 研究背景

Simple VLA-RL: scaling VLA Training via Reinforcement Learning: https://github.com/PRIME-RL/SimpleVLA-RL

问题:针对机器人领域VLA模型主要采用大规模预训练和有监督微调(supervised fine-tune)的方案,存在两个问题

  • 样本效率:数据稀缺、高质量机器人轨迹采集成本高
  • 泛化性问题:针对分布偏移(distribution shift)场景适应性差

思路:RL在推理大模型领域的成功能否复制应用到VLA模型?

Simple VLA-RL

  • 基于veRL(Volcano Engine Reinforcement Learning)
  • VLA-specific trajectory sampling
  • scalable parallelization
  • multi-environment rendering
  • 稀疏奖励:0/1奖励
  • GRPO算法

2. 交互式VLA轨迹采样(Interactive VLA Rollout)

VLA和LLM在轨迹生成上存在根本不同:

  • LLM生成:开环自回归,基于历史文本token预测下一个token,无真实环境反馈
    • 一次性生成完整的序列或逐token生成,无需等待外部响应
  • VLA生成:闭环交互式生成
    • 保持LLM自回归生成能力的基础上,解决物理可行性、闭环、稀疏奖励、安全探索等一系列问题

3. VLA模型action decoding的三种方案

VLA模型的三种动作解码策略,本质上是在离散可控性连续精度计算效率RL 兼容性四个维度的权衡。

当前主流趋势是:离散 token 自回归 + 动作块优化成为通用选择,而扩散并行解码则是未来提升推理速度与动作质量的重要方向,两种策略的融合(如 Discrete Diffusion VLA)可能成为下一代 VLA 模型的核心设计。

\[a_t = Decoder(h_{\theta}(s_t))\]
  • 离散token
  • 连续值回归
  • 扩散模型

1. 基于离散token的自回归解码(Autoregressive Token-based Decoding)

  • 原理:
    • 动作token化:连续动作空间离散化为固定大小的token词汇表,通过动作量化器(例如VQ-VAE、k-means)实现连续→离散映射
    • 自回归生成:模型逐 token 预测下一个动作 token,基于历史 token 序列和当前环境状态,与 LLM 文本生成范式一致
    • 动作块(Action Chunk)优化:一次生成 k 个动作 token(如 5-8 步),而非单步生成,平衡延迟与执行效率,是 VLA 规模化训练的关键设计
  • 典型
    • OpenVLA-OFT、RT-2、π0 等主流 VLA 模型均采用此策略
    • 输出动作 token 概率分布,支持随机采样(探索)与贪心 / 束搜索(利用)两种模式
  • 优势
    • RL兼容:适配PPO、GRPO等算法
    • 离散可控:token 化使动作生成可被精确控制,便于实现安全约束与探索增强策略
    • VLM 原生兼容:复用 LLM 自回归生成能力,最大化利用预训练视觉 - 语言先验知识
  • 局限
    • 解码延迟:逐 token 生成导致推理速度受限,需动作块优化提升效率
    • 量化误差:离散化引入信息损失,可能影响动作精度

2. 连续值回归解码(Continuous Regression Decoding、 Deterministic Regression via MLPs)

  • 原理
    • 直接回归:模型输出连续动作值(如末端执行器的 Δx, Δy, Δz 位移),无需离散 token 化,通过回归头预测具体数值。
    • 两种实现方式
      1. 纯回归:直接输出连续动作向量,使用 MSE 损失训练
      2. 加权期望:保留离散 token 分布,通过 softmax 加权平均计算连续动作值,兼顾分布特性与连续性
  • 典型
    • ContinuousVLA、部分早期 VLA 模型采用此策略;适用于需要高精度控制的场景(如精密装配、微小物体操作)
  • 优势
    1. 无量化误差:直接输出连续动作,避免离散化导致的精度损失
    2. 推理高效:无需 token 解码步骤,端到端延迟更低
    3. 动力学适配:更贴合机器人连续控制本质,减少离散→连续转换开销
  • 局限性:
    1. RL 适配复杂:连续动作分布表示(如高斯)需额外设计,策略梯度计算更复杂
    2. 探索控制难:连续空间探索需精心设计噪声注入机制,安全性保障更具挑战
    3. 与 VLM 预训练脱节:无法直接复用 LLM 离散生成能力,需额外适配

3. 基于扩散模型(diffusion-based denoising on latent states)

  • 原理:借鉴扩散模型思想,从随机噪声动作序列开始,通过多轮迭代逐步细化为可行动作轨迹
    • 离散扩散:在 token 空间进行迭代细化,保持 VLM 离散接口,如 Discrete Diffusion VLA
    • 连续扩散:直接在连续动作空间优化,如 CogACT、Diffusion Policy 等模型
    • 双向注意力:采用 BERT-style 双向编码,支持并行生成所有动作 token,突破自回归瓶颈
  • 关键优势:
    1. 动作质量:迭代细化过程显著提升动作轨迹的物理可行性与平滑性
    2. 并行效率:双向注意力支持一次性生成完整动作序列,推理速度大幅提升(可达自回归的 4 倍)
    3. 容错能力:多轮细化允许模型修正错误预测,鲁棒性更强
  • 局限性:
    1. 计算成本:多轮迭代导致训练 / 推理计算量增加,对硬件要求更高
    2. RL 集成难:扩散过程的随机性与 RL 的确定性优化目标存在冲突
    3. 延迟权衡:并行生成虽降低延迟,但多轮细化可能抵消部分收益

4. GRPO优化目标

Simple VLA-RL

1. 奖励模型:

SimpleVLA-RL 采用一个简单的二元奖励函数进行训练,成功轨迹中的所有token都分配了1的奖励,而不成功轨迹的token都分配0的奖励。

\[R(a_{i,t} \mid s_{i,t}) = \begin{cases} 1, & {is\_successful}[\text{traj}_i(a_i, s_i)] \\ 0, & \text{otherwise} \end{cases}\]

2. 优化目标:

\(J(\theta) = \mathbb{E}_{s_0 \sim \mathcal{D},\ \{a_t\}_{i=1}^G \sim \pi_{\theta_{\text{old}}}(\cdot \mid s_t)} \left[ \frac{1}{G} \sum_{i=1}^G \frac{1}{|a_i|} \sum_{t=1}^{|a_i|} \min\left( r_{i,t}(\theta) \hat{A}_i,\ \operatorname{clip}\left(r_{i,t}(\theta),\ 1 - \varepsilon_{\text{low}},\ 1 + \varepsilon_{\text{high}}\right) \hat{A}_i \right) \right]\)

  • 删除KL散度:KL散度限制了策略的探索能力
  • Clip Higher提升探索:clip range从[0.8,1.2]修改为[0.8,1.28]
  • Higher Rollout Temperature提升探索:T从1.0提升为1.6 \(a_t = y_t \in \mathcal{V},\ \text{where}\ y_t \sim \pi_{\theta}(\cdot \mid s_t) = \text{softmax}\left( \frac{f_{\theta}(s_t)}{T} \right)\) 其中$f_{\theta}(s_t)\in \mathbb{E}^{|v|}$代表了LLM输出的logit输出,T代表温度控制了采样的随机性。

3. 约束条件「Dynamic Sampling」:

问题: 当所有轨迹被分配相同的奖励时,Critic-free强化学习算法存在梯度消失的问题。例如GRPO算法,当所有的轨迹奖励相同,优势函数预估会变成0进而导致null gradients和unstable训练。

方案: During rollout, we exclude groups in which all trajectories either succeed or fail。

\[0 < \left\{\text{traj}_i(a_i, s_i) \mid is\_successful[\text{traj}_i(a_i, s_i)] \right\} < G\]

4. 重要性

\[r_{i,t}(\theta) = \frac{\pi_{\theta}(a_{i,t} \mid s_{i,t})}{\pi_{\theta_{\text{old}}}(a_{i,t} \mid s_{i,t})}\]

5. 归一化优势函数

\[\hat{A}_i = \frac{R_i - \text{mean}\left(\{R_i\}_{i=1}^G\right)}{\text{std}\left(\{R_i\}_{i=1}^G\right)}\]

5. 仿真评测

1. 基于OpenVLA-OPT做以下修改

  • 状态输入:single-view images、language instructions、robot proprioceptive states
  • employ only parallel decoding and action chunking designs
  • We use the LLaMA2 output head to generate action tokens and the cross-entropy loss, whereas the official model uses an MLP to generate continuous actions and L1 regression.
  • 从0开始训练,而不是使用OpenVLA-OPT的checkpoint

2. Baselines

  • UniVLA
  • RDT-1B
  • $\pi_0$
  • $\pi_{fast}$
  • Nora
  • Open-VLA
  • Octo
  • DP
  • DP3

3. Benchmarks

  • LIBERO
  • RoboTwin1.0
  • RoboTwin2.0
This post is licensed under CC BY 4.0 by the author.