type
status
date
slug
summary
tags
category
icon
password
pi*0.6是针对 RL 而对 π0.6 模型的改造,π0.6 相较于 π0.5 有所改进,引入了更大的 backbone(主干网络)和更丰富的 conditioning(条件化方式),那么为什么要在VLA中引入强化学习,它的设计动机与性能提升又在哪里呢?
论文链接:
 

1. 核心背景与动机

模仿学习的局限性:目前的通用机器人模型主要依赖模仿学习。但这就像只看老师做题,自己不动手,会导致“复合误差”,且很难超越演示者的水平。
像人类一样学习:人类掌握技能需要“练习” (Practice)。论文的目标是让机器人通过自主尝试和失败后的纠正来提升技能。
技术挑战:在大规模 VLA 模型上直接应用传统的在线 RL(如 PPO)很难,因为需要处理异构数据、训练稳定性差且计算成本高。
因此,不仅要利用示范数据,还要利用自主收集的数据——这些数据使策略能纠正在部署中实际犯下的错误、把速度与鲁棒性提升到超过人工遥控(teleoperation)的水平,并适应新的部署条件。
具体来说,作者并没有试图发明一个新的复杂的RL算法,而是选择了一条“捷径”:将 RL 问题转化为监督学习问题。他们的方法本质上是:先让机器人去尝试(收集经验),然后用一个“裁判”(价值函数)给这些经验打分,最后筛选出高分的经验,让模型通过监督学习去“复习”这些高分动作。这种离线(Offline)、迭代式(Iterated)的策略,既规避了在线 RL 的不稳定性,又利用了RL的价值导向特性 。

2. 模型架构概览

  • 主干网络 (Backbone):使用 Gemma 3 (4B) 模型,具备强大的多模态理解能力。相比起之前的规模又有扩大.
  • 动作专家 (Action Expert):一个独立的 860M 参数网络,专门负责生成高频动作。
  • 流匹配 (Flow Matching):动作生成采用连续流匹配技术,而非离散分类,能生成更平滑的控制信号。
  • 知识隔离 (KI):训练时使用 Stop Gradient,防止动作训练破坏 VLM 主干的语言能力。
  • RL适配 (*):模型输入层增加了一个文本 Token("Advantage: positive" 或 "negative")用于接收优势指示。(的核心提升)

2. 核心方法:RECAP

notion image
RECAP全称:RL with Experience and Corrections via Advantage-conditioned Policies。它是一个迭代式的离线强化学习框架。RECAP从通用 VLA 的训练流程入手,利用来自多种机器人平台的多样数据先用离线 RL 对 VLA 进行预训练,然后再对部署过程中收集的数据进行额外训练。在这些部署期间,机器人会基于每次试验的结果接收(稀疏的)奖励反馈,并可能获得额外的专家干预以纠正错误。

训练闭环

整个过程包含三个主要步骤,不断循环:
  1. 数据收集 (Data Collection):机器人自主执行任务,收集成功或失败的轨迹。同时引入专家干预(Intervention),在出错时由人类接管纠正。
  1. 价值函数训练 (Value Function Training):利用所有历史数据训练一个价值模型,用于评估当前状态离成功还有多远。
  1. 优势条件化训练 (Advantage Conditioned Training):利用计算每个动作的“优势”,并据此更新策略
价值函数和VLA模型的交互过程
价值函数和VLA模型的交互过程

关键技术:分布式价值函数

在 RECAP 框架中,价值函数(Value Function, VF) 扮演着至关重要的“裁判”角色。如果裁判判罚不准,策略就无法提升。为了保证准确性和效率,论文在 VF 的设计上有两个非常关键的技术细节。
为什么要“分布式” (Distributional)?
传统的价值函数通常输出一个标量(Scalar),即一个具体的数值来代表当前状态的好坏。但这篇论文采用了分布式价值函数。模型并不是预测一个单一的期望回报值,而是预测回报的概率分布。具体来说,模型将可能的任务回报离散化为个区间(Bins)。网络的输出是一个长度为 201 的向量,代表回报落在每个区间内的概率。训练时,使用交叉熵损失函数(Cross-Entropy Loss)来最小化预测分布与实际回报分布之间的差异.
这种做法的优势是:在机器人任务中,环境充满了不确定性。同一个状态下,任务可能很快成功,也可能因为一个小失误而彻底失败。如果只预测一个平均值(均值),往往会掩盖这种多模态的风险。分布式预测能够捕捉到这种不确定性,提供更鲁棒的价值估计,这对于复杂的长程任务尤为重要。
价值函数到底预测什么?
这个VF并不是预测随意的奖励分数,而是预测“离成功还有多远”。 论文定义了一个稀疏奖励函数:如果任务在T时刻成功,奖励为0;如果失败,奖励为极低的惩罚值();其他时刻每一步奖励为-1。 这意味着:VF 输出的值越接近 0,代表离成功越近;越接近 -1,代表离成功越远或即将失败。

核心机制:优势条件化

有了价值函数,下一步就是如何利用它来提升策略。论文采用的方法叫“优势条件化”,这是连接 RL 和监督学习的桥梁。
优势的计算与二值化
首先计算动作的优势,即实际回报减去预期价值()。如果,说明这个动作比预期的要好。为了让大模型的训练更稳定,论文没有直接回归优势值,而是引入了一个阈值 。如果 ,则生成一个指示变量 (代表这是个“好动作”),否则为 False。
策略提取 (Policy Extraction)
在训练策略网络 时,作者将这个指示变量 作为一个文本 Token(例如 "Advantage: positive")输入给模型。 训练的目标函数变为:最大化在给定“好动作”指示下的动作似然概率: 这实际上是在告诉模型:“请记住,当你想获得高优势(好结果)时,在当前状态下应该通过流匹配(Flow Matching)生成这样的动作”。这种方法的精妙之处在于它完全避开了 PPO 中复杂的策略梯度计算(Policy Gradient)。对于像这样使用流匹配来生成连续动作的模型,计算准确的对数似然(Log-Likelihood)极其昂贵且困难。RECAP将其转化为了一种带条件的生成任务,天然适配现有的生成式大模型架构。

4. 核心思考与总结

在实验中,作者让它连续运行 13 小时制作意式咖啡、在一个新家中连续两小时不间断地折叠新类型衣物,并在工厂里组装用于实际包装的纸箱……可见其达到了足以长时间使用的鲁棒性与实用性。此外,还有如下几点启示:
  1. 从“模仿”到“练习”:这篇论文证明了 VLA 模型可以通过“练习”(自主运行+价值反馈)来超越原本的模仿学习上限。
  1. 大模型 RL 的新范式:传统的 On-policy RL (如 PPO) 在大模型上太昂贵且不稳定。RECAP 通过“离线数据 + 优势条件化”将 RL 问题转化为了监督学习问题,这可能是未来训练超大模型(VLA/LLM)动作策略的主流方向。
  1. 数据的异构利用:该方法巧妙地结合了三种数据:旧的演示数据、新的自主尝试数据、昂贵的专家干预数据,最大化了数据利用率。

相关思考

如何设计更加完善的奖励机制来更有效利用数据优势,提高训练效率呢?
专家干预操作一定就是合理的吗?如何让大模型能够提高自己的观察能力和认知能力,实现自我训练和纠错机制以代替人工纠错?
在“模块化增强”和“辅助监督”的宏观设计上,pi*0.6的价值函数设计与我之前完成的recon part与pi0的缝合有相似性,在实现逻辑上是否还有不同之处?
 
【大模型微调】peft &llama factory工具链使用练习与技术对比【VLA】模型注意力重分配领域调研
Loading...