【PI*0.6】论文阅读笔记与RECAP框架机制分析

type

status

date

slug

summary

1. 核心背景与动机

模仿学习的局限性：目前的通用机器人模型主要依赖模仿学习。但这就像只看老师做题，自己不动手，会导致“复合误差”，且很难超越演示者的水平。

像人类一样学习：人类掌握技能需要“练习” (Practice)。论文的目标是让机器人通过自主尝试和失败后的纠正来提升技能。

技术挑战：在大规模 VLA 模型上直接应用传统的在线 RL（如 PPO）很难，因为需要处理异构数据、训练稳定性差且计算成本高。

因此，不仅要利用示范数据，还要利用自主收集的数据——这些数据使策略能纠正在部署中实际犯下的错误、把速度与鲁棒性提升到超过人工遥控（teleoperation）的水平，并适应新的部署条件。

具体来说，作者并没有试图发明一个新的复杂的RL算法，而是选择了一条“捷径”：将 RL 问题转化为监督学习问题。他们的方法本质上是：先让机器人去尝试（收集经验），然后用一个“裁判”（价值函数）给这些经验打分，最后筛选出高分的经验，让模型通过监督学习去“复习”这些高分动作。这种离线（Offline）、迭代式（Iterated）的策略，既规避了在线 RL 的不稳定性，又利用了RL的价值导向特性。

2. 模型架构概览

主干网络 (Backbone)：使用 Gemma 3 (4B) 模型，具备强大的多模态理解能力。相比起之前的规模又有扩大.

动作专家 (Action Expert)：一个独立的 860M 参数网络，专门负责生成高频动作。

流匹配 (Flow Matching)：动作生成采用连续流匹配技术，而非离散分类，能生成更平滑的控制信号。

知识隔离 (KI)：训练时使用 Stop Gradient，防止动作训练破坏 VLM 主干的语言能力。

RL适配 (*)：模型输入层增加了一个文本 Token（"Advantage: positive" 或 "negative"）用于接收优势指示。(的核心提升）

2. 核心方法：RECAP

RECAP全称：RL with Experience and Corrections via Advantage-conditioned Policies。它是一个迭代式的离线强化学习框架。RECAP从通用 VLA 的训练流程入手，利用来自多种机器人平台的多样数据先用离线 RL 对 VLA 进行预训练，然后再对部署过程中收集的数据进行额外训练。在这些部署期间，机器人会基于每次试验的结果接收（稀疏的）奖励反馈，并可能获得额外的专家干预以纠正错误。

训练闭环

整个过程包含三个主要步骤，不断循环：

数据收集 (Data Collection)：机器人自主执行任务，收集成功或失败的轨迹。同时引入专家干预（Intervention），在出错时由人类接管纠正。

价值函数训练 (Value Function Training)：利用所有历史数据训练一个价值模型，用于评估当前状态离成功还有多远。

优势条件化训练 (Advantage Conditioned Training)：利用计算每个动作的“优势”，并据此更新策略。

关键技术：分布式价值函数

在 RECAP 框架中，价值函数（Value Function, VF） 扮演着至关重要的“裁判”角色。如果裁判判罚不准，策略就无法提升。为了保证准确性和效率，论文在 VF 的设计上有两个非常关键的技术细节。

为什么要“分布式” (Distributional)？

传统的价值函数通常输出一个标量（Scalar），即一个具体的数值来代表当前状态的好坏。但这篇论文采用了分布式价值函数。模型并不是预测一个单一的期望回报值，而是预测回报的概率分布。具体来说，模型将可能的任务回报离散化为个区间（Bins)。网络的输出是一个长度为 201 的向量，代表回报落在每个区间内的概率。训练时，使用交叉熵损失函数（Cross-Entropy Loss）来最小化预测分布与实际回报分布之间的差异.

这种做法的优势是：在机器人任务中，环境充满了不确定性。同一个状态下，任务可能很快成功，也可能因为一个小失误而彻底失败。如果只预测一个平均值（均值），往往会掩盖这种多模态的风险。分布式预测能够捕捉到这种不确定性，提供更鲁棒的价值估计，这对于复杂的长程任务尤为重要。

价值函数到底预测什么？

这个VF并不是预测随意的奖励分数，而是预测“离成功还有多远”。论文定义了一个稀疏奖励函数：如果任务在T时刻成功，奖励为0；如果失败，奖励为极低的惩罚值()；其他时刻每一步奖励为-1。这意味着：VF 输出的值越接近 0，代表离成功越近；越接近 -1，代表离成功越远或即将失败。

核心机制：优势条件化

有了价值函数，下一步就是如何利用它来提升策略。论文采用的方法叫“优势条件化”，这是连接 RL 和监督学习的桥梁。

优势的计算与二值化

首先计算动作的优势，即实际回报减去预期价值（）。如果，说明这个动作比预期的要好。为了让大模型的训练更稳定，论文没有直接回归优势值，而是引入了一个阈值。如果，则生成一个指示变量（代表这是个“好动作”），否则为 False。

策略提取 (Policy Extraction)

在训练策略网络时，作者将这个指示变量作为一个文本 Token（例如 "Advantage: positive"）输入给模型。训练的目标函数变为：最大化在给定“好动作”指示下的动作似然概率: 这实际上是在告诉模型：“请记住，当你想获得高优势（好结果）时，在当前状态下应该通过流匹配（Flow Matching）生成这样的动作”。这种方法的精妙之处在于它完全避开了 PPO 中复杂的策略梯度计算（Policy Gradient）。对于像这样使用流匹配来生成连续动作的模型，计算准确的对数似然（Log-Likelihood）极其昂贵且困难。RECAP将其转化为了一种带条件的生成任务，天然适配现有的生成式大模型架构。

4. 核心思考与总结

在实验中，作者让它连续运行 13 小时制作意式咖啡、在一个新家中连续两小时不间断地折叠新类型衣物，并在工厂里组装用于实际包装的纸箱……可见其达到了足以长时间使用的鲁棒性与实用性。此外，还有如下几点启示：

从“模仿”到“练习”：这篇论文证明了 VLA 模型可以通过“练习”（自主运行+价值反馈）来超越原本的模仿学习上限。

大模型 RL 的新范式：传统的 On-policy RL (如 PPO) 在大模型上太昂贵且不稳定。RECAP 通过“离线数据 + 优势条件化”将 RL 问题转化为了监督学习问题，这可能是未来训练超大模型（VLA/LLM）动作策略的主流方向。

数据的异构利用：该方法巧妙地结合了三种数据：旧的演示数据、新的自主尝试数据、昂贵的专家干预数据，最大化了数据利用率。