【VLA】ReconVLA: Reconstructive Vision-Language-Action Model as Effective Robot论文阅读笔记

type

status

date

slug

summary

VLA模型的“注意力涣散”

论文的实证分析发现，当VLA模型接收到一个指令（如“把蓝色的方块放到粉色的上面”）时，它的视觉注意力（Attention Map）往往是发散的，并没有精确地聚焦在指令所对应的“蓝色方块”上，如果大模型连自己要操作的客体都没有确定好，注意力不集中，就无法提取到精确的、细粒度的目标物体信息。进而导致模型在面对杂乱环境或多物体干扰时，很容易“看走眼”，“拿错东西”，自然就难以完成相应的任务。

传统的视觉定位方式与隐式定位

以前，实现模型视觉注意力的形式是：会先用一个外部检测模型（如YOLO）把目标物体裁剪出来，再和原图一起输入给VLA模型。检测模型采用显式的方法完成坐标定位并传递给VLA模型，这种方法不能从根本上提升VLA模型自身的定位能力；还有一种方案是：是让模型以“思维链”的方式，先输出目标物体的坐标，然后再输出动作。但实验证明，让模型同时精确输出坐标和动作非常困难，效果很差。

而ReconVLA，以人或其他生物的视觉处理为灵感，引入了“注视区域”（Gaze Region），即只关注需要操作的目标物体所在的区域。它不要求模型输出坐标，而是增加了一个“视觉重构”的辅助任务：VLA模型在预测动作的同时，必须输出一组“重构Token”（）。这组Token将作为条件，被送入一个扩散模型（Diffusion Denoiser），用于从噪声中重构那个“注视区域”的图像。为了让重构损失最小化，VLA模型被迫学习如何将关于目标物体的所有细粒度信息（位置、形状、姿态等）压缩到“重构Token”中。这个过程就隐式地强迫模型的注意力精确聚焦到了目标上。

ReconVLA的架构与视觉重构的实现机理

模型架构

模型由两个核心部分组成： 1.动作部分(Action Part)：一个标准的VLA模型架构。

输入：图像(来自Vision Encoder )和语言指令(来自Textual Tokenizer )。 输出：通过一个大语言模型（LLM）自回归地生成动作Token，即。

2.重构部分(Recon. Part)：

目标：重构的目标是"注视区域"（即）。这个区域的图像首先被一个视觉分词器编码成场景Token 。 条件：LLM输出的重构Token 。 过程：在训练时，将场景Token 加上噪声变成。一个扩散去噪器的任务是预测这个噪声（），但它必须在的指导下进行预测。 损失：训练目标就是让预测的噪声和真实的噪声尽可能接近。

视觉重构的实现

VLA的VLM骨干（如LLaVA）是为“理解”任务训练的，并不擅长“生成”或“重构”。为了教会模型重构能力，作者们构建了一个多来源（BridgeData V2,LIBERO和CALVIN）的庞大（超过10万轨迹，200万样本）的数据集。并使用Grounding DINO（一种开放词汇检测器），根据语言指令自动地在原图上框出“注视区域”，并将其裁剪下来，形成“原图-注视区域”图像对，在这个数据集上同时对动作损失(Action Token的标准的交叉熵损失)和重构损失（比较Denoiser预测的噪声和我们实际添加的噪声之间的L2差距）进行预训练。

为什么这样子的双损失函数的逻辑就能够实现对注视区域的隐式锁定？这就是最巧妙的地方：

重构损失的存在，迫使Denoiser 必须尽可能准确地猜出噪声。而想要猜对噪声，唯一的线索就是LLM给它的Recon. Token 。因此，必须包含关于“注视区域”的所有关键视觉信息（它长什么样？在哪？），否则根本无法完成重构任务。这个损失会反向传播，不仅训练了 Denoiser ，更重要的是会“倒逼” LLM。LLM为了降低这个重构损失，被迫必须在处理完和后，生成一组高质量的、信息量极大的 Token。 最终结果：为了能生成这组 Token，LLM就必须强迫自己的注意力在”看“ 时，精确地聚焦到指令所要求的那个物体上。进而隐式地实现了操作物体定位。

代码阅读——Recon. Part重点分析

有关Recon. part的相关代码，根据功能可以分为"视觉分词"、"总控逻辑"、"扩散去噪"、"条件注入"四个关键环节。其中视觉分词采用的VAE不参与训练，它只是一个固定的特征提取器/压缩器，此处不再赘述，其余部分的代码核心逻辑如下：

1. 总控逻辑：compute_vm_loss

这是重构任务的“指挥中心”，它负责协调 LLM、VAE 和 Denoiser 之间的数据流动。

📄 代码文件： recon/recon/model/recon_arch.py

这段代码从 LLM 拿来“条件” ()，从 VAE 拿来“答案” ()，然后把它们塞给去噪器去计算 Loss。我们将在后续继续讲解Loss的计算过程：

2. 扩散去噪：ReconDenoiser 与 Loss 计算

这里揭示了去噪器内部是如何“加噪声”并计算 MSE Loss 的。

📄 代码文件： recon/recon/model/multimodal_denoiser/denoiser_dit.py & gaussian_diffusion.py

ReconVLA 采用了标准的 DDPM 训练范式：随机选一个时间点，给图片加点噪，然后让模型猜“加了什么噪”。唯一的不同点在于，模型在猜的时候可以参考LLM给的

3. 条件注入：`DiTBlock` 与 `AdaLN`

那么具体是如何指导去噪过程的呢？这部分代码解释了 LLM 的意图 () 具体是如何控制去噪过程的。

📄 代码文件： recon/recon/model/multimodal_denoiser/denoiser_dit.py

代码证实了是通过 AdaLN (Adaptive Layer Norm) 机制起作用的。它不是作为 Token 拼接到输入序列里，而是生成了一组 scale 和 shift 参数，动态地缩放和平移了去噪网络每一层的特征。这是一种非常强力的控制方式，迫使网络生成的图像必须符合的描述。

关于采用这种控制机制的好处，主要有以下几个方面：

1.全局强控性：从“参考”变为“指令” 直接输入的局限： 如果将作为一个 Token 拼接到序列中（比如 [h_R, patch_1, patch_2, ...] ），Transformer 必须依靠 Self-Attention (自注意力) 机制去“关注”这个 Token。这意味着模型可以选择性地忽略它。在扩散初期（噪声很大时），Attention 可能会因为找不到相关性而忽略，导致条件控制失效。 AdaLN的优势： AdaLN通过计算 shift (平移) 和 scale (缩放) 参数，直接修改了特征图的分布 (Distribution)。 代码逻辑： x = x * (1 + scale) + shift。这是一种全局广播。不管图像的哪个位置（Patch），其特征通道都会被 $h_R$ 生成的参数强行调整。比如包含“红色”信息，AdaLN 就可以瞬间增强所有 Patch 中红色通道的激活值。这使得的控制力更直接、更霸道。 2.训练稳定性：零初始化 (Zero-Initialization) 策略直接输入的风险： 如果在输入端加入，这就改变了 Transformer 的输入分布。模型在初始阶段可能会因为这个新加入的信号产生剧烈的梯度波动。 AdaLN的优势： ReconVLA 的代码中使用了零初始化策略。 代码证据： 在 denoiser_dit.py 的 initialize_weights 函数中： nn.init.constant_(block.adaLN_modulation[-1].weight, 0) nn.init.constant_(block.adaLN_modulation[-1].bias, 0)这意味着在训练刚开始时，shift 和 scale 都是 0，gate 也是 0。整个 Block 近似于一个恒等映射 (Identity Mapping)。模型可以先作为标准的去噪器工作，然后随着训练进行，逐渐通过AdaLN“渗入”并接管控制权。这极大地提升了训练的稳定性。 3. 提高计算效率：直接输入的代价： 如果很长，将其拼接到序列中会增加序列长度,Transformer 的注意力计算复杂度是。增加序列长度会显著增加显存占用和计算量。 AdaLN 的优势： AdaLN是逐层进行的简单的线性投影(MLP)，其计算量与序列长度成线性关系。 代码证据： adaLN_modulation 是一个简单的 nn.Linear(hidden_size, 6 * hidden_size)。无论包含多少信息，它都被压缩成固定大小的调制参数，不会增加Transformer核心Attention机制的负担。

特性	直接拼接 hR (Concatenation)	AdaLN 调制 (ReconVLA 方案)
控制方式	隐式关注：依赖 Attention 抓取信息	显式干预：直接修改特征分布 (Mean/Var)
作用范围	局部，取决于 Attention Map	全局，作用于所有 Token 和所有通道
初始化	干扰输入分布，可能导致震荡	零初始化，平滑启动，训练更稳
计算开销	增加序列长度，	仅增加 MLP 计算，，更高效