【VLA】模型注意力重分配领域调研

type

status

date

slug

summary

文献总览

特色	项目名称	核心思想 / 架构	输入模态	训练数据	优势 & 不足	ㅤ
视觉信息剪枝	Oat-VLA	“物体-代理中心化分词”： 1. 双流Tokenization：利用FT-Dinosaur提取物体Mask，利用检测器提取手(Agent)的位置。 2. 极度压缩：将视觉Token从256个压缩至~16个，只保留关键信息。	RGB 图像 + 语言指令 (依赖外部检测器预处理)	数据：Open X-Embodiment (Bridge/FMB/Fractal) + LIBERO 开源：未找到开源信息	优势：训练极快：Token少，收敛速度提升2倍。抗干扰：天然过滤背景噪声，专注于物体。	不足：依赖外部模型 (Gripper Detector/FT-Dinosaur)增加系统复杂性。 “硬”注意力，若检测器失败则无法恢复。
3D 输入正交转化2D heatmap	BridgeVLA	“输入输出2D对齐”： 1. 输入侧：将3D点云投影为多视角2D正交图像。 2. 输出侧：预测 2D Heatmap 而非直接坐标，利用VLM预训练的定位能力。 3. 预训练：使用物体检测数据让VLM学会输出Heatmap。	多视角 RGB-D (转换为正交投影图) + 语言指令	数据：RoboPoint (预训练, 120K) + RLBench/Real-Robot (微调, 10-100条/任务) 开源：项目开源 LoRA：支持	优势：空间感知强：在3D操作任务中表现优异 (RLBench SOTA)。数据高效：仅需少量轨迹即可学会复杂3D操作。	不足：推理慢：VLM生成Heatmap较重，且需多视角处理。依赖精确的相机标定进行投影。原始数据依赖硬件获取
外部先验注入数据	AimBot	“视觉辅助线提示”： 1. 零参数修改：不改变模型架构，仅修改输入图像。 2. 几何投射：利用深度和外参，在图像上绘制Shooting Line和准星，显式标出End-Effector位置和朝向。	RGB 图像 (叠加视觉覆盖层) + 深度图 (仅用于生成覆盖层)	数据：LIBERO (仿真) + Real World Tasks 开源：代码开源 LoRA：支持	优势：零推理开销：生成辅助线耗时 <1ms。即插即用：可用于任何VLA模型 (如OpenVLA, )。	不足：依赖外参和硬编码机制：依赖深度传感器和外参的准确性，深度噪声可能导致辅助线画歪。缺乏语义理解能力
大数据智能涌现	GraspVLA	“十亿级合成数据 + 思维链”： 1. SynGrasp-1B：构建了10亿帧的合成抓取数据。 2. PAG机制：采用 CoT (Progressive Action Generation)，先生成Bbox，再生成抓取姿态，最后生成动作流。 3. Sim-to-Real：利用合成数据学习物理，利用互联网数据学习语义。	RGB 图像 (多视角) + 语言指令	数据：SynGrasp-1B (1 Billion frames, 合成) + GRIT (互联网数据) 开源：承诺开源数据集和权重(目前还是coming soon) LoRA：支持	优势：零样本泛化：直接Sim-to-Real，无需真实数据微调即可抓取未见物体。透明物体：基于RGB学习，比传统基于深度的抓取更稳。	不足：推理延迟：CoT 机制导致生成Token变多，推理变慢。解决任务单一：目前主要聚焦于抓取 (Grasping) 任务。

通过深入拆解 Oat-VLA, BridgeVLA, AimBot 和 GraspVLA，我发现当前“显式视觉结构化”，无论是通过 Object-Centric Tokenization (Oat-VLA)、几何投影与热力图对齐 (BridgeVLA)、视觉提示覆盖 (AimBot)，还是思维链 (CoT) 与合成数据流 (GraspVLA)，其本质都是通过引入强归纳偏置（Inductive Bias）来强迫模型“关注正确的地方”。

文献解析

Oat-VLA: 极致压缩的物体-代理中心化tokenization

针对传统 Vision Transformer (ViT) 将图像切分为数百个 Patch 导致计算成本高且引入大量背景噪声、进而引发注意力漂移 (Attention Drift) 的痛点，Oat-VLA 提出了一种物体-代理中心化分词 (Object-Agent-centric Tokenization) 策略。该方法利用 FT-Dinosaur 模型提取物体 Mask，并结合检测器定位末端执行器 (Gripper)，从而仅保留场景中关键区域的特征。这一机制将视觉 Token 数量从传统的 256 个大幅压缩至约 16 个（减少了 93.75%），在显著降低计算量的同时，使模型在 LIBERO 任务上的训练收敛速度提升了 2 倍以上，并在长序列任务中展现出更强的稳定性。

这一研究的核心启示在于，解决注意力漂移的最直接手段是在物理层面上过滤掉背景干扰，尽管 Oat-VLA 目前依赖外部冻结模型，但未来可探索将其端到端化以提升系统的整体性。

BridgeVLA: 2D/3D 对齐与热力图监督

BridgeVLA 指出，尽管视觉语言模型 (VLM) 擅长 2D 语义理解，但其难以直接处理 3D 空间关系，且直接回归坐标的方式缺乏空间概率分布的指导，导致 3D 信号利用率低。为此，该工作提出了一种“桥接”范式：在输入端，将 3D 点云转换为多视角的正交投影图像以适配 VLM 的输入格式；在输出端，不直接预测坐标，而是预测与输入图像空间对齐的 2D 热力图 (Heatmap) 。这种设计使模型在 RLBench 基准测试中达到了 88.2% 的 SOTA 成功率，有力证明了显式的 Heatmap 监督能有效防止模型在复杂 3D 操作中“迷失方向”。

Heatmap 是一种极佳的中间表征 (Intermediate Representation)，模型不应是黑盒，而应输出类似的显式注意力热力图作为校准信号。

AimBot: 零样本的几何视觉提示

针对现有 VLA 模型在推理过程中缺乏对末端执行器 (EE) 空间位置的感知、从而导致操作精度差的问题，AimBot 提出了一种无需重新训练的轻量级视觉增强方案。该方法采用测试时视觉增强 (Test-Time Visual Augmentation)，利用深度图和相机外参，通过几何算法在 RGB 图像上直接绘制射击线 (Shooting Line) 和准星 (Reticle)，从而显式地在视觉输入中标示出 EE 的朝向和位置。实验表明，该方法的推理开销小于 1 毫秒，且能在不改变模型架构的前提下显著提升 VLA 模型的空间定位能力。证明了视觉提示 (Visual Prompting) 的有效性。

GraspVLA: 规模化合成数据与思维链

面对真实机器人数据极度稀缺导致模型泛化性差的瓶颈，GraspVLA 选择了一条完全基于合成数据的路径，构建了包含 10 亿帧的 SynGrasp-1B 合成数据集。为了有效利用这些数据，该工作提出了渐进式动作生成 (PAG) 机制，即构建一个从“检测 BBox”到“预测抓取姿态”再到“生成动作”的思维链 (CoT) 过程。这一机制不仅实现了极强的 Sim-to-Real 零样本泛化能力，还在透明物体和未见物体抓取上表现优异。GraspVLA 的核心启示在于，CoT 机制本质上是将“注意力重分配”显式化为一个推理步骤。

技术重点精读

BridgeVLA预训练：凸上采样与热力图生成

代码文件: pretrain.py

核心任务: 训练 PaliGemma VLM 模型，使其能够根据文本指令（Prompt），在图像上预测出目标物体所在的 2D 热力图（Heatmap）。

数据管道：提示词清洗与坐标解析

数据加载部分主要负责解析 RoboPoint 数据集，清洗 Prompt 模板，并将目标的 BBox 或点坐标转换为统一格式。

关键数据结构：RoboPointDataset

该类负责处理原始 JSON 数据，区分单物体检测 (detection_1) 和多物体检测 (detection_2)。

模型架构：引入“凸上采样”桥接模块

这是模型的核心修改点。在 PaliGemma 基础上，引入了光流网络（RAFT）中常用的 Convex Upsampling 模块，将低分辨率的视觉 Token 恢复为高分辨率热力图。

前向传播 (Forward)：Token 重组与热力图生成

这是最复杂的逻辑部分，涵盖了从“序列化 Token”还原到“空间图像”，再生成“预测热力图”和“GT 热力图”的全过程。

视觉特征提取与重组 (Reshape)

预测热力图与 GT 生成

训练策略：参数冻结与高效微调

为了保持 VLM 的通用语义能力并减少显存占用，采用了部分冻结策略。

总结：BridgeVLA 的核心“桥接”逻辑

通过这段代码，我们可以清晰地看到 BridgeVLA 如何实现 Input-Output Alignment：

输入对齐：使用标准的 VLM 输入流程（Image + Text），不破坏预训练分布。

中间层劫持：不使用 VLM 的语言输出头（LM Head），而是截获 Transformer 输出的视觉 Token。

输出对齐：通过 Rearrange 和 ConvexUpSample，将语义特征强行“还原”回 2D 空间结构，并使用高斯热力图作为监督信号，迫使模型学会“在图像像素空间中回答问题”。

热力图生成预训练 vs reconVLA

BridgeVLA热力图逻辑:

reconVLA逻辑：

BridgeVLA中的热力图与reconVLA的recon图的共同点在于：它们都不满足于 VLM 仅仅输出文本，而是强行增加了一个“稠密视觉输出”的辅助任务，迫使模型内部的特征（Feature Map）保留空间结构。

虽然解决“空间感知能力缺失”目的相同，但它们在技术实现上有本质区别，这也决定了它们各自的优劣势：

A. BridgeVLA：判别式定位 (Discriminative Localization)

做法： 通过 ConvexUpSample 采样输出一个单通道的 Heatmap。

监督信号： 有监督，依赖人工标注（BBox, Points）生成的高斯热力图。

逻辑： “如果模型能画出热力图，说明它一定理解了语言指令对应的物体在图像坐标系中的位置。”

优势： 任务相关性极强。它直接对齐了我们最关心的“抓取点”，去掉了无关的背景信息（背景全是0）。

劣势： 数据昂贵。必须要有带有坐标标注的数据（RoboPoint 数据集）。

B. ReconVLA：生成式重建 (Generative Reconstruction)

做法： 接一个 Decoder，尝试做DDPM重建。

监督信号： 自监督（Self-supervised）。输入图像本身就是 Label（Pixel-level L2 Loss 或 Perceptual Loss）。

逻辑： “如果模型能从压缩的特征中还原出画面，说明它一定编码了物体形状、遮挡关系和背景几何。”

优势： 数据极其廉价。不需要任何人打标签，只要有视频/图片就能训练。

劣势： 信息冗余。模型可能会浪费大量算力去重建墙壁上的纹理、地板的花纹等对机器人操作无关的细节。

思考： ReconVLA 提供了通用的场景几何理解，而 BridgeVLA 提供了精确的任务语义定位。是否可以尝试将两者结合，通过重建任务构建世界模型，通过热力图任务校准注意力？