【VLA】A Survey on Vision-Language-Action Models for Embodied AI 综述阅读笔记

type

status

date

slug

summary

VLA的架构

视觉-语言-行动模型的通用架构。展示了三种代表性的行动预测方法。相关组件以虚线框呈现。

VLA的核心主要为视觉编码器、语言编码器、动作解码器三部分构成。通用架构与预期功能一一对应，简单地说，VLA是读取V、L输出A的模型架构。

具身智能中的重要概念与VLA的发展

综述中将具身智能的架构使用韦恩图分成Task Planner和Control Policy两部分。

高级任务规划器 (High-level Task Planner): 负责“思考”，将一个长期、复杂的任务（如“打扫房间”）分解为一系列简单的子任务（如“1.拿起玩具车, 2.把它放到盒子里...”）。

低级控制策略 (Low-level Control Policy): 负责“执行”，接收上一步生成的简单子任务，并将其转化为具体的、实时的机器人动作（如关节转动、坐标移动）。其中，任何能处理视觉、语言输入并产生动作的模型被称为广义VLA模型（Generalized VLA），在广义VLA模型中使用大型语言模型 (LLM) 或大型视觉语言模型 (VLM) 改造而来的VLA模型被称为大型VLA（Large VLA）。

具身智能各分支的分类介绍

接下来我将按照原文顺序逐部分介绍相关内容的发展脉络、代表成果和领域前沿课题：

1.VLA中的关键组件

在components of VLA中主要讨论了实现VLA的“基础零件”，它们源于CV、NLP和RL等成熟技术。

强化学习 (RL): VLA的基础。RL的轨迹（状态-动作-奖励）天然符合序列建模，因此启发了Decision Transformer (DT)等模型。

预训练视觉表征 (PVRs): 解决VLA“看懂世界”的问题。从使用图像级信息的CLIP，到R3M（时间对比学习），再到MVP（MAE，像素级重建），最终到DINOv2（自蒸馏）。 DINOv2是目前的优秀代表，它能同时学习像素级和图像级的特征；Theia则探索了“蒸馏”多个现有视觉模型的方法。

动态学习 (Dynamics Learning):学习物理规律。分为正向动力学（预测）和逆向动力学（预测）。VPT使用逆向动力学来自动标记无标签的网络视频，实现了半监督模仿学习。SMART则同时使用正向和逆向动力学作为预训练任务。

世界模型 (World Models):建立世界的“常识”，让智能体能在“想象空间”中规划。分为“LLM诱导的”（如DECKARD）、“视觉的”（生成图像/视频）和“3D的”。Dreamer是经典的学习latent dynamics的模型。Genie和 3D-VLA是视觉世界模型的前沿，它们能生成式地“想象”出未来的画面或3D场景。

推理 (Reasoning):ReAct提出了将推理（CoT）和动作交错进行的范式。ECOT创新地将CoT引入了低级控制策略，让模型在预测动作前先“思考”规划、子任务等。

前沿领域与难题： PVRs难题：对于需要高精度操作的机器人任务，像CLIP这样的图像级PVR是不够的。前沿是探索像MAE和DINOv2这样能提供丰富像素级信息（如物体位置、分割）的表征。 世界模型难题：LLM诱导的世界模型（文本）和视觉世界模型（图像）目前是分离的。难题在于如何统一两者。 推理难题：目前基于CoT的推理主要用于文本规划（高级），而世界模型主要用于控制（低级）。前沿是如何将两者的优势结合起来。

2.低级控制策略

这部分是VLA的“执行器”，即，负责接收指令和状态，输出具体动作。

非Transformer时代：架构各不相同。代表有CLIPort（将CLIP和Transporter网络结合）和BC-Z（使用FiLM层融合语言和视觉）。

Transformer时代：架构趋于统一。Gato是一个里程碑，它证明了单一模型可以处理多模态、多任务、多实体;RT-1 (Robotics Transformer)是BC-Z的后续，用Transformer解码器代替了MLP，使其能关注历史图像，性能大幅提升。

3D视觉策略：认识到2D的局限性，转而使用3D输入。PerAct使用多视角RGB-D图像重建的"体素图(voxel maps)"作为输入和输出空间。

Diffusion-based策略：借鉴扩散模型在CV的成功，用于"生成动作"。Diffusion Policy将策略制定为一个DDPM（去噪扩散概率模型）。Octo是一个基于Transformer的模块化扩散策略。MDT则将最新的DiT（Diffusion Transformer）架构用于动作预测。

大型VLA (LVLA)：这是当前最前沿的领域，即"大型VLA"。RT-2是开创性工作，它将大型VLM（如PaLI-X）在"互联网数据"和"机器人数据"上进行"共同微调 (co-fine-tuning)"，从而获得了强大的泛化能力和"涌现能力"。OpenVLA是RT-2-X的开源对应版本。

前沿领域与难题： LVLA的推理速度难题：LVLA（如RT-2）虽然理解能力强，但推理速度很慢。这在需要实时响应的动态环境中是致命的。 前沿（解决速度）：TinyVLA专注于使用更小的VLM和Diffusion头来提升速度和数据效率。DeeR-VLA提出使用“动态推理和早退出)”机制来部分激活模型，以提高效率。 扩展定律(Scaling Law)：论文指出，在机器人技术中也观察到了类似LLM的扩展定律。这意味着模型大小、数据质量和多样性至关重要。

3.高级任务规划

高级任务规划负责将一个复杂的长期任务（如“打扫房间”）分解为一系列低级策略可以执行的子任务（）,其又分为一体式任务规划器 (Monolithic Task Planners)和模块化任务规划器 (Modular Task Planners)。

一体式任务规划器使用一个单一的、端到端的大模型来生成规划。

发展脉络与代表成果：

端到端规划器：PaLM-E是典型代表。它是一个大型具身多模态语言模型，能根据图像和高级指令，生成一个"文本计划"，这个计划接着被用作低级策略（如SayCan）的指令。

3D视觉规划器：LEO和3D-LLM探索了将3D信息（如点云）直接输入LLM进行规划。

Grounded规划器：这是该领域的核心。SayCan是一个里程碑式的框架。LLM负责"说（Say）"出可能的下一步，而低级控制策略提供一个"价值函数"来评估机器人"能（Can）"完成什么。

前沿领域与难题：

训练这些大型一体化模型的成本非常高昂；如何确保LLM的"幻想"与机器人的"现实"能力相匹配。

模块化任务规划器不重新训练大模型，而是“组装”现成的LLM和VLM来完成任务，通常被视为“工具使用”范式。

发展脉络与代表成果：

基于语言 (Language-based)：模块之间通过"自然语言"交换信息。Inner Monologue是其中的代表成果。LLM生成指令，低级策略执行后，将反馈（如"成功"、"失败"或"看到的物体"）也用"文字"描述给LLM，LLM再根据文字反馈进行动态重新规划。

基于代码 (Code-based)：利用LLM强大的代码生成能力。LLM生成一段程序（如Python脚本）。现有的成果有ProgPrompt、CaP (Code as Policies) 和 ChatGPT for Robotics。LLM生成的代码通过调用API来使用感知模块（如detector.find('apple')）和控制模块（如robot.move_to(obj)）。

前沿领域与难题：

优势：模块化规划器部署快，因为它们利用的是现成模型。基于代码的规划器可控性强、可调试性好。 挑战：基于语言的规划器生成的"子任务"可能不是低级策略能理解或执行的；基于代码的规划器需要你手动将所有VLM和控制策略封装成API，并且其性能受限于LLM的编程能力。

4.数据集信息与测试基准

数据集信息的采集包括真实世界数据、模拟器与模拟数据、自动化数据收集、人类数据。

真实世界数据集：

代表：Fractal（用于 RT-1）、Bridge V2、DROID 以及目前最大规模的聚合数据集 Open X-Embodiment (OXE)。 难题：数据稀缺。收集真实世界机器人数据极其昂贵和耗时。更严重的是，不同机器人（不同手臂、夹爪、传感器）导致数据不一致。

模拟器与模拟数据：

代表：使用模拟器（如 SAPIEN、AI2-THOR、CALVIN）来规避现实世界的障碍。 难题："模拟到现实的鸿沟"。在模拟器中训练的模型，部署到真实机器人上时性能会急剧下降，原因包括渲染不真实、物理模拟不准确等。

自动化数据收集(前沿)：

代表：这是解决数据稀缺的前沿方案。AutoRT 使用 LLM 作为"协调者"，自主生成新任务并指挥机器人收集数据。DIAL 则是使用 VLM 来自动"扩充"现有数据中的语言指令。

人类数据(前沿)：

代表：另一个前沿是利用海量的"人类视频数据"。 难题：如何将人类的手部/身体动作转移到机器人的"身体"上（即"embodiment gap"）。

目前，VLA模型评判的测试基准也并没有定论：LoTa-Bench 通过在模拟器中执行规划来计算成功率。但EAI团队指出，仅靠"成功率"这个指标太粗糙，无法诊断 VLA 模型到底错在哪里。Embodied QA (具身问答)（如 EgoVQA）则作为一种评估相关能力（如空间推理）的替代方式。

参考文献

VLA 论文精读（三十三）A Survey on Vision-Language-Action Models: An Action Tokenization Perspective-CSDN博客

文章浏览阅读2.8k次，点赞36次，收藏55次。这篇论文是一篇比较新的（2025年07月02日发表） VLA 领域综述，原文一共 70 页内容，主要是从 Action Tokenization 角度出发进行了一次全面的总结，可以直接将其当作一个字典，其中的表格整理的非常清晰直观。_a survey on vision-language-action models: an action tokenization perspectiv

arXiv.orgA Survey on Vision-Language-Action Models: An Action Tokenization...

A Survey on Vision-Language-Action Models: An Action Tokenization...

The remarkable advancements of vision and language foundation models in multimodal understanding, reasoning, and generation has sparked growing efforts to extend such intelligence to the physical...