type
status
date
slug
summary
tags
category
icon
password
A Survey on Vision-Language-Action Models for Embodied AI是一篇今年8月份发表的非常全面和及时的文献综述,这篇文章主要阐述了如何成体系地分析现有的具身智能研究成果,本篇博客主要按照综述给出的分类体系和结构层次,对目前的VLA技术做进一步的统筹对比分析。
在笔者先前的学习记录中,我们已经聊过什么是VLAs,这里略作重复,引用论文中的说法再做一下通俗说明。
视觉-语言-行动模型(VLAs)是具身人工智能领域中的一类多模态模型,旨在处理来自视觉、语言和行动模态的信息。与ChatGPT等对话式人工智能不同,具身人工智能需要控制与环境交互的物理载体,而机器人学是具身人工智能最突出的领域。在语言条件化的机器人任务中,策略必须具备理解语言指令、视觉感知环境以及生成适当行动的能力,这要求VLAs具备多模态能力。该术语最近由RT-2提出。与早期的深度强化学习方法相比,VLAs在复杂环境中提供了更高的通用性、灵巧性和泛化能力。因此,它们不仅适用于工厂等受控环境,也适用于家庭环境中的日常任务。
VLA的架构

VLA的核心主要为视觉编码器、语言编码器、动作解码器三部分构成。通用架构与预期功能一一对应,简单地说,VLA是读取V、L输出A的模型架构。
具身智能中的重要概念与VLA的发展

综述中将具身智能的架构使用韦恩图分成Task Planner和Control Policy两部分。
- 高级任务规划器 (High-level Task Planner): 负责“思考”,将一个长期、复杂的任务(如“打扫房间”)分解为一系列简单的子任务(如“1.拿起玩具车, 2.把它放到盒子里...”)。
- 低级控制策略 (Low-level Control Policy): 负责“执行”,接收上一步生成的简单子任务,并将其转化为具体的、实时的机器人动作(如关节转动、坐标移动)。其中,任何能处理视觉、语言输入并产生动作的模型被称为广义VLA模型(Generalized VLA),在广义VLA模型中使用大型语言模型 (LLM) 或大型视觉语言模型 (VLM) 改造而来的VLA模型被称为大型VLA(Large VLA)。

具身智能各分支的分类介绍

接下来我将按照原文顺序逐部分介绍相关内容的发展脉络、代表成果和领域前沿课题:
1.VLA中的关键组件
在components of VLA中主要讨论了实现VLA的“基础零件”,它们源于CV、NLP和RL等成熟技术。
强化学习 (RL): VLA的基础。RL的轨迹(状态-动作-奖励)天然符合序列建模,因此启发了Decision Transformer (DT)等模型。
预训练视觉表征 (PVRs): 解决VLA“看懂世界”的问题。从使用图像级信息的CLIP,到R3M(时间对比学习),再到MVP(MAE,像素级重建),最终到DINOv2(自蒸馏)。 DINOv2是目前的优秀代表,它能同时学习像素级和图像级的特征;Theia则探索了“蒸馏”多个现有视觉模型的方法。
动态学习 (Dynamics Learning):学习物理规律。分为正向动力学(预测 )和逆向动力学(预测)。VPT使用逆向动力学来自动标记无标签的网络视频,实现了半监督模仿学习。SMART则同时使用正向和逆向动力学作为预训练任务。
世界模型 (World Models):建立世界的“常识”,让智能体能在“想象空间”中规划。分为“LLM诱导的”(如DECKARD)、“视觉的”(生成图像/视频)和“3D的”。Dreamer是经典的学习latent dynamics的模型。Genie和 3D-VLA是视觉世界模型的前沿,它们能生成式地“想象”出未来的画面或3D场景。
推理 (Reasoning):ReAct提出了将推理(CoT)和动作交错进行的范式。ECOT创新地将CoT引入了低级控制策略,让模型在预测动作前先“思考”规划、子任务等。
前沿领域与难题:
PVRs难题:对于需要高精度操作的机器人任务,像CLIP这样的图像级PVR是不够的。前沿是探索像MAE和DINOv2这样能提供丰富像素级信息(如物体位置、分割)的表征。
世界模型难题:LLM诱导的世界模型(文本)和视觉世界模型(图像)目前是分离的。难题在于如何统一两者。
推理难题:目前基于CoT的推理主要用于文本规划(高级),而世界模型主要用于控制(低级)。前沿是如何将两者的优势结合起来。

2.低级控制策略
这部分是VLA的“执行器”,即 ,负责接收指令和状态,输出具体动作。
非Transformer时代:架构各不相同。代表有CLIPort(将CLIP和Transporter网络结合)和BC-Z(使用FiLM层融合语言和视觉)。
Transformer时代:架构趋于统一。Gato是一个里程碑,它证明了单一模型可以处理多模态、多任务、多实体;RT-1 (Robotics Transformer)是BC-Z的后续,用Transformer解码器代替了MLP,使其能关注历史图像,性能大幅提升。
3D视觉策略:认识到2D的局限性,转而使用3D输入。PerAct使用多视角RGB-D图像重建的"体素图(voxel maps)"作为输入和输出空间。
Diffusion-based策略:借鉴扩散模型在CV的成功,用于"生成动作"。Diffusion Policy将策略制定为一个DDPM(去噪扩散概率模型)。Octo是一个基于Transformer的模块化扩散策略。MDT则将最新的DiT(Diffusion Transformer)架构用于动作预测。
大型VLA (LVLA):这是当前最前沿的领域,即"大型VLA"。RT-2是开创性工作,它将大型VLM(如PaLI-X)在"互联网数据"和"机器人数据"上进行"共同微调 (co-fine-tuning)",从而获得了强大的泛化能力和"涌现能力"。OpenVLA是RT-2-X的开源对应版本。
前沿领域与难题:
LVLA的推理速度难题:LVLA(如RT-2)虽然理解能力强,但推理速度很慢。这在需要实时响应的动态环境中是致命的。
前沿(解决速度):TinyVLA专注于使用更小的VLM和Diffusion头来提升速度和数据效率 。DeeR-VLA提出使用“动态推理和早退出)”机制来部分激活模型,以提高效率。
扩展定律(Scaling Law):论文指出,在机器人技术中也观察到了类似LLM的扩展定律 。这意味着模型大小、数据质量和多样性至关重要。

3.高级任务规划
高级任务规划负责将一个复杂的长期任务(如“打扫房间”)分解为一系列低级策略可以执行的子任务(),其又分为一体式任务规划器 (Monolithic Task Planners)和模块化任务规划器 (Modular Task Planners)。
一体式任务规划器使用一个单一的、端到端的大模型来生成规划。
- 发展脉络与代表成果:
端到端规划器:PaLM-E是典型代表。它是一个大型具身多模态语言模型,能根据图像和高级指令,生成一个"文本计划",这个计划接着被用作低级策略(如SayCan)的指令。
3D视觉规划器:LEO和3D-LLM探索了将3D信息(如点云)直接输入LLM进行规划。
Grounded规划器:这是该领域的核心。SayCan是一个里程碑式的框架。LLM负责"说(Say)"出可能的下一步,而低级控制策略提供一个"价值函数"来评估机器人"能(Can)"完成什么。
- 前沿领域与难题:
训练这些大型一体化模型的成本非常高昂;如何确保LLM的"幻想"与机器人的"现实"能力相匹配。
模块化任务规划器不重新训练大模型,而是“组装”现成的LLM和VLM来完成任务 ,通常被视为“工具使用”范式 。
- 发展脉络与代表成果:

基于语言 (Language-based):模块之间通过"自然语言"交换信息。Inner Monologue是其中的代表成果。LLM生成指令,低级策略执行后,将反馈(如"成功"、"失败"或"看到的物体")也用"文字"描述给LLM,LLM再根据文字反馈进行动态重新规划。
基于代码 (Code-based):利用LLM强大的代码生成能力。LLM生成一段程序(如Python脚本)。现有的成果有ProgPrompt、CaP (Code as Policies) 和 ChatGPT for Robotics。LLM生成的代码通过调用API来使用感知模块(如
detector.find('apple'))和控制模块(如robot.move_to(obj))。- 前沿领域与难题:
优势:模块化规划器部署快,因为它们利用的是现成模型。基于代码的规划器可控性强、可调试性好。
挑战:基于语言的规划器生成的"子任务"可能不是低级策略能理解或执行的;基于代码的规划器需要你手动将所有VLM和控制策略封装成API,并且其性能受限于LLM的编程能力。
4.数据集信息与测试基准
数据集信息的采集包括真实世界数据、模拟器与模拟数据、自动化数据收集、人类数据。
- 真实世界数据集:
代表:Fractal(用于 RT-1)、Bridge V2、DROID 以及目前最大规模的聚合数据集 Open X-Embodiment (OXE)。
难题:数据稀缺。收集真实世界机器人数据极其昂贵和耗时。更严重的是,不同机器人(不同手臂、夹爪、传感器)导致数据不一致。
- 模拟器与模拟数据:
代表:使用模拟器(如 SAPIEN、AI2-THOR、CALVIN)来规避现实世界的障碍。
难题:"模拟到现实的鸿沟"。在模拟器中训练的模型,部署到真实机器人上时性能会急剧下降,原因包括渲染不真实、物理模拟不准确等。
- 自动化数据收集(前沿):
代表:这是解决数据稀缺的前沿方案。AutoRT 使用 LLM 作为"协调者",自主生成新任务并指挥机器人收集数据。DIAL 则是使用 VLM 来自动"扩充"现有数据中的语言指令。
- 人类数据(前沿):
代表:另一个前沿是利用海量的"人类视频数据"。
难题:如何将人类的手部/身体动作转移到机器人的"身体"上(即"embodiment gap")。
目前,VLA模型评判的测试基准也并没有定论:LoTa-Bench 通过在模拟器中执行规划来计算成功率。但EAI团队指出,仅靠"成功率"这个指标太粗糙,无法诊断 VLA 模型到底错在哪里。Embodied QA (具身问答)(如 EgoVQA)则作为一种评估相关能力(如空间推理)的替代方式。
参考文献
VLA 论文精读(三十三)A Survey on Vision-Language-Action Models: An Action Tokenization Perspective-CSDN博客
文章浏览阅读2.8k次,点赞36次,收藏55次。这篇论文是一篇比较新的(2025年07月02日发表) VLA 领域综述,原文一共 70 页内容,主要是从 Action Tokenization 角度出发进行了一次全面的总结,可以直接将其当作一个字典,其中的表格整理的非常清晰直观。_a survey on vision-language-action models: an action tokenization perspectiv

A Survey on Vision-Language-Action Models: An Action Tokenization...
The remarkable advancements of vision and language foundation models in multimodal understanding, reasoning, and generation has sparked growing efforts to extend such intelligence to the physical...
- 作者:CreamGreen.
- 链接:www.creamgreen.com/article/2a5555f7-8779-80ad-9c77-e3175effc63b
- 声明:本文采用 CC BY-NC-SA 4.0 许可协议,转载请注明出处。
相关文章
