type
Post
status
Published
date
Mar 10, 2026 09:26
slug
summary
tags
具身智能
category
学习路径
icon
password
1. CALVIN
CALVIN 是目前评估长程和语言条件操作最火热的桌面级基准之一。
- 项目主页: calvin.cs.uni-freiburg.de (包含各类 SOTA 模型的 Leaderboard 和任务视频展示)
- GitHub 代码库: mees/calvin (包含数据集下载、环境配置和评测脚本)
- 论文: CALVIN: A Benchmark for Language-Conditioned Policy Learning for Long-Horizon Robot Manipulation Tasks (IEEE RA-L 2022 Best Paper)
2. LIBERO (包含 LIBERO-Long)
专注于终身学习(Lifelong Learning)和知识迁移的基准,其 LIBERO-Long 任务分片专门用于评估 10 步以上的复杂长程空间记忆与多物品操作。
- 项目主页: libero-project.github.io
- GitHub 代码库: Lifelong-Robot-Learning/LIBERO (包含 130 个任务的程序化生成管道和高质量人类演示数据集)
- 相关延伸库: LIBERO-PRO (针对原版 LIBERO 增加了空间位置、视觉、语义等更多维度泛化测试的进阶版)
- 论文: LIBERO: Benchmarking Knowledge Transfer for Lifelong Robot Learning (arXiv:2306.03310)
3. VIMA & VIMA-Bench
核心亮点在于多模态提示(Multimodal Prompts),任务链条高度依赖于视觉堆叠(Visual Manipulation/Stacking)和图像指令跟踪。
- 项目主页: vimalabs.github.io
- GitHub 代码库 (仿真环境): vimalabs/VimaBench (包含 17 种图文交互桌面任务的 Gym 接口环境)
- GitHub 代码库 (算法模型): vimalabs/VIMA (官方 Transformer 模型实现及预训练权重)
- 论文: VIMA: General Robot Manipulation with Multimodal Prompts (ICML 2023, arXiv链接)
4. BEHAVIOR-1K
由斯坦福大学 (StanfordVL) 主导,基于 OmniGibson 高保真物理仿真器,面向极长程(100+步)、高物理约束的日常家务。这是目前最难的具身基准之一。
- 项目主页: behavior.stanford.edu
- GitHub 代码库: StanfordVL/BEHAVIOR-1K (包含 1000 种日常活动和 5000+ 物理属性标注的物品)
- 论文: BEHAVIOR-1K: A Human-Centered, Embodied AI Benchmark with 1,000 Everyday Activities and Realistic Simulation (CoRL 2022 / arXiv:2403.09227)
5.VLABench
划分了 6 个核心评估维度:网格与纹理理解、空间理解、常识与世界知识应用、语义指令理解、物理定律理解以及长程推理。复合任务(Composite Tasks)的平均时间步长超过 500 步。任务不仅要求代理规划多步操作,还要求结合视觉和常识进行逻辑推演甚至数学计算(例如通过堆叠数字方块来回答数学题)
- 项目主页: vlabench.github.io
- GitHub 代码库: OpenMOSS/VLABench (专注于大规模语言条件控制与长程推理任务的机器人操作基准,提供包含跨类别泛化、常识应用、跨任务等 6 个维度的评估 Tracks,以及标准化的微调与评估数据集)
- 论文: VLABench: A Large-Scale Benchmark for Language-Conditioned Robotics Manipulation with Long-Horizon Reasoning Tasks (ICCV 2025 / arXiv:2412.18194)
6.VLA-Arena
每个任务都包含三个难度级别(L0 到 L2),用于精确测量模型从分布内记忆到分布外泛化的能力边界。包含场景构建、数据收集、数据格式转换(如转为 RLDS 或 LeRobot 格式)、模型微调(原生支持 OpenVLA, Pi0, UniVLA 等)和标准化评估的完整框架。
- 项目主页: PKU-Alignment/VLA-Arena
- GitHub 代码库:PKU-Alignment/VLA-Arena (包含 170 个不同种类和难度的基于 CBDDL 定义的任务,覆盖安全、干扰、泛化和长程 4 大领域,并附带完整的端到端工具链)
- 论文: VLA-Arena: An Open-Source Framework for Benchmarking Vision-Language-Action Models (arXiv:2512.22539)
Benchmark 名称 | 发布时间 | 底层物理引擎 / 框架 | GPU 显存 (VRAM) 需求参考 | 核心任务特征 (长程/堆叠) |
CALVIN | 2022 | PyBullet
(轻量级桌面级仿真) | ≥ 12GB
| 连续执行 5 个以上无重置语言指令;包含基础积木堆叠与滑动交互。 |
LIBERO
(特指 LIBERO-Long) | 2023 | MuJoCo
(基于 robosuite 框架) | ≥ 16GB
| 长达 10 步以上的序列空间记忆与多物品操作;侧重跨环境与跨物体的知识迁移。 |
VIMA-Bench | 2023 | PyBullet
(基于 Ravens 深度定制) | ≥ 8GB
| 基于多模态提示(图文交错);强调目标导向的复杂视觉堆叠与仿射变换。 |
BEHAVIOR-1K | 2022 | OmniGibson
(基于 NVIDIA Omniverse / PhysX 5) | ≥ 16GB
| 超长程 (100+ 步) 宏观家务;包含高物理保真度的软体、流体、热力学状态以及不规则物品堆叠。 |
VLABench | 2024 | MuJoCo & dm_control
(基于 OpenMOSS 框架构建。原生提供脚本,可一键将数据转换为适配 OpenVLA/Octo or LeRobot格式。) | ≥ 24GB | 极度强调常识应用与多步逻辑推理。其长程任务不仅要求模型完成多物品的精准抓取与堆叠,还要求模型能理解富含上下文的复杂语义指令(隐式意图) |
VLA-Arena | 2025 | MuJoCo(基于 RoboSuite 仿真平台构建) | 未给出具体最低显存要求 | 共包含 170 个L0-L2不同难度分级和种类的任务。其长程任务要求模型组合多个已学的原子技能来完成多步规划。此外,该基准极度强调在长程操作中的安全性(如避开动态障碍、维持容器水平状态)以及抵抗多模态扰动的鲁棒性。 |
- 作者:CreamGreen.
- 链接:www.creamgreen.com/article/31f555f7-8779-8001-b661-eaf1de6b2a02
- 声明:本文采用 CC BY-NC-SA 4.0 许可协议,转载请注明出处。
相关文章

.png?table=block&id=31f555f7-8779-8001-b661-eaf1de6b2a02&t=31f555f7-8779-8001-b661-eaf1de6b2a02)
.png?table=block&id=28e555f7-8779-80ec-b81a-d42f2e03ca40&t=28e555f7-8779-80ec-b81a-d42f2e03ca40)
.png?table=block&id=297555f7-8779-80ee-912a-f9920dd2cd23&t=297555f7-8779-80ee-912a-f9920dd2cd23)

.png?table=block&id=31e555f7-8779-8075-acc1-c1e50ca5a6e0&t=31e555f7-8779-8075-acc1-c1e50ca5a6e0)