type
Post
status
Published
date
May 6, 2026 10:44
slug
summary
tags
具身智能
category
学习路径
icon
password
VLM 擅长语义理解和高层规划,但不擅长直接完成毫米级空间控制;因此需要用显式 3D 空间结构、任务记忆和执行反馈,把 VLM 的语义推理能力转化为可执行的机器人操作策略。
这篇文章和我目前关注的 VLA 高精度操作、视觉 grounding、subtask 分解、ROI/局部视觉证据验证等问题非常接近。不过它更多是一个 VLM + RGB-D + ROS + 显式几何结构 的系统框架,而不是一个端到端 VLA 内部机制改进方法。
1. 研究背景:为什么纯 VLM 难以完成高精度操作?
机器人装配任务往往需要同时满足几个条件:
- 理解复杂空间关系;
- 能从粗运动切换到精细控制;
- 能维护任务进度和空间语义一致性;
- 能在失败后进行修正;
- 最终达到高精度插入、对接或组装。
VLM 在语义层面很强,例如能够理解“把连接器插入插槽”“将桁架部件组装到对应位置”。但真正落到机器人执行时,问题会变成:
- 目标物体的精确 3D 位置在哪里?
- 插入方向和孔轴是否对齐?
- 当前是否已经接触?
- 如果插入失败,是偏左、偏右、姿态不对,还是抓取点有问题?
- 下一步应该退回、微调,还是继续插入?
这些问题不是单靠 VLM 的语言推理就能稳定解决的。因此,文章提出用显式空间结构来承接 VLM 的语义判断,并用几何验证和闭环反馈降低 VLM 幻觉和误判。
2. 总体架构:Progressive VLM Planning
这篇文章的整体架构可以分成三大阶段:
也就是说,它不是一次性让 VLM 规划完整任务,而是一个闭环系统:
这和我之前构想的 Subtask Expert、ROI Expert、Completion Verifier、Uncertain Fallback 有相似之处:都不是让一个大模型直接从图像到动作,而是把高精操作拆成多个可验证阶段。
3. Stage 1:空间-语义映射
第一阶段负责把图像中的任务相关区域映射到机器人操作空间中。
输入包括:
系统先通过 VLM 对图像进行任务相关目标筛选或 panoptic segmentation,得到与任务有关的像素区域。随后结合深度图、相机内参和机器人坐标变换,把这些像素映射到机器人 base frame 中。
直观来说:
这一点非常关键。文章并没有让 VLM 自己估计毫米级空间关系,而是让 VLM 做语义筛选,再由 RGB-D 和几何模块完成空间定位。
多分辨率空间划分
作者还把空间按距离分成三层:
越靠近机器人末端和操作目标,空间表示越精细;越远离操作区域,表示越粗。这体现了一个很重要的高精度操作先验:
高精度视觉和几何计算不应该平均分配给全场景,而应该集中在当前 subtask 相关、距离操作目标最近的区域。
这对 peg-in-hole、plug-in-hole 等任务很有启发。真正需要高精度的不是整幅图,而是 peg tip、hole center、socket rim、contact region 这些局部区域。
4. Stage 2:双层场景表示
第二阶段是文章最核心的设计:dual-layer representation。
它包含两层:
2D Topology Graph:语义关系层、3D Spatial Network:几何空间层
4.1 2D Topology Graph:语义拓扑图
拓扑图记作:
其中:
V表示物体节点;
E表示对象之间的关系;
F表示由 VLM 生成的结构化语义特征。
每个节点大致包含:
每条边则描述对象关系,例如:
这一层解决的问题是:
4.2 3D Spatial Network:几何空间网络
空间网络用 Gaussian envelope 表示物体的几何位置、空间范围和方向:
其中:
μ_i是物体中心;
Σ_i表示空间范围和方向。
这样,拓扑图中的语义对象可以通过
spatial index 连接到对应的 3D 几何包络。简单理解:
这就是文章所谓的 spatial-semantic fusion。
5. 语义关系必须经过几何验证
这篇文章很值得借鉴的一点是:它不完全相信 VLM。
系统会先让 VLM 判断对象之间的语义关系,例如:
但这些关系不会直接进入系统,而是会通过 3D spatial network 做几何验证。作者使用 Gaussian envelope 的中心距离和协方差估计对象关系是否物理合理。只有当 VLM 的语义判断和几何验证一致时,系统才会在拓扑图中添加对应边。
这个设计非常重要,因为 VLM 容易产生看似合理但物理错误的判断。对于高精度机器人任务来说,“看起来合理”远远不够,必须经过物理空间验证。
这对我的研究也有直接启发:
6. Task Memory:任务记忆结构
文章维护了一个任务记忆结构:
分别表示:
TTP:任务拓扑路径
表示任务的层级依赖和执行顺序。例如连接器对接可以分成:
SS:子任务状态
记录当前子任务执行状态,例如:
MSH:运动序列历史
记录过去执行过的动作策略和失败/成功历史,用于后续策略调整。
这一点和我之前思考的 skill.json、completion predicate、fallback strategy 很接近。不同的是,这篇文章的 task memory 更偏运行时状态记录,而我的设想更偏“技能先验 + 执行验证 + fallback 机制”。
7. Stage 3:面向任务的 VLM 交互
第三阶段负责把前面维护的空间结构和任务记忆组织成 prompt,让 VLM 生成下一步执行策略。
它根据末端执行器与目标之间的距离,切换两种模式:
7.1 Coarse Motion
当机器人距离目标较远时,系统重点关注:
此时 prompt 会包含:
7.2 Fine Manipulation
当机器人接近目标后,系统进入精细操作模式,prompt 会更加关注:
例如在连接器对接中,fine manipulation 需要关注:
这个 coarse-to-fine 设计非常符合高精操作的本质。对于 peg-in-hole,也可以对应为:
8. ROS 在架构中的作用
论文中 VLM 最终生成的是 Sub-Task ROS Functions,而不是连续动作向量。
这意味着 VLM 不直接输出:
而是输出更结构化的动作调用,例如:
ROS 的作用是把 VLM 的高层规划结果转成机器人系统中可执行、可验证、可调试的函数调用。
这样做有几个好处:
- 避免 VLM 直接控制底层连续动作;
- 可以复用运动规划、IK、碰撞检测、控制器等成熟模块;
- 可以在执行前检查目标是否可达、路径是否安全;
- 方便执行后反馈状态;
- 更适合真实机器人系统部署。
但这也说明:这篇文章不是端到端 VLA,而是一个 VLM + 显式机器人系统的组合框架。
9. 实验结果与消融
论文用了两个任务:
其中 Aviation Connector Docking 更接近高精度对接任务,需要精确抓取、亚毫米级对齐和失败恢复。
文章使用四个指标:
这个指标设计非常值得借鉴。它没有只看最终成功率,而是拆成了:
实验显示,纯 VLM 虽然可能有较高 TPSR,但 TSR 可以为 0。这说明 VLM 能做出看似合理的计划,但如果没有空间 grounding 和执行层支撑,计划无法落地。论文的 dual-layer framework 显著提升了 SLPC、MSR 和 TSR。
消融实验中,去掉 Dual-Layer Module 后,SLPC 和 TSR 直接降到 0,即使 TPSR 仍然较高。这说明:
高层规划成功并不代表真实执行成功;语义计划必须被 grounding 到物理空间中。
这对我目前研究 π0.5 action expert 是否真的使用视觉证据也很有启发。
10. 与我的研究方向的关系
这篇文章和我当前关注的问题非常接近,但并不完全重合。
相似点
- 都关注高精度操作;
- 都认为纯 VLM/VLA 直接从图像到动作不可靠;
- 都强调 subtask 分解;
- 都需要视觉 grounding;
- 都强调错误恢复和闭环反馈;
- 都试图构建语义与空间之间的桥梁。
不同点
这篇文章是:
而我更关注的是:
它没有研究:
所以它可以作为一个强相关工作,但不完全撞车。
11. 对我后续研究的启发
这篇文章给我的最大启发是:
高精操作中的视觉 grounding 不应该只是“框出目标”,而应该是构建一层可验证的 subtask-relevant visual evidence。
对于 PegInsertion,可以构建一个轻量 evidence structure:
然后将其作为:
进一步验证:
这就能把这篇文章的显式空间结构思想,迁移到端到端 VLA 的内部机制分析中。
12. 文章优点
- 问题定义清晰:VLM 高层强,但精细空间执行弱;
- 架构设计合理:语义拓扑图 + 3D 空间网络 + 任务记忆;
- 粗细阶段切换符合高精操作规律;
- 几何验证降低了 VLM 幻觉风险;
- 闭环反馈使系统具备错误恢复能力;
- 指标拆解比单纯 success rate 更有解释力。
13. 文章局限
VLM performs panoptic segmentation这一步描述过于理想,实际稳定性存疑;
- Gaussian envelope 对孔口、针脚、接触边缘等高精局部结构可能过粗;
- ROS function 设计依赖大量工程先验;
- 任务规模有限,泛化性仍需更多验证;
- 它不是端到端 VLA,不能直接回答 action expert 是否使用视觉证据的问题;
- 实验对比中,系统工程方法和端到端模型之间的条件并不完全一致。
14. 我的最终理解
这篇文章的核心不是“VLM 很强,所以能做高精操作”,而是:
它真正有价值的地方是证明了:
高精操作需要的不只是视觉识别,而是一套从语义到空间、从空间到动作、从动作到反馈的可验证链路。
对我自己的方向来说,这篇文章提醒我:
如果要做 π0.5 高精操作,不应该只问“怎么让注意力看向 ROI”,而应该问:
这比单纯做一个 ROI detector 或 soft attention map 更有科研价值。
- 作者:CreamGreen.
- 链接:www.creamgreen.com/article/350555f7-8779-8021-99f5-d8870b25b52d
- 声明:本文采用 CC BY-NC-SA 4.0 许可协议,转载请注明出处。
相关文章

.png?table=block&id=350555f7-8779-8021-99f5-d8870b25b52d&t=350555f7-8779-8021-99f5-d8870b25b52d)
.png?table=block&id=28e555f7-8779-80ec-b81a-d42f2e03ca40&t=28e555f7-8779-80ec-b81a-d42f2e03ca40)
.png?table=block&id=297555f7-8779-80ee-912a-f9920dd2cd23&t=297555f7-8779-80ee-912a-f9920dd2cd23)

.png?table=block&id=350555f7-8779-8035-9cc3-d4f1926e71e2&t=350555f7-8779-8035-9cc3-d4f1926e71e2)
.png?table=block&id=34f555f7-8779-808b-8fce-e6c88a929659&t=34f555f7-8779-808b-8fce-e6c88a929659)

