type
Post
status
Published
date
Apr 9, 2026
slug
summary
tags
具身智能
category
学习路径
icon
password
📖
很多 VLA 论文都在想办法“增强视觉”,但大多数方法其实只是在输入端补信息,却没有回答一个更本质的问题:模型在生成动作时,真的一直在看对地方吗?DeepVision-VLA 最有价值的地方就在于,它先系统分析了多种 VLA 的内部机制,发现模型越到深层越容易“看丢”任务相关视觉区域;随后提出了 VL-MoT 和 AGVP 两个设计,把更强的视觉表征重新注入到动作生成深层,并且只保留和当前动作最相关的视觉 token,从而明显提升了复杂操作任务中的精度和鲁棒性。
notion image

深层动作生成阶段会逐渐“看不清”

这篇文章最有意思的地方,不是上来就提新模块,而是先问了一个非常关键的问题:VLA 模型在不同深度的层里,到底有没有持续利用视觉信息来生成动作?
作者对 OpenVLA、π0 以及自定义的 QwenVLA-OFT 做了系统分析,发现一个相当一致的现象:
  • 浅层,模型对被操作物体、机械臂、接触区域这类任务相关区域有比较明显的关注;
  • 但到了深层,这种对关键视觉区域的敏感性会逐渐减弱,注意力变得更发散,甚至跑到背景或无关区域上;
  • 当作者在不同层中遮掉 ROI 对应的视觉 token 时,浅层遮挡会显著恶化动作预测,而深层遮挡的影响却越来越小。
这意味着一个很重要的结论:很多 VLA 虽然“输入了图像”,但在真正生成动作的深层阶段,视觉 grounding 其实是在衰减的。
notion image
从研究视角看,这个发现很值钱。因为它指出的问题不是“视觉编码器不够强”,而是:视觉信息没有在动作链路的后半段被持续有效利用。

VL-MoT:把更强的视觉表征重新送进深层

为了修复这个问题,作者提出了 Vision-Language Mixture-of-Transformers(VL-MoT)
它的核心思想非常直接:
  • 既然浅层还看得比较准,深层却逐渐“看丢”
  • 那就不要只在输入端注入一次视觉信息
  • 而是要把一个更强的视觉基础模型作为 Vision Expert
  • VLA 的深层 再次注入多层视觉表征
具体来说,DeepVision-VLA 建立在 QwenVLA-OFT 上:
  • 原始 VLA 分支: 使用 SigLIP2-Large 作为视觉编码器,Qwen3-VL (4B) 作为主干,采用并行动作预测和 L1 回归输出动作。
  • 新增视觉专家分支: 额外引入 DINOv3 作为 Vision Expert,用更高分辨率图像提取更细粒度的视觉特征。
  • 融合方式: 不是简单拼接中间特征,而是在深层把 Vision Expert 和 VLA 主干各自的 Q / K / V 拿出来,做一次 shared attention,让两个分支直接在注意力层面进行信息交换。
这种设计的高明之处在于:
  1. 它不是粗暴地让所有特征一起混合,而是保持两个分支各自的处理路径;
  1. 它把融合位置放在最需要补视觉信息的深层,而不是浅层输入端;
  1. 它使用的是 Vision Expert 的后几层多级特征,因为论文实验发现,DINOv3 的后层比前层更适合机器人精细操作。
notion image
可以把它理解成:普通 VLA 是“开始看得见,后面越做越凭惯性”;
DeepVision-VLA 则是在动作真正要落地的深层阶段,再给模型递一次“视觉放大镜”

AGVP:不是把所有视觉信息都塞进去,而是只保留关键区域

如果只是把 DINOv3 的高分辨率特征全部接进来,问题也会很明显:
  • token 太多
  • 背景噪声太大
  • 计算开销会上升
  • 无关区域反而会稀释任务关键线索
所以作者又设计了一个非常实用的模块:Action-Guided Visual Pruning(AGVP)。这个模块的核心逻辑是:
  1. 利用浅层 VLA 中 action token → visual token 的 attention map;
  1. 把多个 action token 的注意力做平均,再跨多个浅层做平均;
  1. 得到一个更稳定的 task-relevant saliency map;
  1. 再把这个注意力图插值到 Vision Expert 的高分辨率 token 空间;
  1. 最后只保留 Top-K 最重要的视觉 token,其余剪掉。
也就是说,AGVP 并不是在问:图像里哪儿最显著?而是在问:对当前动作来说,图像里哪儿最重要?
这一点非常关键。因为机器人操作不是单纯识别目标,而是要考虑:
  • 夹爪和物体的相对位置
  • 接触点
  • 边界
  • 目标容器或把手的位置
  • 当前动作下一步该去哪里
论文的消融实验也证明了,拿 action-to-vision attention 来做剪枝引导,比用 task instruction 或 CLS token 这种更全局、更语义化的信号效果更好。
从我的理解来看,这个设计特别有启发性,因为它其实体现了一种很重要的思想:或许不是所有“更强视觉信息”都有用,真正有用的是“和动作条件绑定之后的视觉信息”。

DeepVision-VLA 为什么会比普通视觉增强更有效

这篇文章和一些“给 VLA 加辅助视觉损失”“让模型重建目标物体”“增加外部视觉 prompt”的工作相比,最大的不同在于它对问题的切入点更深。
传统做法更像是在说:
  • 我给你更多视觉提示
  • 我给你额外视觉监督
  • 我希望你能学会关注目标区域
而 DeepVision-VLA 的思路更像是在说:
  • 我先确认你到底是在哪里开始看丢
  • 再在那个深度位置把视觉信息重新补进去
  • 同时只保留对动作最有意义的部分
所以它不是单纯“增强视觉”,而是在解决:视觉信息如何在动作生成链路里持续存活并真正参与控制。
这也是为什么它对一些特别依赖精细空间定位的任务更有效,比如:
  • 扫入簸箕
  • 架子放酒杯
  • 白板写字
  • 倒可乐进瓶子
这些任务都要求模型不仅要“知道目标是什么”,更要在连续控制中持续盯住关键位置。

实验结果:仿真和真实环境都很强

RLBench 仿真实验

作者在 10 个 RLBench 任务上做了测试,DeepVision-VLA 的平均成功率达到 83%,超过:
  • HybridVLA:74%
  • π0.5:65%
  • CogACT:61%
  • QwenVLA-OFT baseline:69%
在 10 个任务里拿到了 8 个最佳结果。

消融实验

消融实验基本把作者的几个关键判断都验证了一遍:
  1. 融合范式比较
      • vanilla baseline:65.5
      • early fusion:73
      • mid align:67
      • VL-MoT:88
      这说明“深层 shared-attention 融合”比简单拼接或中间表征对齐更有效。
  1. 视觉特征层选择
      • DINOv3 前 16 层:61.5
      • 全局均匀采样 16 层:85
      • 后 16 层:88
      说明 DINOv3 后层更适合操作任务。
  1. 剪枝引导方式
      • CLS token:65.5
      • Task instruction:84
      • Action token:88
      说明对机器人操作来说,“当前动作相关性”比单纯语言语义更重要。
notion image

真实机器人实验

真实实验中,作者使用单臂 Franka 机器人,在四类任务上测试:
  • stack coke cans
  • write letter “S”
  • pick fruit to the plate
  • pour coke to bottle
平均成功率方面:
  • DeepVision-VLA:91.7%
  • π0.5:84.2%
  • QwenVLA-OFT:74.2%
  • OpenVLA-OFT:71.7%
其中最亮眼的是:
  • 写字任务:95%
  • pick fruit 两阶段:95% / 95%
  • pour coke 两阶段:100% / 100%
我觉得这很能说明问题。因为这几类任务都要求模型一直盯住关键边界、接触区域和相对位置,而不是“一次识别完就可以靠惯性做完”。

泛化与鲁棒性

作者还测试了两种 zero-shot 扰动:
  • 新背景
  • 新光照
在 Pick fruit 任务中,baseline 在新背景和新光照下都有比较明显的下降,而 DeepVision-VLA 的下降幅度更小,说明它的视觉增强机制确实提高了对环境变化的鲁棒性。
这部分让我更相信一个判断:它学到的并不只是“这个训练场景长什么样”,而是更稳定的任务相关空间表征。

这篇文章最值得借鉴的地方

1. 先做机制诊断,再做结构设计

它不是拍脑袋加模块,而是先通过 attention map、Grad-CAM、ROI masking 证明问题真实存在,再对症下药。
这比很多“加一点监督、试一试有没有提升”的工作更扎实。

2. 视觉增强不该只做在输入端

很多时候我们会本能地觉得:“视觉不够强,那就换更强 encoder / 更高分辨率输入。”但这篇文章提醒我们:真正的问题,可能不是看不见,而是看见的信息没能活到动作生成后期。

3. 动作条件本身就是最强的视觉筛选信号

AGVP 的成功说明:在操作任务里,判断“该看哪里”的最好信号,往往不是图像本身、也不是语言本身,而是当前动作意图

小结与心得体会

总结来说,DeepVision-VLA 的核心贡献并不是简单地“引入了更强的视觉 backbone”,而是指出并修复了一个非常关键的内部机制问题:VLA 在深层动作生成阶段,对任务相关视觉区域的敏感性会明显衰减。
作者通过 VL-MoT 把 DINOv3 的多层视觉特征重新注入深层,又通过 AGVP 只保留和动作真正相关的视觉区域,从而让模型在复杂操作中保持更稳定、更精细的视觉 grounding。
这篇文章对我最大的启发是:
想提升 VLA 的视觉能力,不能只盯着“输入看到了什么”,还要盯着“深层到底还在不在看”。
另外,这篇文章也让我更明确了一点:
对于具身智能中的视觉增强问题,很多真正有价值的改进,可能并不是增加一个“大而全”的辅助模块,而是找到视觉信息在策略网络里衰减的具体位置,然后做有针对性的补强。

附:这篇文章与 π0 思路的关系

比较维度
π0 的特点
DeepVision-VLA 的思想
我对两者关系的理解
1. 核心问题意识
更强调连续动作生成与 open-world generalization
更强调 VLA 深层动作生成阶段的视觉衰减问题
DeepVision-VLA 更像是在问“动作生成后期还看不看得准”
2. 动作建模范式
基于 flow matching 的连续动作建模
基于 QwenVLA-OFT 的并行动作预测基线展开
两者动作头机制不同,所以方法不能直接 1:1 照搬
3. 视觉增强位置
通常仍依赖 VLM trunk 的整体表征
明确把视觉增强放在深层,重新给动作链路补视觉
这一点对 π0 很有启发,因为论文分析表明 π0 也存在深层视觉敏感性下降
4. 视觉选择机制
没有本文这种显式 action-guided pruning
利用浅层 action-to-vision attention 选 ROI,再剪枝高分辨率视觉 token
这一部分我觉得是最容易迁移到 π0 的思想
5. 研究价值
强在动作生成范式与泛化
强在视觉表征如何持续服务动作控制
两者并不是互斥关系,反而可以互补
一句话总结,如果说很多 VLA 工作是在想“怎么让模型看见更多”,那么 DeepVision-VLA 真正解决的是:怎么让模型在最需要做精细动作的时候,依然看着对的地方。
 
【强化学习】西湖大学-强化学习的数学原理在线课程个人笔记第一篇文章
Loading...