【VLA】DeepVision-VLA 论文阅读笔记

type

Post

status

Published

date

Apr 9, 2026

slug

summary

深层动作生成阶段会逐渐“看不清”

这篇文章最有意思的地方，不是上来就提新模块，而是先问了一个非常关键的问题：VLA 模型在不同深度的层里，到底有没有持续利用视觉信息来生成动作？

作者对 OpenVLA、π0 以及自定义的 QwenVLA-OFT 做了系统分析，发现一个相当一致的现象：

在浅层，模型对被操作物体、机械臂、接触区域这类任务相关区域有比较明显的关注；

但到了深层，这种对关键视觉区域的敏感性会逐渐减弱，注意力变得更发散，甚至跑到背景或无关区域上；

当作者在不同层中遮掉 ROI 对应的视觉 token 时，浅层遮挡会显著恶化动作预测，而深层遮挡的影响却越来越小。

这意味着一个很重要的结论：很多 VLA 虽然“输入了图像”，但在真正生成动作的深层阶段，视觉 grounding 其实是在衰减的。

从研究视角看，这个发现很值钱。因为它指出的问题不是“视觉编码器不够强”，而是：视觉信息没有在动作链路的后半段被持续有效利用。

VL-MoT：把更强的视觉表征重新送进深层

为了修复这个问题，作者提出了 Vision-Language Mixture-of-Transformers（VL-MoT）。

它的核心思想非常直接：

既然浅层还看得比较准，深层却逐渐“看丢”

那就不要只在输入端注入一次视觉信息

而是要把一个更强的视觉基础模型作为 Vision Expert

在 VLA 的深层 再次注入多层视觉表征

具体来说，DeepVision-VLA 建立在 QwenVLA-OFT 上：

原始 VLA 分支：使用 SigLIP2-Large 作为视觉编码器，Qwen3-VL (4B) 作为主干，采用并行动作预测和 L1 回归输出动作。

新增视觉专家分支：额外引入 DINOv3 作为 Vision Expert，用更高分辨率图像提取更细粒度的视觉特征。

融合方式：不是简单拼接中间特征，而是在深层把 Vision Expert 和 VLA 主干各自的 Q / K / V 拿出来，做一次 shared attention，让两个分支直接在注意力层面进行信息交换。

这种设计的高明之处在于：

它不是粗暴地让所有特征一起混合，而是保持两个分支各自的处理路径；

它把融合位置放在最需要补视觉信息的深层，而不是浅层输入端；

它使用的是 Vision Expert 的后几层多级特征，因为论文实验发现，DINOv3 的后层比前层更适合机器人精细操作。

可以把它理解成：普通 VLA 是“开始看得见，后面越做越凭惯性”；

DeepVision-VLA 则是在动作真正要落地的深层阶段，再给模型递一次“视觉放大镜”。

AGVP：不是把所有视觉信息都塞进去，而是只保留关键区域

如果只是把 DINOv3 的高分辨率特征全部接进来，问题也会很明显：

token 太多

背景噪声太大

计算开销会上升

无关区域反而会稀释任务关键线索

所以作者又设计了一个非常实用的模块：Action-Guided Visual Pruning（AGVP）。这个模块的核心逻辑是：

利用浅层 VLA 中 action token → visual token 的 attention map；

把多个 action token 的注意力做平均，再跨多个浅层做平均；

得到一个更稳定的 task-relevant saliency map；

再把这个注意力图插值到 Vision Expert 的高分辨率 token 空间；

最后只保留 Top-K 最重要的视觉 token，其余剪掉。

也就是说，AGVP 并不是在问：图像里哪儿最显著？而是在问：对当前动作来说，图像里哪儿最重要？

这一点非常关键。因为机器人操作不是单纯识别目标，而是要考虑：

夹爪和物体的相对位置

接触点

边界

目标容器或把手的位置

当前动作下一步该去哪里

论文的消融实验也证明了，拿 action-to-vision attention 来做剪枝引导，比用 task instruction 或 CLS token 这种更全局、更语义化的信号效果更好。

从我的理解来看，这个设计特别有启发性，因为它其实体现了一种很重要的思想：或许不是所有“更强视觉信息”都有用，真正有用的是“和动作条件绑定之后的视觉信息”。

DeepVision-VLA 为什么会比普通视觉增强更有效

这篇文章和一些“给 VLA 加辅助视觉损失”“让模型重建目标物体”“增加外部视觉 prompt”的工作相比，最大的不同在于它对问题的切入点更深。

传统做法更像是在说：

我给你更多视觉提示

我给你额外视觉监督

我希望你能学会关注目标区域

而 DeepVision-VLA 的思路更像是在说：

我先确认你到底是在哪里开始看丢

再在那个深度位置把视觉信息重新补进去

同时只保留对动作最有意义的部分

所以它不是单纯“增强视觉”，而是在解决：视觉信息如何在动作生成链路里持续存活并真正参与控制。

这也是为什么它对一些特别依赖精细空间定位的任务更有效，比如：

扫入簸箕

架子放酒杯

白板写字

倒可乐进瓶子

这些任务都要求模型不仅要“知道目标是什么”，更要在连续控制中持续盯住关键位置。

实验结果：仿真和真实环境都很强

RLBench 仿真实验

作者在 10 个 RLBench 任务上做了测试，DeepVision-VLA 的平均成功率达到 83%，超过：

HybridVLA：74%

π0.5：65%

CogACT：61%

QwenVLA-OFT baseline：69%

在 10 个任务里拿到了 8 个最佳结果。

消融实验

消融实验基本把作者的几个关键判断都验证了一遍：

融合范式比较

vanilla baseline：65.5

early fusion：73

mid align：67

VL-MoT：88

这说明“深层 shared-attention 融合”比简单拼接或中间表征对齐更有效。

视觉特征层选择

DINOv3 前 16 层：61.5

全局均匀采样 16 层：85

后 16 层：88

说明 DINOv3 后层更适合操作任务。

剪枝引导方式

CLS token：65.5

Task instruction：84

Action token：88

说明对机器人操作来说，“当前动作相关性”比单纯语言语义更重要。

真实机器人实验

真实实验中，作者使用单臂 Franka 机器人，在四类任务上测试：

stack coke cans

write letter “S”

pick fruit to the plate

pour coke to bottle

平均成功率方面：

DeepVision-VLA：91.7%

π0.5：84.2%

QwenVLA-OFT：74.2%

OpenVLA-OFT：71.7%

其中最亮眼的是：

写字任务：95%

pick fruit 两阶段：95% / 95%

pour coke 两阶段：100% / 100%

我觉得这很能说明问题。因为这几类任务都要求模型一直盯住关键边界、接触区域和相对位置，而不是“一次识别完就可以靠惯性做完”。

泛化与鲁棒性

作者还测试了两种 zero-shot 扰动：

新背景

新光照

在 Pick fruit 任务中，baseline 在新背景和新光照下都有比较明显的下降，而 DeepVision-VLA 的下降幅度更小，说明它的视觉增强机制确实提高了对环境变化的鲁棒性。

这部分让我更相信一个判断：它学到的并不只是“这个训练场景长什么样”，而是更稳定的任务相关空间表征。

这篇文章最值得借鉴的地方

1. 先做机制诊断，再做结构设计

它不是拍脑袋加模块，而是先通过 attention map、Grad-CAM、ROI masking 证明问题真实存在，再对症下药。

这比很多“加一点监督、试一试有没有提升”的工作更扎实。

2. 视觉增强不该只做在输入端

很多时候我们会本能地觉得：“视觉不够强，那就换更强 encoder / 更高分辨率输入。”但这篇文章提醒我们：真正的问题，可能不是看不见，而是看见的信息没能活到动作生成后期。

3. 动作条件本身就是最强的视觉筛选信号

AGVP 的成功说明：在操作任务里，判断“该看哪里”的最好信号，往往不是图像本身、也不是语言本身，而是当前动作意图。

小结与心得体会

总结来说，DeepVision-VLA 的核心贡献并不是简单地“引入了更强的视觉 backbone”，而是指出并修复了一个非常关键的内部机制问题：VLA 在深层动作生成阶段，对任务相关视觉区域的敏感性会明显衰减。

作者通过 VL-MoT 把 DINOv3 的多层视觉特征重新注入深层，又通过 AGVP 只保留和动作真正相关的视觉区域，从而让模型在复杂操作中保持更稳定、更精细的视觉 grounding。

这篇文章对我最大的启发是：

想提升 VLA 的视觉能力，不能只盯着“输入看到了什么”，还要盯着“深层到底还在不在看”。

另外，这篇文章也让我更明确了一点：

对于具身智能中的视觉增强问题，很多真正有价值的改进，可能并不是增加一个“大而全”的辅助模块，而是找到视觉信息在策略网络里衰减的具体位置，然后做有针对性的补强。

附：这篇文章与 π0 思路的关系

比较维度	π0 的特点	DeepVision-VLA 的思想	我对两者关系的理解
1. 核心问题意识	更强调连续动作生成与 open-world generalization	更强调 VLA 深层动作生成阶段的视觉衰减问题	DeepVision-VLA 更像是在问“动作生成后期还看不看得准”
2. 动作建模范式	基于 flow matching 的连续动作建模	基于 QwenVLA-OFT 的并行动作预测基线展开	两者动作头机制不同，所以方法不能直接 1:1 照搬
3. 视觉增强位置	通常仍依赖 VLM trunk 的整体表征	明确把视觉增强放在深层，重新给动作链路补视觉	这一点对 π0 很有启发，因为论文分析表明 π0 也存在深层视觉敏感性下降
4. 视觉选择机制	没有本文这种显式 action-guided pruning	利用浅层 action-to-vision attention 选 ROI，再剪枝高分辨率视觉 token	这一部分我觉得是最容易迁移到 π0 的思想
5. 研究价值	强在动作生成范式与泛化	强在视觉表征如何持续服务动作控制	两者并不是互斥关系，反而可以互补

一句话总结，如果说很多 VLA 工作是在想“怎么让模型看见更多”，那么 DeepVision-VLA 真正解决的是：怎么让模型在最需要做精细动作的时候，依然看着对的地方。