【VLA】Causal Attention Evaluation相关论文调研

type

status

date

slug

summary

核心定义：从“相关”到“因果”

通常我们通过可视化“注意力地图”（Attention Maps）来解释模型，但这只是相关性。比如，模型预测“这是一只猫”时正好盯着猫的耳朵，但这不代表它是因为看到了耳朵才做出的判断。

因果注意力评估的目标是证明：正确的注意力分配（Attending correctly）是导致更好性能的直接原因。

实现这一评估的三种主要手段

监督注意力 (Supervising Attention)：

在训练时给模型增加额外的信号（标签），强迫模型去关注人类认为重要的区域。如果这样做了之后模型变强了，说明这种注意力是有因果效用的。

注意力消融 (Attention Ablations)：

实验方法： 就像做手术一样，故意关掉某些注意力头（Heads）或者遮盖掉（Mask）模型正在关注的区域。
逻辑： 如果遮掉关键区域后性能大幅下降，说明该注意力对结果至关重要。

反事实注意力重路由 (Counterfactual Attention Re-routing)：

实验方法： 在推理过程中，人为地改变注意力的流向。
逻辑： 如果把注意力从“错误”的特征引导向“正确”的特征，模型的表现是否随之提升？这能验证注意力是否真的在指导逻辑推理。

最终目的

这种评估方式的意义在于：

提升鲁棒性 (Robustness)： 确保模型不是因为关注到了背景中的干扰因素（如水里的船，模型只看了水）而走运猜对。

提高准确率 (Accuracy)： 确保模型学到的是真正的因果逻辑。

可解释性 (Interpretability)： 让“可解释性”不再只是好看的图表，而是具备科学依据的证明。

论文选读

对于接下来的每一篇论文，笔者将就以下几个问题进行概括和分析：

修改的内容是什么（架构上？约束上？）

修改的必要性（不改行不行，解决了什么问题？）

修改的重要性（性能提升了吗？提升在哪里）

模型是否task-relevant

Grounding（模型看对地方了吗？）

Hallucination（模型是出幻觉在瞎编吗？）

Robustness（环境变了模型还能迁移吗？）

Attention Edit对下游任务的影响 (Causal Impact)

效率与成本考量

论文/项目	会议/期刊	核心修改与task-rel评估	必要性/重要性	效率/成本考量
LocalizationHeads	CVPR 2025	筛选出特定“定位头”（通过注意力总和与空间熵）进行特征聚合。证明了模型内部存在固有的定位能力，其 IoU 与头部的筛选频率呈强正相关。	必要性：原生平均注意力地图对于定位任务而言过于稀疏且充满噪声。重要性：仅需 3个头即可在 REC/RES 任务上达到与专门精调模型（如 LISA）相当的水平	零训练成本；仅需提取极少量头的信息；支持单张RTX A6000推理。
PAINT	CVPR 2025	推理时引入“先验注意力干预”（Prior-Attention Intervention），通常用于修正解码时的视觉偏差。显著提升模型对图像中细小或非显著物体的锚定精度，抑制“过度概括”的倾向。	必要性：解决模型在生成长描述时，注意力容易从目标物体逐渐偏移到背景或其他无关区域的痛点。重要性：在物体幻觉基准测试中表现出极强的稳健性。	Training-free；即插即用；推理延迟增加较小。
VISTA	ICML 2025	引入视觉引导向量（VSV）与自对数增强（SLA）进行 Token-logit 修正。 Task-rel：揭示了幻觉源于深层视觉信息的丢失，通过因果干预将视觉特征重新注入。	必要性：LVLM 在生成过程中视觉信号会随层深减弱，导致幻觉。重要性：在多个幻觉基准测试中将幻觉率降低了约 40%。	无需微调参数；计算开销主要集中在 Logit 层的线性增强，开销极低。
IKOD	ICLR 2025	核心修改：图像引导的 KV-merging（键值合并）与协同解码机制。 Task-rel：因果性地解决了长文本序列增长带来的视觉注意力衰减问题。	必要性：随文本变长，注意力倾向于文本上下文而非图像。重要性：显著提升了长描述任务下的 Grounding 准确性。	节省显存（通过 KV 压缩）；零训练成本；推理效率高于传统的对比解码方案。
CAMA	AAAI 2026	核心修改：利用“查询-演示联合关联评分”进行上下文感知注意力调制。 Task-rel：确保多模态 ICL（上下文学习）场景下，模型能准确关注示例图像中的相关特征。	必要性：标准 ICL 容易忽略演示图像或产生任务偏移，CAMA 纠正了这种不稳定性。重要性：在 7 个基准上一致提升了模型在复杂场景下的鲁棒性。	即插即用；不更新权重；计算调制分数的开销相对于生成过程可以忽略不计。

Your Large Vision-Language Model Only Needs A Few Attention Heads For Visual Grounding(LocalizationHeads)

文章主要提出了“定位头”的概念，即那些能够将文本描述准确锚定到图像特定区域的注意力头。只要有3个这种头就可以起到相当卓越的模型性能贡献。

那么如何对这种头进行识别呢？

标准一：注意力总和 (Attention Sum，）

含义: 该标准用于衡量一个注意力头对图像区域（相对于文本区域）的关注程度。在多模态模型中，查询 Token（通常是最后一个文本 Token）会同时关注图像 Token 和文本 Token。如果一个头的注意力大部分分配给了图像 Token，说明它具有处理视觉信息的潜力。

公式: 对于第层、第个注意力头，其注意力总和定义为：其中是图像Token的总数，是该头对第个图像Token的注意力权重。

图例解读（对应论文中图 3） • 曲线走势：如图 3 所示，作者将所有头按值升序排列。你会发现大部分头的值很低，只有少数头（曲线右侧剧烈上升部分）表现出对图像的极高关注。 • 阈值：图中标记的是通过寻找曲线最大曲率点确定的阈值。只有的头才会被保留，进入下一个标准的筛选。

标准二：空间熵 (Spatial Entropy, )

含义: 仅关注图像是不够的，有效的定位头还必须让注意力集中在物体所在的局部区域，而不是杂乱地分散在整个背景中。空间熵用于量化注意力地图的这种“集中度”或“局域性”。

公式: 首先将注意力图二值化并识别出个连通区域。空间熵的计算公式为：其中代表第个连通区域占总激活区域的面积比例： • 低熵值：意味着注意力集中在一个或少数几个大块区域，有利于定位。 • 高熵值：意味着注意力破碎地散布在许多小区域，通常代表噪声。

图例解读（对应图 4） • 处理过程：如图 4 所示，原始注意力图先经过二值化（Binarize）处理，将高于均值的区域设为 1，其余为 0。 • 连通组件 ()：系统识别出图中相互连接的像素块。 • 对比分析： Low （上行）：注意力地图大面积集中在物体上，产生的分布极不均匀，导致低熵，这通常是好的定位头。 High （下行）：注意力散布成许多小点，产生的分布较均匀，导致高熵，这被视为噪声头。

如何找到最终的定位头？

图 5 的总览流程所示，定位头的发现是一个统计筛选过程： 1. 收集：输入 1,000 个随机样本，提取所有层的注意力图。 2. 初筛：保留满足的头。 3. 精选：在这些头中，挑选空间熵最低的前 10 个头。 4. 统计频率：统计每个头在 1,000 个样本中被选中的次数，即筛选频率（Selection Frequency）。

极少数头在绝大多数样本中都被选为“低熵头”。这些高频出现的头被最终确定为定位头，只需使用其中前 3 个头即可实现强大的指代定位性能。

PAINT: Paying Attention to INformed Tokens to Mitigate Hallucination in Large Vision-Language Model

幻觉通常源于 LLM 深层中对视觉标记的注意力权重逐渐减弱。一些先前的工作天真地提升所有视觉标记的注意力来缓解这个问题，导致幻觉减少效果不佳。为此，我们识别出两组关键的视觉标记，它们促进了从视觉编码器到 LLM 的视觉信息传递。局部标记编码了图像中物体的具体信息，而摘要标记则捕捉了图像的整体聚合表示。重要的是，这两组标记需要不同级别的权重增强。我们提出了PAINT范式，一种缓解幻觉的方法。与之前将所有视觉标记统一处理的方法不同，我们识别了两种类型的视觉标记，称为局部标记（Local Tokens）和汇总标记（Summary Tokens），并分别用α和β增强它们的注意力

PAINT 的核心思想是选择性地增强关键视觉 Token 的注意力，而不是“一刀切” 。

核心技术：PAINT 框架

A. 两种关键 Token 的识别 作者从视觉转换器（ViT）编码过程中识别出两类对理解图像至关重要的 Token：

1. 局部 Token (Local Tokens)：由 ViT 的初始层捕获，编码关于图像中具体物体的细粒度定位信息。

2. 摘要 Token (Summary Tokens)：由 ViT 的深层聚合而成，捕获图像的全局语义和高级抽象信息。

上图展示了 ViT 不同层中 CLS-to-patch 的注意力差异，证明了这两类 Token 的存在。 B. 选择性注意力增强机制 在 LLM 的推理阶段，PAINT 对注意力权重进行干预： • 公式实现：通过学习到的边际参数增强局部Token，通过增强摘要Token。

• 即插即用：该方法无需任何额外训练，可直接应用于现有的冻结 LVLM。

实验结果与评估（统计意义上的重要性） 在 MSCOCO 数据集上的评估显示，PAINT 在减少幻觉方面具有极强的有效性：

• 指标跨越：相比于原始模型，PAINT 将句子级幻觉率（）从 46.2% 降至 17.6%，降幅达 61.9%。

• 实例级改进：实例级幻觉率（）从 13.8% 降至 4.0%，降幅达 71.0%。

• 对比优越性：如文中表1所示，PAINT 的减幻效果显著优于基准方法 PAI。

消融实验分析（参数的必要性） 作者深入研究了不同参数对模型稳定性和性能的影响：

• 局部增强因子 ：表2显示，是最佳平衡点。过高（如 0.9）会导致模型崩溃（F1 分数剧降至 8.7%）。

• 摘要增强因子 ：表3显示，效果最好。超过 0.4 会使模型变得不稳定。

• Token 选择比例 N：表4显示，选择前 25% 的 Token 能够提供最佳的幻觉削减与生成准确率（F1-Score）之间的权衡。

技术路径解读

在 PAINT 框架中，提取 CLS-to-patch 注意力图并利用其识别关键 Token 是减轻幻觉的核心步骤。该过程主要分为提取、识别和调制三个阶段。

1. 什么是 CLS-to-patch 注意力？

在 Vision Transformer (ViT) 中，输入图像被切分为多个小块（Patches），并添加一个特殊的 [CLS] Token 用于聚合全局信息。 CLS-to-patch 注意力是指在自注意力层中，[CLS] Token 作为查询（Query），对所有图像 Patch Tokens（Key）分配的权重。权重越高，说明该图像块对当前层的语义表达贡献越大。

2. 提取过程：定位特定层 根据 ViT 的分层编码特性，PAINT 从特定的层中提取注意力图： • 局部 Token (Local Tokens) 提取：从 ViT 的初始层（如第 0-1 层）提取。这些层关注物体的细粒度几何特征，如边缘和纹理。 • 摘要 Token (Summary Tokens) 提取：从 ViT 的深层（如第 24 层）提取。此时信息已高度聚合，反映的是图像的整体语义（如物体的类别或动作）。

3. 计算与识别过程 识别过程涉及对提取到的原始注意力权重进行处理，具体公式和步骤如下：

第一步：多头平均 (Averaging over Heads) 由于 ViT 是多头注意力机制，每一层有个头。为了得到稳定的重要性评分，需要对所有头的 [CLS] 注意力图取平均值：

第二步：Top N% 筛选 利用函数选出权重最高的前个 Token 索引： • 识别局部 Token 集合 ()： • 识别摘要 Token 集合 ()：

根据实验，选择前 25% 的 Token 作为关键集是最佳的平衡点。

4. 接下来的计算：LLM 注意力调制 一旦识别出这两组索引，PAINT 会在 LLM 的推理过程中干预其自注意力矩阵。对于 LLM 中的每一个注意力头，调整后的权重计算如下： 1. 对于局部 Token ()： , 其中是局部增强因子，推荐值为 0.7。

2. 对于摘要 Token ()： , 其中是摘要增强因子，推荐值为 0.4。

5. 总结流程 1. 输入图像进入 ViT 编码器。 2. 抓取第 1 层和第 24 层的 [CLS] 对 Patches 的注意力权重。 3. 排序并筛选出权重最高的前 25% 索引，分别存入 $S_{local}$ 和 $S_{summary}$。 4. 推理时，当 LLM 处理这些特定索引的视觉 Token 时，手动增加它们的注意力权重。 5. 结果：由于 LLM 更多地“看到”了关键视觉特征，生成的文本与图像的一致性显著提升，幻觉降低约 62%。

The Hidden Life of Tokens: Reducing Hallucination of Large Vision-Language Models via Visual Information Steering

虽然LVLM在多模态任务中表现出色，但经常生成与视觉输入不符的“幻觉”内容。作者认为，幻觉的一个关键原因在于语言先验（Language Priors）的影响压倒了视觉上下文。为了揭示幻觉是如何在生成过程中产生和传播的，作者通过“Token概率排名（Token Logits Ranking）”这一新视角进行了深入分析。

三大关键发现 (Observations)

通过追踪不同类型 Token（隐藏真实、已解码真实、幻觉）在模型层级和生成时间步中的排名变化，作者提出了三个重要观察：

（OBS-1）视觉信息逐渐流失 (Gradual Visual Information Loss)：随着生成过程的推进，真实 Token 的排名逐渐下降，而幻觉 Token 的排名上升。这表明累积的语言先验在残差流中稀疏了视觉信息，导致后期生成更偏向语法合理但视觉无根据的内容。

（OBS-2）早期激发 (Early Excitation)：具有语义意义的 Token（如物体、属性）通常在模型的倒数第二层或倒数几层达到激活峰值。相比之下，最后一层往往更倾向于预测功能性词汇（如 "this", "a", 停用词），这表明最终决策可能过度强调了语法元素。

（OBS-3）隐藏的真实信息 (Hidden Genuine Information)：LVLM 感知到的视觉线索其实比它表达出来的要多。即使某些真实的 Token 最终没有被解码，它们在生成过程中依然保持着相对较高的排名（例如在 32K 词汇量中排名约 5K）。

基于上述发现，作者提出了 VISTA (Visual Information Steering with Token-logit Augmentation) 框架，包含两个协同工作的模块：

VISTA 方法论

A. 视觉引导向量 (Visual Steering Vector, VSV)

工作原理背景：作者观察到“视觉信息逐渐流失”（OBS-1）现象：随着生成过程的推进，模型残差流中积累的语言先验逐渐稀释了视觉信息，导致模型后期更倾向于根据文本惯性生成内容

核心机制：VSV 通过在激活空间（Activation Space）中提取一个代表“纯视觉信息”的方向向量，并将其注入到推理过程的每一层中。

构建过程（对比提取）： • 正向上下文 ()：输入包含系统提示、图像 Token 和查询 Token 的完整序列。 • 负向上下文 ()：输入仅包含系统提示和查询 Token，丢弃图像 Token。 • 计算向量：VSV 是这两者在最后一层残差流中的差值：。这个向量捕捉了由图像带来的独特视觉细节，而不包含通用的语言偏置。

推理干预：在生成每个新 Token 时，将该向量按强度注入到每一层的隐藏状态中：

稳定性处理：为了防止干扰模型的自然生成能力，注入后会对隐藏状态进行归一化处理，保持其范数不变。

B. 自对数增强 (Self-Logits Augmentation, SLA)

工作原理背景：作者发现了“早期激发”（OBS-2）现象：代表物体、属性等关键语义信息的 Token，往往在模型的倒数第二层或更靠前的层次就达到了概率峰值，而最终层反而可能被停用词或语法功能词占据。

核心机制：SLA 利用这些早期层的激活信息来引导最终的解码过程，确保语义丰富的 Token 能够被优先选中。 计算增强 Logits()：在每一个解码时间步，不仅查看最后一层（第层）的输出，还利用“Logit Lens”技术，将最后一层之前的层隐藏状态分别通过输出头，并计算它们的平均对数几率（Logits）：（在实验中，窗口大小通常设置为5。） Logits 融合（Ensemble）：将最后一层的原始 Logits () 与这个增强 Logits () 按系数进行加权聚合，得到最终用于采样的分布：通过这种方式，SLA 提升了那些在早期层中表现强劲的语义 Token 的生成概率。

VSV 作用于残差流（激活空间），负责在模型内部保留和加强视觉信号；SLA 作用于输出概率（Logits 空间），负责纠正最终解码时的语法偏向，让模型“说出”那些有意义的视觉发现。

实验结果与评估

作者在 LLaVA-1.5、Shikra、MiniGPT-4和InstructBLIP 四种架构上进行了广泛验证：

幻觉大幅减少：在 CHAIR 基准测试中，VISTA 在开放式生成任务上平均将幻觉减少了约 40%，显著优于 PAI、VCD 和 DoLa 等基准方法。

全场景适用性：无论是在贪婪解码、束搜索（Beam Search）还是核采样（Nucleus Sampling）下，VISTA 均能保持稳定提升。

通用能力提升：在 MME 综合能力评估中，VISTA 不仅没有损害原有的感知能力，反而提升了模型在推理、知识等方面的表现。

高效率：由于无需额外训练且支持缓存处理，VISTA 的推理延迟远低于 VCD 和 PAI 等对比策略。

这篇文章证明了通过在激活空间进行简单的线性引导和跨层对数融合，可以有效唤醒 LVLM 内部被语言先验遮盖的视觉真相。VISTA 作为一种即插即用的轻量级工具，为提高多模态系统的可靠性提供了一个强有力的方向。