VisualScratchpad: Inference-time Visual Concepts Analysis in Vision Language Models

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一个名为 VisualScratchpad（视觉草稿本） 的新工具，它就像是为“视觉语言模型”（VLM，即能看图说话的 AI）配备的一副X 光眼镜和手术刀。

为了让你更容易理解，我们可以把 AI 想象成一个正在参加考试的超级天才学生。

1. 核心问题：天才也会“瞎”和“乱猜”

现在的 AI 模型（比如 LLaVA）非常聪明，能看懂图片并回答问题。但有时候，它们会给出完全错误的答案。

痛点：当它们答错时，我们很难知道是哪里出了问题。是因为它没看清图？还是它看清了但理解错了？或者是它被图里的某个无关细节带偏了？
比喻：这就像学生做错了题，你问他“为什么错”，他只能说“不知道”。我们需要一种方法，能直接看到他的思考过程（大脑内部活动）。

2. 解决方案：VisualScratchpad（视觉草稿本）

作者开发了这个工具，就像给这个“学生”装了一个透明的思考草稿本。

第一步：把“模糊的图像”变成“清晰的关键词”

AI 看图片时，脑子里是一堆复杂的数学数字（向量），人类看不懂。

比喻：这就好比 AI 脑子里有一团乱糟糟的毛线球。
工具作用：VisualScratchpad 使用一种叫“稀疏自编码器（SAE）”的技术，把这团毛线球拆解成一根根独立的毛线（概念）。
- 有的毛线代表“红色”；
- 有的代表“手套”；
- 有的代表“轮椅”。
- 现在，我们不仅能看到 AI 看到了什么，还能知道它具体提取了哪些概念。

第二步：把“图像概念”和“文字回答”连起来

AI 看到图后，会生成文字。我们需要知道，它生成的每一个字，是参考了图里的哪个概念。

比喻：这就像在学生的草稿本上，用荧光笔标出：当他写下“手套”这个词时，他的目光正盯着图片里的“手套”区域。
工具作用：它通过一种“注意力机制”，把图片里的概念和生成的文字一一对应。如果 AI 答错了，我们就能立刻看到：哦，原来它盯着“手套”看，却把它理解成了“桌子”。

第三步：做“手术”验证（因果分析）

这是最酷的部分。我们可以直接修改 AI 的“草稿本”，看看会发生什么。

比喻：就像做手术一样，我们可以剪断某根毛线（比如把“轮椅”这个概念强行关掉），或者放大某根毛线（把“兔子”的概念调大）。
工具作用：
- 如果我们关掉“轮椅”的概念，AI 的回答会不会从“坐着”变成“站着”？
- 如果我们放大“兔子”的概念，AI 会不会把“鸭子”看成“兔子”？
- 通过这种“手术”，我们就能确认：到底是哪个概念导致了 AI 的错误。

3. 他们发现了什么？（三个有趣的“故障”）

通过用这个工具“解剖”AI，作者发现了三种常见的“学生病”：

“看对了，但没对上号”（跨模态对齐失败）
- 场景：图里有一只戴手套的手，AI 看到了手套，但题目问“杯子是在桌子上还是手上”。
- 故障：AI 脑子里有“手套”这个概念，但它没把“手套”和“手”联系起来，反而觉得“手套”属于“桌子”（因为它觉得手套是放在桌上的）。
- 结果：只要我们在问题里多问一句“戴着手套的手”，AI 就突然懂了。
“被带偏了”（误导性线索）
- 场景：图里有个老人，旁边有个助行器（walker），但老人其实是站着的。
- 故障：AI 看到助行器，脑子里立刻联想到“轮椅”和“坐着”。它太依赖这种刻板印象了，完全忽略了老人站着的事实。
- 结果：当我们用工具把“轮椅”这个概念从 AI 脑子里“切除”后，AI 就正确地回答“站着”了。
“藏着掖着”（未使用的隐藏线索）
- 场景：一张著名的视错觉图（既是鸭子又是兔子）。
- 故障：AI 一开始说这是“鸭子”。但当我们检查它的草稿本时，发现它脑子里其实也激活了“兔子”的概念，只是它忽略了。
- 结果：如果我们强行把“兔子”的概念调大，把“鸭子”的概念调小，AI 就会改口说“这是兔子”。这说明 AI 其实“心里有数”，只是没表现出来。

总结

VisualScratchpad 就像是一个AI 心理医生或侦探。
它不再让我们对着 AI 的黑盒子瞎猜，而是让我们能实时观察 AI 是怎么看图的、怎么思考的，甚至能动手修改它的想法来验证我们的猜想。

这对于让 AI 变得更可信、更安全非常重要，因为它帮我们找到了 AI 犯错的真正根源，而不是仅仅停留在“它答错了”这个表面现象上。

Each language version is independently generated for its own context, not a direct translation.

这是一份关于 ICLR 2026 研讨会论文《VISUALSCRATCHPAD: INFERENCE-TIME VISUAL CONCEPTS ANALYSIS IN VISION LANGUAGE MODELS》（VisualScratchpad：视觉语言模型推理时的视觉概念分析）的详细技术总结。

1. 研究背景与问题 (Problem)

尽管高性能的视觉语言模型（VLMs）表现优异，但它们仍会生成错误的答案，且其失败模式（Failure Modes）往往难以解释。

核心挑战：当前的 VLM 缺乏可解释性，难以确定错误是源于视觉感知不足（未捕捉到关键线索）还是过度依赖误导性的视觉线索。
现有局限：传统的机械可解释性（Mechanistic Interpretability）方法通常针对单一神经元，但单个神经元往往被多个不相关的概念激活（超叠加现象）。虽然稀疏自编码器（SAEs）已被证明能分解出更具语义意义的稀疏单元，但在 VLM 领域，缺乏一个能够系统化分析、推理时调试及因果干预的统一接口。

2. 方法论 (Methodology)

作者提出了 VisualScratchpad，一个用于 VLM 推理时视觉概念分析与因果测试的交互式界面。其核心流程包含以下三个关键步骤：

A. 视觉概念提取 (Extracting Visual Concepts)

架构：将稀疏自编码器（SAE）直接应用于冻结的视觉编码器（如 CLIP-ViT-large），而不是语言模型层。
原理：使用 SAE 将密集的图像 Token 表示（ $z$ ）映射到高维稀疏空间（ $h$ ），生成 32,768 个潜在变量（Latents）。
优势：直接在视觉编码器上应用 SAE 避免了跨模态注意力层和投影层引入的混淆，能够更纯粹地提取视觉概念。

B. 通过文本 - 图像注意力链接概念 (Linking via Text-to-Image Attention)

问题：SAE 生成的概念是图像块（Patch）级别的，需要将其与语言模型的输出 Token 关联。
解决方案：利用 VLM 中的文本到图像的注意力图（Text-to-Image Attention Map）。
- 计算文本 Token 对所有图像 Patch 的注意力权重。
- 将注意力权重作为系数，对 SAE 的潜在激活值进行加权平均。
- 效果：这种方法根据文本 Token 的关注程度对视觉概念进行重排序，将模型真正“关注”的视觉概念推至顶部，从而建立视觉概念与语言输出之间的因果联系。

C. 因果分析与概念干预 (Causal Analysis & Ablation)

Token-Latent 热力图：由于 SAE 潜在变量之间存在层级或相关性，单一变量的消融可能无效。作者构建了一个 Token-Latent 激活热力图：
- 基于注意力加权激活强度筛选 Top-k 潜在变量。
- 根据跨 Token 的激活相似性对潜在变量进行聚类。
- 作用：帮助用户识别代表同一语义概念的潜在变量簇，从而进行有效的概念消融（Concept Ablation）。
干预机制：通过将选定潜在变量的激活值设为零（消融）或修改为特定值（增强），观察模型输出的变化，从而验证该概念对模型预测的因果影响。

3. 主要贡献 (Key Contributions)

VisualScratchpad 界面：首个支持 VLM 推理时概念检查、因果测试和概念引导（Steering）的统一交互式平台。集成了 SAE 潜在变量探索、模型推理、内部观察（注意力图、热力图）和内部修改功能。
新的分析范式：提出了一种将视觉编码器中的 SAE 概念通过注意力机制与语言 Token 动态链接的方法，实现了跨模态的细粒度可解释性分析。
Token-Latent 热力图：提出了一种可视化工具，用于识别和聚类具有因果影响力的潜在变量集合，解决了 SAE 潜在变量粒度不一导致的干预困难问题。

4. 实验结果与案例研究 (Results & Case Studies)

作者通过三个案例揭示了 VLM 的三种未被充分探索的失败模式：

案例 1：跨模态对齐受限 (Limited Cross-modal Alignment)
- 现象：模型检测到了正确的视觉线索（如“手套”），但未能将其与文本概念（“手”）正确对齐，导致回答错误（如将戴手套的手误判为普通表面）。
- 验证：通过修改提示词（增加细节描述），模型能利用已存在的视觉概念生成正确答案。
- 结论：视觉概念存在于表示中，但与语言概念的对齐存在偏差。
案例 2：依赖误导性线索 (Grounding on Misleading Cues)
- 现象：模型被错误的视觉线索误导（如看到“助行器”联想到“轮椅/坐着”），导致对老人姿势（坐/站）判断错误。
- 验证：通过消融与“轮椅/坐着”相关的潜在变量簇，模型的回答翻转为正确的“站立”。
- 结论：VLM 倾向于依赖语义上相关但视觉上误导的关联线索。
案例 3：未使用的隐藏线索 (Unused Hidden Cues)
- 现象：在歧义图像（如鸭兔错觉）中，模型仅输出一种解释（如“鸭子”），尽管另一种解释（“兔子”）的视觉概念也在激活。
- 验证：消融“鸭子”相关概念并增强“兔子”相关概念后，模型输出变为“兔子”。
- 结论：VLM 内部编码了比最终输出更丰富的视觉信息，其不一致行为源于对主导线索的过度依赖。

5. 意义与影响 (Significance)

系统调试工具：VisualScratchpad 为研究人员和开发者提供了一种系统化的调试工具，能够深入理解 VLM 的推理过程，而不仅仅是观察输入输出。
提升可信度：通过揭示模型内部的失败机制（如对齐问题、误导性关联、隐藏线索），有助于设计更鲁棒、更可信的 AI 系统。
未来方向：该工作为多模态模型的机械可解释性开辟了新路径，未来可扩展至自动化大规模因果分析、更深层的跨模态追踪以及更广泛的架构应用。

总结：这篇论文通过结合稀疏自编码器（SAE）和注意力机制，成功构建了一个可视化的“思维草稿纸”（VisualScratchpad），让研究者能够“看到”并“干预”VLM 在推理过程中如何提取和利用视觉概念，从而有效诊断并修复模型的错误行为。