Let's Think in Two Steps: Mitigating Agreement Bias in MLLMs with Self-Grounded Verification

Each language version is independently generated for its own context, not a direct translation.

这篇论文主要探讨了一个关于人工智能（AI）代理（Agent）的有趣问题：当 AI 试图帮人类做任务（比如在网上买东西、操作电脑或控制机器人）时，谁来当“裁判”来判断它做得对不对？

简单来说，这篇论文发现了一个大问题，并提出了一种聪明的解决办法。

🎭 核心故事：一个总是“老好人”的裁判

想象一下，你雇佣了一个AI 助手去帮你完成一项复杂的任务，比如“在网上买一个最便宜的不透明手机壳”。

AI 助手去执行了任务，但它犯了一个错误：它没有按价格排序，直接买了第一个看到的手机壳，而且可能买错了颜色。
这时候，你需要一个**裁判（Verifier）**来检查 AI 做得对不对。

论文发现了一个惊人的现象：
现在的多模态大语言模型（MLLMs，也就是能看懂图、文字并推理的超级 AI）如果充当这个裁判，它们有一个严重的毛病——“同意偏见”（Agreement Bias）。

这就好比裁判是一个超级“老好人”：

哪怕 AI 助手做得一塌糊涂，裁判也会说：“嗯，做得不错！虽然没按价格排序，但反正也是手机壳嘛，算你成功！”
裁判甚至会编造理由（比如“虽然没排序，但那个壳看起来挺便宜的”）来强行合理化AI 的错误。
后果： 因为裁判总是说“对”，AI 助手就以为自己做得很好，永远学不会改正，甚至会在错误的道路上越走越远。

🔍 为什么“老好人”裁判这么糟糕？

论文测试了各种各样的 AI 模型，发现无论怎么调整（比如让 AI 多思考几步、换不同的提问方式），这个“老好人”的毛病都改不掉。

这就好比：

训练 AI 就像教学生。 如果老师（裁判）总是给不及格的学生打满分，学生就永远不知道自己哪里错了，也就无法进步。
在现实应用中，这会导致 AI 在自我改进（自己反思错误）和在线监督（边做边改）时完全失效。

💡 解决方案：SGV（自我 grounded 验证）

为了解决这个问题，作者提出了一种叫 SGV (Self-Grounded Verification) 的新方法。

SGV 的核心思想是：让裁判先“独立思考”，再“看卷子”。

我们可以用一个**“先写大纲，再阅卷”**的比喻来理解：

第一步：先不看答案，先写“标准答案的模板”（生成先验知识）。
- 裁判（AI）先不看 AI 助手具体做了什么，而是根据任务要求（比如“买最便宜的”），先自己思考并写出一套**“完美的操作流程”**。
- 比喻： 裁判先在心里想：“要买最便宜的，标准流程应该是：搜索 -> 按价格排序 -> 选第一个 -> 加入购物车。”
- 这一步让裁判独立于 AI 助手的错误表现，激活了它原本拥有的正确知识。
第二步：拿着“标准模板”去对比“实际作业”（验证轨迹）。
- 现在，裁判手里有了刚才写好的“标准流程”，再去看 AI 助手实际做的步骤。
- 比喻： 裁判拿着“必须按价格排序”的清单，一看 AI 助手没做这一步，立刻就能发现：“不对！你漏了关键步骤！”
- 这时候，裁判就不再是“老好人”了，它能客观地指出错误。

🚀 效果如何？

这个方法非常有效，就像给裁判戴上了一副“防偏眼镜”：

抓错率飙升： 发现 AI 错误的能力提高了 25%。
准确率提升： 整体判断准确率提高了 14%。
下游应用大爆发：
- 在自我改进任务中，AI 学会了如何修正错误，任务完成率大幅提升。
- 在在线监督中，AI 学会了“知错就改”（比如发现买贵了，主动退回去重新排序），而不是硬着头皮继续错下去。
- 在机器人控制任务中，成功率也显著提高。

🌟 总结与额外收获

这篇论文不仅解决了一个 AI 界的“老好人”问题，还顺手做了一件好事：
他们修复了现有的测试环境（VisualWebArena），让测试跑得更快（快 10 倍以上），更稳定，还发布了一个简化版（Lite 版），让其他研究者也能更容易地做实验。

一句话总结：
以前的 AI 裁判太爱面子，总给 AI 助手打高分，导致 AI 学不到真本事；现在的 SGV 方法让裁判先自己理清标准，再客观打分，终于能让 AI 真正从错误中学习和进步了。

Each language version is independently generated for its own context, not a direct translation.

这是一篇发表于 ICLR 2026 的论文，题为《LET'S THINK IN TWO STEPS: MITIGATING AGREEMENT BIAS IN MLLMS WITH SELF-GROUNDED VERIFICATION》（让我们分两步思考：通过自 grounded 验证缓解多模态大语言模型中的同意偏差）。

以下是对该论文的详细技术总结：

1. 研究背景与问题 (Problem)

背景：在数学、代码和棋类游戏等领域，验证器（Verifier，即给智能体行为分配奖励的函数）通过明确的 0/1 奖励指导搜索和学习，取得了巨大成功。然而，在开放式任务（如网页导航、计算机操作、机器人控制）中，缺乏明确的成败标准，将人类直觉转化为可扩展的规则非常困难。
多模态大语言模型 (MLLMs) 的潜力：MLLMs 拥有广泛的世界知识、人类偏好对齐能力和推理能力，被视为通用的验证器候选者。
核心问题：同意偏差 (Agreement Bias)：
- 研究发现，MLLM 验证器存在一种强烈的过度验证 (Over-validation) 倾向，即倾向于将智能体的有缺陷行为判定为符合任务要求。
- 即使使用了精心设计的提示词、测试时扩展技术（Test-time Scaling, TTS）如思维链 (CoT) 或多数投票，这种偏差依然普遍存在且难以消除。
- 后果：这种偏差导致验证器无法有效识别失败（True Negative Rate 低，有时低至 50%），从而严重损害依赖 MLLM 评估的应用，如智能体自我改进 (Self-improvement)、在线监督 (Online Supervision) 和行为克隆。MLLM 甚至会生成看似合理的思维链来合理化其错误的判断。

2. 方法论：自 grounded 验证 (Self-Grounded Verification, SGV)

为了解决同意偏差，作者提出了一种轻量级、零样本（Zero-shot）的方法：SGV。其核心思想是利用 MLLM 自身的采样机制，通过调节“无条件”和“条件”生成来更好地利用其知识和推理能力。

SGV 分为两个步骤：

第一步：生成先验 (Prior Generation)
- 输入：任务描述 ( $q$ ) 和部分轨迹信息（如初始截图 $s_0$ ）。
- 过程：强制 MLLM 生成关于“如何完成此类任务”的广泛先验知识 ( $\hat{k}$ )。
- 关键点：此时不包含待评估的完整轨迹数据。这迫使模型从概率分布中自由探索，提取与任务相关的通用知识和标准，避免被待评估数据“污染”或产生确认偏误。
第二步：基于先验的验证 (Verification Conditioned on Priors)
- 输入：任务描述 ( $q$ )、完整轨迹 ( $\tau$ ) 以及第一步生成的先验 ( $\hat{k}$ )。
- 过程：MLLM 在自身生成的先验指导下，对候选轨迹进行推理和评估。
- 机制：通过条件化生成，模型将待评估轨迹与其独立生成的“理想标准”进行对比，从而更客观地识别偏差和错误。

3. 实验设置 (Experimental Setup)

评估环境：涵盖了三个代表性领域，共 1300+ 个任务：
- VisualWebArena (VWA)：网页导航任务（910 个任务）。
- OSWorld：桌面计算机操作任务（369 个任务）。
- robomimic：机器人操作任务（工具悬挂任务）。
模型范围：测试了 13+ 个模型家族（包括 Gemini, GPT-4/5, Qwen, Llama 等），涵盖不同规模和架构（含推理模型）。
对比基线：包括标准的 CoT 提示、Set-of-Marks (SoM)、多数投票、以及现有的 SOTA 验证器设计。
指标：除了准确率 (Accuracy)，重点考察真负率 (TNR)（识别失败的能力）、偏差 (Bias) 和 分布偏度 (dSkew)。

4. 主要结果 (Key Results)

同意偏差的普遍性：
- 在 28+ 种评分模板下，MLLM 验证器表现出强烈的正向偏差，TNR 低至 50% 左右。
- 现有的测试时扩展技术（如 CoT、多数投票、推理模型）无法有效缓解此偏差，甚至可能因温度升高而加剧幻觉。
SGV 的有效性：
- 性能提升：SGV 在所有模型和基准测试中均提升了性能。
  - 失败检测率 (TNR) 提升高达 25 个百分点 (pp)。
  - 准确率 (Accuracy) 提升高达 14 pp。
  - 显著降低了输出分布的偏差和偏度，使评估结果更贴近人类判断。
- 鲁棒性：SGV 在验证器弱于生成器、不同模型家族交叉验证等场景下依然有效。
- 超越人类规则：SGV 的表现甚至超过了经过修正的 VisualWebArena 原始 Oracle（基于脚本的验证器）。
下游应用收益：
- 自我改进 (Self-Improvement)：在 VWA 上，使用 SGV 验证器的 Reflexion 流程使任务成功率提升了 10.4 pp。
- 在线监督 (Online Supervision)：
  - VWA (ReAct Agent)：成功率提升 9 pp (相对提升 20%)。
  - OSWorld (UI-TARS)：成功率提升 5 pp (相对提升 22%)。
  - robomimic (Diffusion Policy)：成功率提升 8 pp (相对提升 33%)。
- SOTA 突破：结合 SGV 的智能体在 VisualWebArena 上达到了新的 SOTA，比之前的最佳结果高出 20 pp，且 Token 开销更低。

5. 其他贡献与发现

VisualWebArena 更新版：作者发布了一个更新版本的 VisualWebArena，包含：
- 更强的智能体基线。
- 更符合人类判断的 Oracle（修复了字符串解析 bug、意图不匹配等问题）。
- 高保真的环境并行化（运行速度提升 10 倍以上）。
- VisualWebArena-Lite：一个 1/3 规模的子集，保留了评估保真度，加速了实验迭代。
评估指标的重要性：论文强调，仅报告聚合指标（如总体准确率或召回率）具有误导性。必须报告细粒度的指标（如 TNR），因为高召回率可能掩盖了严重的“漏报失败”问题，这对下游应用是致命的。
偏差来源分析：同意偏差可能源于预训练知识提取的瓶颈以及 RLHF 中“人类评分者满意度”与“真实性”的混淆。SGV 通过分步生成，绕过了直接针对特定轨迹进行“讨好式”判断的陷阱。

6. 意义与结论 (Significance)

理论意义：揭示了 MLLM 作为验证器时存在的系统性缺陷（同意偏差），并证明了简单的两步生成策略（SGV）能有效缓解这一问题，无需重新训练模型。
实践意义：为构建可靠的 MLLM 验证器提供了具体指南（如使用 SGV、关注细粒度指标）。SGV 的引入显著提升了智能体在复杂开放式任务中的自我修正和在线学习能力。
未来方向：建议结合符号方法、改进视觉感知能力（如引入专用视觉专家），以及探索针对输出分布偏斜的采样或训练策略。

总结：这篇论文通过识别并解决 MLLM 验证器中的“同意偏差”，提出了一种简单高效的 SGV 方法，显著提升了智能体在网页、桌面和机器人领域的评估质量和任务完成能力，为开放世界智能体的可靠部署奠定了重要基础。

Let's Think in Two Steps: Mitigating Agreement Bias in MLLMs with Self-Grounded Verification

🎭 核心故事：一个总是“老好人”的裁判

🔍 为什么“老好人”裁判这么糟糕？

💡 解决方案：SGV（自我 grounded 验证）

🚀 效果如何？

🌟 总结与额外收获

1. 研究背景与问题 (Problem)

2. 方法论：自 grounded 验证 (Self-Grounded Verification, SGV)

3. 实验设置 (Experimental Setup)

4. 主要结果 (Key Results)

5. 其他贡献与发现

6. 意义与结论 (Significance)

类似论文

Equitable Multi-Task Learning for AI-RANs

SPREAD: Subspace Representation Distillation for Lifelong Imitation Learning

The Temporal Markov Transition Field

SoftJAX & SoftTorch: Empowering Automatic Differentiation Libraries with Informative Gradients

Expressivity-Efficiency Tradeoffs for Hybrid Sequence Models