AQuA: Toward Strategic Response Generation for Ambiguous Visual Questions

该论文提出了名为 AQuA 的细粒度数据集,通过将模糊视觉问答按模糊程度分类并定义最优响应策略,训练视觉语言模型使其能够识别模糊性并自适应地选择直接回答、推断意图、列举替代方案或请求澄清等策略,从而在模糊场景下显著优于现有基线模型。

Jihyoung Jang, Hyounghun Kim

发布于 2026-03-10
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一个名为 rAQUA 的新项目,旨在教人工智能(AI)如何像聪明的人类一样,面对“模棱两可”的视觉问题。

为了让你轻松理解,我们可以把现在的 AI 想象成一个刚入职、有点死脑筋的实习生,而这篇论文就是给这个实习生进行的一场**“高情商沟通特训”**。

1. 现状:AI 是个“过度自信的愣头青”

在传统的测试中,AI 面对的图片和问题都很清楚。比如图片里只有一只猫,问“猫是什么颜色的?”,AI 能完美回答“黑色”。

但在现实生活中,情况往往很复杂。想象一下,你给 AI 看一张照片,照片里有三辆不同颜色的车,然后你问:"这辆车是什么颜色的?”

  • 现在的 AI 会怎么做? 它会像个愣头青,不管三七二十一,直接指着离镜头最近的那辆车说:“是红色的!”
  • 问题在哪? 它完全没意识到你问的是“哪一辆”都不清楚。它太自信了,甚至有点“瞎猜”。它不知道什么时候该说“我不确定”,什么时候该说“请指一下是哪一辆”,或者“这里有三种可能”。

2. 解决方案:AQUA 数据集(给 AI 的“情商教科书”)

作者们觉得,AI 需要学会根据模糊的程度来调整回答策略。于是,他们制作了一个名为 AQUA 的新数据集,把模糊的问题分成了四个等级,就像给 AI 发了一本《应对模糊场景的生存指南》:

  • Level 0(完全清晰): 图片里只有一辆车。
    • AI 策略: 直接回答。“那是红色的。”(像平时一样)
  • Level 1(稍微有点指代不明,但能猜出来): 图片里有两辆车,但一辆在背景里很小,另一辆在前景很大。你问“这辆”,其实大家都懂是指大的那辆。
    • AI 策略: 先确认,再回答。 “您是指前景里那辆大的车吗?它是红色的。”(像人类一样,先确认语境,再给答案)
  • Level 2(有多个合理答案): 图片里有两辆同样显眼的车,一辆红的一辆蓝的。你问“这辆”,确实不知道指哪辆。
    • AI 策略: 列出所有可能。 “这里有两种可能:如果您指左边那辆,它是红色的;如果您指右边那辆,它是蓝色的。”(像人类一样,把选项都摆出来)
  • Level 3(完全混乱,必须问清楚): 图片里有一堆车,密密麻麻,根本分不清哪辆是“这辆”。
    • AI 策略: 礼貌地反问。 “不好意思,图片里有很多辆车,您具体指的是哪一辆呢?能描述一下位置吗?”(像人类一样,承认自己不知道,寻求澄清)

3. 训练过程:从“死记硬背”到“举一反三”

作者们用这个数据集训练了两个开源的 AI 模型(Qwen 和 InternVL)。训练分两步走:

  1. ** supervised Fine-Tuning (SFT) - “死记硬背”:**
    先让 AI 大量阅读这本《指南》,告诉它:“遇到这种情况,你就该这么回答。”这时候 AI 学会了基本的规则,但有时候还是有点生硬。
  2. GRPO (Group Relative Policy Optimization) - “实战演练与奖励”:
    这就好比给 AI 安排了一场模拟考。如果 AI 在模糊场景下做出了正确策略(比如该问的时候问了,该列选项的时候列了),就给它奖励;如果它又犯傻直接瞎猜,就惩罚
    通过这种“奖励机制”,AI 终于学会了灵活变通,不再死板地只给一个答案。

4. 结果:小模型也能打败大模型

训练后的 AI 表现惊人:

  • 不再盲目自信: 面对模糊问题,它不再胡乱猜一个答案,而是懂得“看情况说话”。
  • 小模型逆袭: 经过特训的小模型(参数较少),在应对模糊问题上,竟然打败了那些没经过特训的超级大模型(比如 GPT-5 和 Gemini)。
  • 核心启示: 这说明,“知道什么时候该说什么话”(策略意识) 比单纯的“脑子大”(参数多)更重要。

总结

这篇论文的核心思想就是:真正的智能,不仅仅是能回答问题,更是要懂得在问题不清楚时,如何优雅地处理不确定性。

就像我们在生活中,如果朋友问“那个东西在哪?”,聪明的朋友会先问“哪个东西?”,而不是直接指着一个错误的东西说“在那儿”。rAQUA 就是让 AI 学会这种**“高情商”的沟通方式**,让它从“死板的答题机器”变成“懂语境的智能助手”。