VOILA: Evaluation of MLLMs For Perceptual Understanding and Analogical Reasoning

本文提出了名为 VOILA 的大规模动态基准,旨在评估多模态大语言模型在跨图像感知理解与抽象类比推理方面的能力,研究发现当前模型在此类任务上表现显著落后于人类,但采用“由少到多”的分步提示策略可提升其性能。

Nilay Yilmaz, Maitreya Patel, Yiran Lawrence Luo, Tejas Gokhale, Chitta Baral, Suren Jayasuriya, Yezhou Yang

发布于 2026-02-26
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一个名为 VOILA 的新测试,用来给现在的“多模态大语言模型”(MLLMs,也就是能看懂图、能聊天的超级 AI)做一场高难度的“脑筋急转弯”考试

为了让你更容易理解,我们可以把这篇论文的内容想象成一场**“视觉类比推理大赛”**。

1. 核心概念:什么是“视觉类比”?

想象你在玩一个看图猜谜游戏:

  • 第一张图:一只猫在睡觉。
  • 第二张图:一只狗在睡觉。
  • 第三张图:一只猫在跑步。
  • 问题:那么,第四张图应该是什么?

如果你是人类,你会想:“哦,第一张和第二张的区别是‘猫变狗’,但动作都是‘睡觉’。第三张是‘猫在跑步’,那第四张应该是‘狗在跑步’。”

这就是类比推理:找出 A 到 B 的变化规律,然后把这个规律套用到 C 上,推导出 D。

2. 为什么要搞这个测试 (VOILA)?

以前的 AI 考试大多像**“选择题”**。比如给你四张图,让你选哪张是对的。

  • 缺点:AI 有时候不需要真的“懂”道理,只要猜对选项就行,或者它只是死记硬背了图片特征。这就像学生只背了答案,没学会解题思路。

VOILA 的突破
VOILA 是一个**“开放式”**的考试。它不给选项,直接问 AI:“请画出一张图(或描述一张图),完成这个类比。”

  • 比喻:这就像以前是让学生做“选择题”,现在直接让他们“写作文”或“画画”。如果学生真的懂了逻辑,他就能写出正确的答案;如果不懂,他就编不出东西来。

3. 考试有多难?(VOILA-WD vs VOILA-ND)

为了让考试更真实,研究者设计了两种难度:

  • VOILA-ND (无干扰版):就像做数学题,条件都很清晰,没有废话。
  • VOILA-WD (有干扰版):这是**“陷阱题”**。
    • 比喻:题目里混入了一些无关紧要的信息。比如,题目里画了“三只红色的熊在游泳”,但真正的逻辑只是“熊的数量变了”,颜色是干扰项。
    • AI 必须像侦探一样,过滤掉噪音,只抓住真正的逻辑线索。

4. 考试结果:AI 表现如何?

结果有点让人“大跌眼镜”,但也揭示了真相:

  • 人类表现:就像满分学霸,正确率高达 70% 左右。人类很擅长抓重点,忽略干扰项。
  • 顶尖 AI (如 GPT-4o)
    • 描述图片(第一步)时,它像个优秀的翻译官,准确率很高(约 78%)。
    • 找规律(第二步)时,它开始有点迷糊,准确率降到 40% 左右。
    • 应用规律并生成答案(第三步,最关键的一步)时,它彻底“崩盘”了。在最难的模式下,正确率只有 13% 甚至更低。
    • 比喻:AI 能完美地描述“这是一个苹果”,也能告诉你“苹果变成了梨”,但当它需要说“既然苹果变成了梨,那香蕉应该变成什么”时,它经常答非所问,或者画出一堆奇怪的混合体。

结论:目前的 AI 更像是一个**“超级记忆库”,而不是一个“逻辑思考者”**。它们能看懂画面,但很难理解画面背后的抽象逻辑关系。

5. 有什么好办法能帮帮 AI?

研究者发现了一些“作弊”技巧(其实是更好的教学方法):

  • 分步走 (Least-to-Most Prompting)
    • 如果直接问 AI 答案,它经常错。
    • 如果告诉它:“第一步,先描述图;第二步,找出规律;第三步,再应用规律。”
    • 比喻:就像教小孩走路,不要直接让他跑马拉松,而是先走一步,再走一步。这样 AI 的正确率会显著提升
  • 输入方式
    • 把三张图拼成一张大图(拼贴画)给 AI 看,它容易看花眼。
    • 把三张图按顺序一张张给 AI 看,它的表现会好很多(提升了约 40%)。

6. 总结:这篇论文想告诉我们什么?

  1. AI 还没真正“聪明”:现在的 AI 在处理复杂的视觉逻辑推理时,离人类还有很大差距。它们擅长“看”,但不擅长“想”。
  2. 旧方法不够用了:以前的选择题考试骗不了人了,我们需要像 VOILA 这样开放式、动态生成的考试,才能测出 AI 真正的智商。
  3. 未来方向:我们需要教 AI 像人类一样分步骤思考,并且要教会它们如何忽略干扰项,抓住核心逻辑。

一句话总结
VOILA 就像给 AI 出了一道**“看图找规律并填空”**的奥数题,结果发现 AI 虽然眼睛尖(看得清图),但脑子还不太灵光(理不清逻辑),离真正的人类智慧还有很长的路要走。

在收件箱中获取类似论文

根据您的兴趣定制的每日或每周摘要。Gist或技术摘要,使用您的语言。

试用 Digest →