Bongard-RWR+: Real-World Representations of Fine-Grained Concepts in Bongard Problems

本文提出了包含 5400 个实例的 Bongard-RWR+ 数据集,利用视觉语言模型和图像生成技术将原始邦加德问题中的抽象概念转化为细粒度真实世界图像,并通过评估发现当前视觉语言模型在识别细粒度视觉概念及推理能力上仍存在显著局限。

Szymon Pawlonka, Mikołaj Małkiński, Jacek Mańdziuk

发布于 2026-02-20
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这是一篇关于人工智能如何“动脑筋”的有趣研究。为了让你轻松理解,我们可以把这篇论文比作给 AI 出了一套“超级烧脑”的找茬游戏

1. 背景:什么是“邦加德问题”?

想象一下,你面前有两组图片:

  • 左边有 6 张图,它们都有一个共同点(比如:都是红色的,或者都是圆形的)。
  • 右边也有 6 张图,它们有另一个共同点(比如:都是蓝色的,或者都是方形的)。
  • 任务:你需要找出这两组图片背后的核心规则是什么,并用一句话告诉别人。

这就是著名的“邦加德问题”(Bongard Problems)。以前,这类问题是用简单的黑白线条画的(像儿童简笔画),现在的 AI 做得还不错。但人类不仅能看懂简笔画,还能看懂复杂的真实世界照片(比如“左边是正在奔跑的狗,右边是正在睡觉的猫”)。

2. 以前的难题:要么太假,要么太少

  • 旧版本:全是黑白线条,太假了,不能测试 AI 在真实世界里的能力。
  • 新版本(Bongard-RWR):用了真实照片,但概念太简单(比如“有人”和“没人”),AI 很容易猜对。
  • 最大的问题:之前那个用真实照片做的数据集,只有60 道题。这就好比只让 AI 做 60 道数学题就考试,根本测不出它是不是真的聪明,还是只是背下了答案。

3. 本文的突破:用 AI 造出 5400 道“真实”难题

作者们(来自波兰华沙理工大学等)想:“既然 AI 能画画,那我们就用 AI 来造题!”

他们开发了一套**“自动出题流水线”**:

  1. 找灵感:从旧的黑白线条题里挑出 54 个经典难题。
  2. 翻译:让一个 AI(Pixtral)看图,把它描述成文字(比如:“左边是箭头朝左,右边是箭头朝右”)。
  3. 扩写:让另一个 AI 把这些描述改写得花样百出(比如把“箭头”改成“路标”、“手指”、“风向标”等,但核心规则不变)。
  4. 作画:让画图 AI(Flux)根据这些新描述,画出5400 张看起来像真实照片的新图片。
  5. 人工质检:人类专家像“阅卷老师”一样,把那些画得不像、或者画错规则的图片挑出来扔掉。

最终成果:他们得到了一个包含5400 道题的新数据集,叫 Bongard-RWR+。这就像是从“做 60 道题”变成了“做 5400 道题”,而且题目全是基于真实世界的复杂概念。

4. 实验结果:AI 的“智商”瓶颈

作者用目前世界上最先进的几种“看图说话”大模型(VLMs)来做这套题,结果让人大跌眼镜:

  • 粗线条还行:如果题目是“左边是大象,右边是小猫”(这种一眼就能看出来的),AI 能答对。
  • 细线条就懵了:一旦题目稍微变难,比如“左边的箭头是顺时针转的,右边是逆时针转的”,或者“左边的线条是弯曲的,右边是直的”,AI 的准确率就断崖式下跌,甚至不如随机猜。

这就好比
AI 能认出“这是一只狗”,但让它分辨“这只狗是向左看还是向右看”,或者“这只狗的耳朵是竖着还是耷拉着”,它就彻底晕了。它擅长识别物体,但不擅长理解物体之间的抽象逻辑关系

5. 几个有趣的发现

  • 黑白 vs 彩色:把题目变成黑白的,AI 反而有时候做得更好。这说明颜色有时候是“干扰项”,AI 容易被花哨的颜色带偏,而忽略了真正的逻辑规则。
  • 看图 vs 读文字:如果先把图片变成文字描述,再让 AI 读文字做题,AI 的表现会好一点点。这说明 AI 的“阅读理解”能力比“看图推理”能力稍微强那么一点点。
  • 题目越多越难:给 AI 看的例子越多(比如左边给 6 张图),它反而越容易混乱,不像人类那样能通过更多例子举一反三。

6. 总结与意义

这篇论文告诉我们:现在的 AI 虽然看起来无所不能,但在“抽象视觉推理”这个领域,它们还像个没长大的孩子。

  • 它们能看见(识别物体)。
  • 但它们不懂“为什么”(理解抽象规则)。

这个新的数据集(Bongard-RWR+)就像是一个**“照妖镜”**,专门用来测试 AI 到底有没有真正的逻辑思维能力,而不仅仅是死记硬背。它提醒我们,想要造出像人类一样聪明的 AI,光靠堆砌数据量还不够,还得让 AI 学会像人类一样去“思考”图像背后的逻辑。

一句话总结:作者用 AI 造了 5400 道高难度的“找规律”题,结果发现现在的顶级 AI 在这些题面前,依然像个只会认字却不会做逻辑题的小学生。

在收件箱中获取类似论文

根据您的兴趣定制的每日或每周摘要。Gist或技术摘要,使用您的语言。

试用 Digest →