COGITAO: A Visual Reasoning Framework To Study Compositionality & Generalization

本文介绍了 COGITAO,这是一个受 ARC-AGI 启发的模块化数据生成框架与基准测试,旨在通过构建包含 28 种可组合变换的数百万种独特视觉任务,系统性地研究并揭示当前最先进视觉模型在概念组合与新场景泛化方面的局限性。

Yassine Taoudi-Benchekroun, Klim Troyan, Pascal Sager, Stefan Gerber, Lukas Tuggener, Benjamin Grewe

发布于 2026-02-19
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一个名为 COGITAO 的新工具,它的目的是给现在的 AI 模型“出难题”,看看它们到底是不是真的聪明,还是只是在死记硬背。

我们可以把这篇论文的核心思想想象成一场**“乐高积木大师”的考试**。

1. 核心问题:AI 真的懂“组合”吗?

人类非常擅长**“举一反三”**。

  • 如果你教孩子认识“苹果”和“香蕉”,再教他“切”这个动作。
  • 下次你让他“切香蕉”,他不需要你重新教,他立刻就能明白。
  • 甚至如果你让他“切苹果”再“切香蕉”,他也能轻松组合这两个动作。

这就是**“组合性泛化”**(Compositional Generalization):把学过的简单零件,灵活地拼成新的东西。

但是,现在的 AI 模型(比如大语言模型或图像识别模型)在这方面很笨。
它们更像是**“超级鹦鹉”**。如果你给它们看了一万张“切苹果”的图片,它们能切得非常好。但如果你突然让它们“切香蕉”,或者把“切”和“旋转”这两个动作组合起来,它们就懵了。它们往往只是记住了训练时的固定模式,一旦遇到没见过的组合,就彻底失效。

2. COGITAO 是什么?一个“乐高实验室”

为了解决这个问题,作者们发明了 COGITAO。你可以把它想象成一个无限生成的“乐高积木实验室”

  • 积木(对象): 实验室里有成千上万种不同形状、颜色、大小的积木块(就像网格里的图形)。
  • 动作(变换): 有 28 种基本动作,比如“向左移”、“旋转 90 度”、“镜像翻转”、“变色”等。
  • 规则(任务): 实验室可以随机生成无数种任务。
    • 简单任务: 把积木向左移。
    • 复杂任务: 先旋转,再向左移,最后变色。
    • 新任务: 把训练时没见过的“旋转 + 变色”组合给 AI 做。

它的厉害之处在于:
它可以生成数百万种独特的任务,而且可以精确控制难度。它不像以前的测试题那样只有几十道,而是像大海一样广阔,能精准地测试 AI 是“真懂”还是“死记硬背”。

3. 考试现场:AI 的表现如何?

作者们用这个实验室考了很多目前最先进的 AI 模型(包括各种 Transformer 架构,甚至是大模型)。

结果令人惊讶(也很扎心):

  • 在熟悉的题目里(训练集): AI 们表现得像个天才,准确率高达 90% 以上。它们似乎学会了规则。
  • 在陌生的组合里(测试集): 一旦题目稍微变一下(比如把“旋转”和“变色”的顺序调换,或者把动作组合得更深),AI 们的准确率瞬间跌到接近 0%

比喻一下:
这就好比你教了一个学生做数学题:

  • 你教他 1+1=21+1=22+2=42+2=4
  • 考试时,你出 3+3=63+3=6,他答对了。
  • 但你突然出 1+2=31+2=3,或者让他算 1+1+11+1+1,他却完全不会了,甚至开始胡编乱造。
  • 这说明他并没有理解“加法”这个概念,他只是背下了 1+11+12+22+2 的答案。

4. 为什么这很重要?

这篇论文告诉我们一个残酷的现实:目前的 AI 大多还在玩“模式匹配”的游戏,而不是真正的“逻辑推理”。

  • 现状: AI 擅长处理它见过的海量数据,但在面对全新的、需要逻辑组合的情况时,它们非常脆弱。
  • 影响: 如果 AI 不能真正理解“组合”,它们就很难在现实世界中灵活应用。比如在机器人领域,如果机器人学会了“拿杯子”和“开门”,它应该能自动学会“拿杯子去开门”,而不是每次都要重新教一遍。

5. 总结与展望

COGITAO 就像一面照妖镜,它把 AI 的弱点(缺乏真正的组合推理能力)暴露无遗。

  • 它的作用: 不是为了难为 AI,而是为了帮助科学家找到更好的方法,设计出真正像人类一样能“举一反三”的 AI 架构。
  • 未来的路: 作者们希望,通过这种严格的测试,未来的 AI 能不再只是“死记硬背的鹦鹉”,而是变成真正的“乐高大师”,能够灵活地拆解和重组知识,解决从未见过的问题。

一句话总结:
现在的 AI 很聪明,但有点“偏科”,只会做它背过的题。COGITAO 就是那个专门出“新题”的老师,逼着 AI 学会真正的“举一反三”,而不是只会死记硬背。

在收件箱中获取类似论文

根据您的兴趣定制的每日或每周摘要。Gist或技术摘要,使用您的语言。

试用 Digest →