COGITAO: A Visual Reasoning Framework To Study Compositionality & Generalization

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一个名为 COGITAO 的新工具，它的目的是给现在的 AI 模型“出难题”，看看它们到底是不是真的聪明，还是只是在死记硬背。

我们可以把这篇论文的核心思想想象成一场**“乐高积木大师”的考试**。

1. 核心问题：AI 真的懂“组合”吗？

人类非常擅长**“举一反三”**。

如果你教孩子认识“苹果”和“香蕉”，再教他“切”这个动作。
下次你让他“切香蕉”，他不需要你重新教，他立刻就能明白。
甚至如果你让他“切苹果”再“切香蕉”，他也能轻松组合这两个动作。

这就是**“组合性泛化”**（Compositional Generalization）：把学过的简单零件，灵活地拼成新的东西。

但是，现在的 AI 模型（比如大语言模型或图像识别模型）在这方面很笨。
它们更像是**“超级鹦鹉”**。如果你给它们看了一万张“切苹果”的图片，它们能切得非常好。但如果你突然让它们“切香蕉”，或者把“切”和“旋转”这两个动作组合起来，它们就懵了。它们往往只是记住了训练时的固定模式，一旦遇到没见过的组合，就彻底失效。

2. COGITAO 是什么？一个“乐高实验室”

为了解决这个问题，作者们发明了 COGITAO。你可以把它想象成一个无限生成的“乐高积木实验室”。

积木（对象）： 实验室里有成千上万种不同形状、颜色、大小的积木块（就像网格里的图形）。
动作（变换）： 有 28 种基本动作，比如“向左移”、“旋转 90 度”、“镜像翻转”、“变色”等。
规则（任务）： 实验室可以随机生成无数种任务。
- 简单任务： 把积木向左移。
- 复杂任务： 先旋转，再向左移，最后变色。
- 新任务： 把训练时没见过的“旋转 + 变色”组合给 AI 做。

它的厉害之处在于：
它可以生成数百万种独特的任务，而且可以精确控制难度。它不像以前的测试题那样只有几十道，而是像大海一样广阔，能精准地测试 AI 是“真懂”还是“死记硬背”。

3. 考试现场：AI 的表现如何？

作者们用这个实验室考了很多目前最先进的 AI 模型（包括各种 Transformer 架构，甚至是大模型）。

结果令人惊讶（也很扎心）：

在熟悉的题目里（训练集）： AI 们表现得像个天才，准确率高达 90% 以上。它们似乎学会了规则。
在陌生的组合里（测试集）： 一旦题目稍微变一下（比如把“旋转”和“变色”的顺序调换，或者把动作组合得更深），AI 们的准确率瞬间跌到接近 0%。

比喻一下：
这就好比你教了一个学生做数学题：

你教他 $1+1=2$ ， $2+2=4$ 。
考试时，你出 $3+3=6$ ，他答对了。
但你突然出 $1+2=3$ ，或者让他算 $1+1+1$ ，他却完全不会了，甚至开始胡编乱造。
这说明他并没有理解“加法”这个概念，他只是背下了 $1+1$ 和 $2+2$ 的答案。

4. 为什么这很重要？

这篇论文告诉我们一个残酷的现实：目前的 AI 大多还在玩“模式匹配”的游戏，而不是真正的“逻辑推理”。

现状： AI 擅长处理它见过的海量数据，但在面对全新的、需要逻辑组合的情况时，它们非常脆弱。
影响： 如果 AI 不能真正理解“组合”，它们就很难在现实世界中灵活应用。比如在机器人领域，如果机器人学会了“拿杯子”和“开门”，它应该能自动学会“拿杯子去开门”，而不是每次都要重新教一遍。

5. 总结与展望

COGITAO 就像一面照妖镜，它把 AI 的弱点（缺乏真正的组合推理能力）暴露无遗。

它的作用： 不是为了难为 AI，而是为了帮助科学家找到更好的方法，设计出真正像人类一样能“举一反三”的 AI 架构。
未来的路： 作者们希望，通过这种严格的测试，未来的 AI 能不再只是“死记硬背的鹦鹉”，而是变成真正的“乐高大师”，能够灵活地拆解和重组知识，解决从未见过的问题。

一句话总结：
现在的 AI 很聪明，但有点“偏科”，只会做它背过的题。COGITAO 就是那个专门出“新题”的老师，逼着 AI 学会真正的“举一反三”，而不是只会死记硬背。

Each language version is independently generated for its own context, not a direct translation.

1. 研究背景与问题 (Problem)

核心挑战：
组合泛化（Compositional Generalization）和系统性泛化（Systematic Generalization）是人类智能的核心特征。人类能够从少量“原子”概念（如动词或动作）中，轻松组合出指数级的新含义并应用于全新场景（例如，学会了"dax"，就能理解"dax twice"或"sing and dax"）。然而，当前的最先进机器学习模型（包括 Transformer 架构）在这一能力上仍存在显著缺陷。

现有基准的局限性：

语言领域： 已有如 SCAN、COGS 等基准，但视觉领域的进展滞后。
视觉领域： 现有的视觉基准（如 CLEVR, dSprites）通常缺乏灵活性，难以精确控制组合结构。它们往往将视觉复杂度与关系结构混淆，或者任务范围狭窄，无法像语言基准那样系统地隔离和测试组合能力。
ARC-AGI 的不足： 虽然 ARC-AGI 是抽象推理的重要基准，但其数据量小、任务方差大，难以进行科学的、可复现的归纳偏置（Inductive Bias）评估。

研究目标：
提出一个可控的、程序化的框架，用于在抽象视觉领域精确评估模型对**对象（Object-centric）**变换的组合与系统性泛化能力，从而揭示当前架构的根本性缺陷。

2. 方法论：COGITAO 框架 (Methodology)

COGITAO (COmpositional Generalization In Transformations And Objects) 是一个基于网格的、以对象为中心的程序化数据生成框架。

2.1 核心组件

对象 (Objects)： 从预生成的 23,000 个对象库中采样。对象具有不同的尺寸、形状、对称性、连通性和颜色模式（使用颜色 1-9，0 为背景）。对象之间互不重叠且保持清晰边界。
变换 (Transformations)： 定义了 28 种原子的对象变换（如平移、旋转 90 度、镜像、裁剪、填充、复制、改变颜色等）。
- 设计原则：
  1. 可组合性： 任意变换均可与其他变换组合。
  2. 非冗余性： 单个变换不能简单地被其他变换的组合所等价替代（避免退化情况）。
生成机制：
- 系统随机采样变换序列（深度 $k$ 可调）和对象参数（数量、大小、颜色等）。
- 在输入网格上放置对象，按顺序应用变换序列，生成输出网格。
- 任务规模： 理论上可生成 $28^k$ 种独特的任务规则。例如，深度为 5 时，可生成约 $1.7 \times 10^8$ 个独特任务。

2.2 评估维度

COGITAO 通过两个主要轴来评估泛化能力：

组合泛化 (Compositional Generalization, CompGen)：
- 测试模型能否将训练中学到的原子变换组合成未见过的新序列。
- 实验设置： 训练原子和深度 2 的组合，测试未见过的深度 2 组合（C1, C2）或更深度的组合（C3）。
环境泛化 (Environmental Generalization, EnvGen)：
- 测试模型在变换序列固定但环境参数变化时的表现。
- 实验设置： 改变对象数量（G1）、网格尺寸（G2）、对象尺寸（G3）、对象复杂度（G4）以及综合难度（G5）。

2.3 扩展性

RGB 渲染 (COGITAO-RGB)： 将网格任务转换为 128x128 的 RGB 图像，去除显式网格线索，模拟真实视觉场景，用于测试感知与交互的迁移能力。
序列框架 (Sequential-COGITAO)： 将单次输入 - 输出对扩展为包含中间状态的序列，适用于世界模型（World Models）研究。

3. 实验设置与模型 (Experiments & Models)

为了公平比较，所有模型参数量控制在约 100 万参数 左右，并从零开始训练（Supervised Learning）。

评估的模型架构：

Vanilla Transformer (Vanilla-TF)： 标准 Transformer，带绝对位置编码。
Grid Transformer (Grid-TF)： 针对网格推理优化的 ViT 变体（引入对象位置编码 OPE、PEMixer、Register Tokens 等归纳偏置）。
Pondering Looped Transformer (PL-TF)： 基于 PonderNet，具有循环结构和自适应计算时间（Adaptive Computation Time），旨在模拟多步推理过程。
LLaDA： 基于扩散机制的语言模型（Diffusion-based），在符号和逻辑任务上表现优异。
Baseline： ResNet（卷积神经网络）。

实验设计：

数据量： 训练集 100,000 个样本，测试集分为分布内（ID）和分布外（OOD）各 1,000 个样本。
输入形式： 对于 CompGen 实验，输入序列中会附加“任务嵌入（Task Embedding）”以告知模型需要执行的变换序列。

4. 主要结果 (Results)

实验结果揭示了当前模型在组合泛化上的普遍失败：

4.1 性能表现

分布内 (ID) 表现： 大多数模型（尤其是 Grid-TF 和 PL-TF）在训练分布内的任务上表现良好，准确率较高。
分布外 (OOD) 表现： 所有模型在 OOD 设置下均出现灾难性下降。
- CompGen (组合泛化)： 即使是表现最好的 PL-TF，在未见过的变换组合（如 C1, C2 的 OOD 测试）上，准确率也接近 0%。这表明模型只是记住了特定的变换序列，而非学会了组合规则。
- EnvGen (环境泛化)： 模型在对象数量增加或网格变大时表现尚可，但在对象复杂度（不对称、多色）增加时表现急剧下降。
- LLaDA 与 PL-TF： 在部分环境泛化任务（如 G1, G2）中表现相对较好，但在深层组合任务中依然失效。

4.2 失败模式分析

通过引入“模型顽固性（Model Stubbornness）”指标，研究发现模型存在两种主要失败模式：

ID 偏差 (ID Bias)： 即使 OOD 任务指定了新的变换顺序，模型仍倾向于输出训练期间见过的变换序列结果。
结构组合失败 (Structural Composition Failure)： 模型能够执行原子变换，但无法将原子变换分解并重新组合成新的序列。它们将序列视为整体模式进行匹配，而非模块化处理。

4.3 规模效应

数据规模： 增加训练数据量（从 10 万到 100 万）并未显著改善 OOD 泛化能力。
模型规模： 将模型参数从 1M 扩展到 25M，并未带来组合泛化能力的质的飞跃。
结论： 问题不在于数据量或模型大小，而在于架构本身的归纳偏置缺乏真正的组合推理能力。

5. 主要贡献 (Key Contributions)

COGITAO 框架： 提出了首个高度可控、程序化的对象中心视觉基准，能够生成数百万种独特任务，支持任意深度的组合变换，填补了视觉领域组合泛化基准的空白。
多维扩展： 不仅限于网格，还扩展到了 RGB 渲染（模拟真实视觉）和序列动作（世界模型研究），为从抽象推理到现实世界的迁移提供了桥梁。
基准数据集与复现性： 发布了基于不同配置的基准数据集，并提供了完整的代码和生成框架，确保实验的可复现性和可扩展性。
实证发现： 系统性地证明了当前最先进的架构（包括带有强归纳偏置的 Transformer 和扩散模型）在组合泛化任务上存在根本性缺陷，强调了从“模式匹配”向“结构化组合理解”转变的必要性。

6. 意义与展望 (Significance)

诊断工具： COGITAO 提供了一个纯净的“沙盒”，能够剥离视觉噪声，精确诊断模型在组合推理上的具体失败点（是记不住规则，还是无法重组规则）。
指导未来架构： 结果表明，单纯增加数据或模型规模无法解决组合泛化问题。未来的研究需要设计具有更强结构化归纳偏置（如符号推理、模块化网络、显式对象表示）的架构。
连接理论与现实： 通过 RGB 和序列扩展，COGITAO 将抽象的网格推理与机器人操作、世界模型等现实任务联系起来，为构建具备真正人类级泛化能力的 AI 系统指明了方向。

总结： 这篇论文通过构建 COGITAO 基准，有力地证明了当前深度学习模型在“组合性”这一核心智能特征上的缺失，并呼吁社区关注架构层面的根本性创新，而非仅仅依赖数据规模的堆砌。