ARC-AGI-2 Technical Report

该论文提出了一种结合神经推理、结构感知先验与在线任务适应的 Transformer 系统,通过紧凑的任务编码、基于群对称性的数据增强、测试时训练(TTT)以及对称性感知解码,显著提升了 ARC 任务的泛化能力并缩小了与人类水平的差距。

Wallyson Lemes de Oliveira, Mekhron Bobokhonov, Matteo Caorsi, Aldo Podestà, Gabriele Beltramo, Luca Crosato, Matteo Bonotto, Federica Cecchetto, Hadrien Espic, Dan Titus Salajan, Stefan Taga, Luca Pana, Joe Carthy

发布于 2026-03-10
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇技术报告讲述了一群研究人员如何教人工智能(AI)像人类一样“动脑筋”解决谜题的故事。他们参加了一个名为 ARC-AGI 的顶级智力挑战,这个挑战的核心不是考谁背的数据多,而是考谁能在只看到几个例子的情况下,迅速理解背后的逻辑规则

为了通俗地解释这篇论文,我们可以把整个过程想象成培养一个超级侦探的过程。

1. 挑战是什么?(ARC-AGI 谜题)

想象一下,你给侦探看三张图:

  • 图 A:一个红色的方块在左上角。
  • 图 B:一个红色的方块在右下角。
  • 图 C:一个红色的方块在中间。
    然后你问:“如果我把一个蓝色的圆圈放在左上角,它会变成什么样?”

传统的 AI 可能会说:“我看过一亿张图,红色的方块通常都在左上角,所以我也放左上角。”但这在 ARC 里行不通,因为 ARC 的规则千变万化(可能是旋转、可能是复制、可能是变色)。
ARC 的要求是:你必须从这寥寥几个例子中,瞬间悟出“原来规则是‘镜像翻转’",然后应用到新问题上。

2. 他们的“侦探”是怎么训练的?(核心策略)

研究团队没有让 AI 死记硬背,而是用了四招“独门秘籍”:

第一招:换个角度看世界(数据增强与遍历)

  • 比喻:就像你教孩子认“猫”,不能只让他看正脸。你得让他看侧脸、倒着看、甚至把猫画在格子里让他按“蛇形路线”读出来。
  • 做法:他们把同一个谜题,用不同的方式“翻译”给 AI 看。比如,把网格里的像素点按“从左到右”读一遍,再按“像蛇一样蜿蜒”读一遍。
  • 效果:这强迫 AI 不去死记硬背“像素的位置”,而是去理解“物体之间的关系”。就像你不管猫怎么转,你都知道它是猫。

第二招:考前突击(测试时训练 TTT)

  • 比喻:想象你要参加一场数学竞赛。传统的 AI 是背熟了所有公式进考场。而这个 AI 是在考场拿到试卷的那一刻,花几分钟快速复习一下这道题特有的规律
  • 做法:在正式解题前,AI 会利用题目给出的那几个例子,进行一场极短时间的“微调”(就像给大脑加个临时补丁)。它不需要重新学习所有知识,只是针对这道题的特定逻辑,快速调整一下自己的“思维模式”。
  • 效果:这让 AI 能灵活应对从未见过的怪题,而不是只会做老题。

第三招:多角度验证(对称性评分)

  • 比喻:当你不确定一个答案对不对时,你会把它转个圈看看,或者照镜子看看。如果转了 90 度、翻了个面,答案依然讲得通,那它大概率是对的。
  • 做法:AI 会生成很多个可能的答案。然后,它把每个答案都旋转、翻转、镜像,再让 AI 自己“看”一遍。如果一个答案在旋转后依然逻辑自洽,它的得分就高;如果一转就乱套,得分就低。
  • 效果:这就像给答案加了“防伪标签”,排除了那些碰巧猜对但逻辑不通的选项。

第四招:请个“守门员”(符号过滤)

  • 比喻:就像足球比赛,守门员会先把那些明显越位、手球的球挡出去,不让它们进入球门。
  • 做法:在 AI 给出答案后,他们用一些简单的数学规则(比如:颜色不能凭空消失、格子大小要匹配)来快速过滤掉那些明显荒谬的答案。
  • 效果:大大减少了 AI 犯低级错误的机会。

3. 他们用了什么“大脑”?(模型架构)

他们选用了 LongT5 这个模型。

  • 比喻:普通的 AI 大脑像是一个短视的人,记不住太长的故事。而 LongT5 是一个拥有超长记忆力的阅读者,它能一口气读完几千个字符的“谜题描述”,并且能记住开头和结尾之间的联系。
  • 优化:为了让这个“大脑”跑得更快,他们给大脑装上了“涡轮增压”(FlashAttention),让它处理长句子时不再卡顿。

4. 结果如何?

  • 成绩:这套组合拳打下来,他们的 AI 在 Kaggle 竞赛(一个全球 AI 大比武)中取得了非常亮眼的成绩,从最初的 3.75% 一路飙升到 27% 左右(在极其有限的计算资源下)。
  • 意义:这证明了,与其让 AI 变成“死记硬背的学霸”,不如教它如何思考、如何多角度观察、以及如何快速适应新环境

总结

这篇论文的核心思想是:真正的智能不是靠“量”堆出来的,而是靠“质”和“方法”进化出来的。

他们通过让 AI多角度看问题(数据增强)、临场快速学习(测试时训练)、自我验证(对称性评分)和遵守基本逻辑(符号过滤),成功让 AI 在解决抽象谜题时,展现出了更接近人类的“举一反三”的能力。这不仅是 ARC 竞赛的胜利,也是通往更通用人工智能(AGI)的重要一步。