Each language version is independently generated for its own context, not a direct translation.

这是一篇关于ARC-AGI-3的论文介绍。简单来说，这是人工智能领域的一个全新“考试”，用来测试 AI 是否真的变聪明了，还是只是在“死记硬背”。

为了让你更容易理解，我们可以把这篇论文想象成一场**“超级侦探训练营”**的招募说明。

1. 背景：为什么需要新考试？（以前的考试失效了）

想象一下，以前的 AI 考试（ARC-AGI-1 和 2）就像是做数学题。

以前的模式：给你几个例子（比如：红方块变蓝方块），让你猜规则，然后做新题。
问题：现在的 AI 太聪明了，它们学会了“作弊”。它们不是真的理解了规则，而是通过海量的训练数据，背下了这些题目的答案，或者通过“试错”蒙对了答案。就像学生死记硬背了题库，虽然分数很高，但换个新题型就傻眼了。
现状：到了 2026 年，最先进的 AI 在这些旧考试中，虽然能拿一点分，但离人类水平还差得远（人类能拿 100 分，AI 连 1% 都难）。

2. 新考试：ARC-AGI-3 是什么？

ARC-AGI-3 不再考“做题”，而是考**“玩新游戏”**。

场景设定：想象你被扔进了一个完全陌生的电子游戏世界（比如一个迷宫或一个从未见过的桌游）。
规则：
1. 没有说明书：没人告诉你怎么玩，也没人告诉你目标是什么（比如“找到宝藏”或“到达终点”）。
2. 没有语言：游戏里没有文字提示，只有图形和颜色。
3. 全靠摸索：你必须自己观察、尝试、犯错，然后自己猜出游戏规则和胜利条件。
核心挑战：这就像把你扔进一个陌生的森林，你不仅要认路，还要自己发明指南针，甚至要自己决定“我要去哪里”。

3. 怎么给 AI 打分？（不看结果，看效率）

以前的考试只看“做对了吗”，现在的考试看**“做得有多快、多省力”**。

比喻：
- 笨办法（低分）：像无头苍蝇一样乱撞，撞了 1000 次墙，最后运气好撞开了门。虽然门开了，但这不叫聪明。
- 聪明办法（高分）：观察了一下墙壁的纹理，推断出门在左边，只走了 5 步就找到了。
评分标准：
- 我们拿人类作为标尺。如果人类平均走 10 步通关，AI 也走 10 步，那就是满分。
- 如果 AI 走了 100 步才通关，分数就会变得极低（因为它是按“步数”的平方来惩罚的，走错一步代价很大）。
- 目标：AI 必须像人类一样，第一次接触这个游戏就能迅速理解并高效通关。

4. 考试的四大核心能力

这个考试主要测试 AI 的四种“侦探”能力：

探索（Exploration）：主动去试错，而不是被动等待信息。
建模（Modeling）：在脑子里构建一个“世界地图”，预测下一步会发生什么。
定目标（Goal-Setting）：自己发现“哦，原来那个闪烁的东西是目标”，而不是别人告诉它。
规划（Planning）：制定计划并执行，如果走错了能灵活调整。

5. 目前的测试结果：AI 还很菜

论文公布了一个惊人的数据：

人类：经过测试，100% 的人类参与者都能在规定时间内通关所有游戏。
顶尖 AI：截至 2026 年 3 月，全球最厉害的 AI 模型（如 Google、OpenAI 的最新版本），在这个新考试中的得分不到 1%。

这意味着什么？
这意味着现在的 AI 虽然能写诗、写代码、聊天，但在**“面对完全未知的新环境，像人一样灵活思考”这件事上，它们还非常笨拙。它们还是依赖“死记硬背”和“大量试错”，缺乏真正的直觉和举一反三**的能力。

6. 为什么要设计这么难的考试？

作者认为，真正的通用人工智能（AGI），不应该只是“百科全书”或“计算器”，而应该是一个**“万能学徒”**。

给它一个新工作，它不需要重新培训，就能像人类一样快速上手。
ARC-AGI-3 就是为了测试 AI 是否具备这种**“快速适应未知世界”**的能力。

总结

这篇论文介绍了一个全新的、更难的 AI 测试场。
它不再让 AI 做选择题，而是把它们扔进陌生的游戏里，看它们能不能自己悟出规则、自己定目标、并高效地解决问题。

目前的结论很扎心：虽然 AI 进步很快，但在“像人一样灵活思考”这件事上，我们还有很长的路要走。 现在的 AI 更像是个“超级学霸”，但还没成为一个“聪明的探险家”。

Each language version is independently generated for its own context, not a direct translation.

ARC-AGI-3 技术总结：面向前沿代理智能的新挑战

1. 问题背景 (Problem)

随着人工智能（AI）在静态任务（如代码生成、数学推理）上的进步，现有的基准测试（如 ARC-AGI-1 和 2）逐渐暴露出局限性。主要问题包括：

静态任务的过拟合风险：前沿的大推理模型（LRMs）可以通过在训练数据中“记忆”或生成大量类似任务来绕过 ARC-AGI-1/2 的测试，导致分数虚高，无法真实反映泛化能力。
缺乏对“代理智能”（Agentic Intelligence）的评估：现有基准主要测试从静态输入输出对推断规则的能力，缺乏对主动探索、自主目标设定、环境建模以及在未知环境中规划行动能力的评估。
人类与 AI 的差距：截至 2026 年 3 月，尽管人类能 100% 解决 ARC-AGI-3 的所有环境，但最先进的前沿 AI 系统得分仍低于 1%。

ARC-AGI-3 旨在解决上述问题，通过引入交互式、回合制、基于核心知识先验（Core Knowledge Priors）的全新环境，评估 AI 在完全未知、无指令指导下的自适应效率和通用智能水平。

2. 方法论 (Methodology)

2.1 核心设计理念

ARC-AGI-3 将智能定义为效率（Efficiency），特别是行动效率（Action Efficiency）。系统不仅需要完成任务，还需要以最少步数（Turns）完成，从而最小化数据、时间和风险成本。

交互形式：基于回合制的 64x64 网格环境，每个单元格有 16 种颜色。
核心能力评估：
1. 探索 (Exploration)：主动与环境互动以获取信息，而非被动接收。
2. 建模 (Modeling)：将观察转化为可泛化的世界模型，预测未来状态。
3. 目标设定 (Goal-Setting)：在无明确指令下，自主推断“获胜条件”或“有趣状态”。
4. 规划与执行 (Planning & Execution)：制定行动路径并根据反馈修正。
约束条件：
- 仅使用核心知识先验（如物体性、基本几何、拓扑、物理直觉、代理性），禁止语言、文化符号或外部知识。
- 无指令：Agent 从未被告知目标或规则，必须自主推断。
- 新颖性：每个环境必须是全新的，且与现有游戏及之前的 ARC 环境显著不同。

2.2 环境构建与验证

开发流程：建立了内部游戏工作室，采用“规范 - 内部测试 - 外部人类测试 - 完成”的流水线。
技术实现：使用自定义 Python 引擎（而非 Unity），达到 1000 FPS 的模拟速度。
自动化验证：
- 确定性测试：运行随机策略（最多 100 万步），确保非教程关卡无法通过运气获胜（胜率 < 1/10,000）。
- 状态空间探索：构建有向图表示状态空间，分析循环、可达性和随机策略的获胜概率。
人类校准：每个环境由至少 10 名未受训的普通人类测试。只有当至少 2 人能独立在首次接触时完成所有关卡（通常在 20 分钟内），该环境才被纳入基准。

2.3 数据集构成

公共演示集 (Public Demo)：25 个环境，用于展示格式和基础机制，难度较低，作为社区入口。
半私有集 (Semi-Private)：55 个环境，用于通过外部 API 测试前沿模型（存在轻微数据泄露风险）。
全私有集 (Fully Private)：55 个环境，用于 ARC Prize 官方竞赛，严格保密，作为最终评估标准。

2.4 评分体系 (RHAE)

采用相对人类行动效率 (Relative Human Action Efficiency, RHAE) 作为核心指标：

基准定义：以人类表现中的第二优解（Second-best human）作为基准线（ $h_{l,e}$ ），而非最优解，以消除异常值。
计算公式：
- 单关卡效率： $S_{l,e} = \min(1.0, \frac{h_{l,e}}{a_{l,e}})^2$ 。其中 $a_{l,e}$ 是 AI 的行动数。
- 平方惩罚：采用幂律（Power-law）而非线性，对低效行为施加更重惩罚（例如，人类 10 步，AI 100 步，得分仅为 1%）。
- 加权平均：环境内不同关卡按层级加权（后期关卡权重更高），最后对所有环境取平均。
截断机制：为控制成本，若 AI 行动数超过人类基准的 5 倍，则强制终止并记录低分。

2.5 排行榜策略

官方排行榜：仅评估通用 API下的模型表现，禁止使用针对 ARC-AGI-3 定制的“脚手架”（Harness）或特定工具。旨在衡量模型在未知领域的原生泛化能力。
社区排行榜：允许使用自定义 Harness 和工具，用于研究自动化和特定任务优化，但不代表 AGI 进展。

3. 关键贡献 (Key Contributions)

首个交互式代理智能基准：从静态模式识别转向动态、多步、无指令的交互式推理，填补了评估“未知未知（Unknown Unknowns）”适应能力的空白。
以效率为核心的评估框架：提出 RHAE 指标，将行动步数与人类基准对比，并通过平方惩罚机制区分“勉强完成”与“高效解决”。
严格的防过拟合设计：
- 通过私有数据集和 OOD（分布外）设计，防止模型通过记忆或合成数据作弊。
- 通过“无指令”和“自主目标推断”要求，迫使模型进行真正的推理而非模式匹配。
人类校准与验证流程：建立了严格的“人类可解”标准，确保基准的合理性，并提供了详细的人类行为基线数据（如最优解、第二优解、行动分布）。
开源与透明：提供了环境引擎、验证工具、公共数据集以及详细的评分代码，推动社区研究。

4. 实验结果 (Results)

人类表现：人类测试者（无训练）在首次接触环境下，平均能在 7.4 分钟内解决问题，且 100% 的测试环境对人类是可解的。
AI 表现（截至 2026 年 3 月）：
- Gemini 3.1 Pro Preview: 0.37%
- GPT 5.4 (High): 0.26%
- Opus 4.6 (Max): 0.25%
- Grok-4.20: 0.00%
- 结论：所有前沿模型在官方排行榜（无定制 Harness）上得分均低于 1%，表明当前 AI 在自主探索、目标推断和高效规划方面与人类存在巨大差距。
预发布竞赛结果：在预览赛中，使用强化学习和状态图搜索的专用 Agent（如 StochasticGoose）在公共集上取得了约 12.58% 的分数，但在私有集上表现大幅下降，验证了泛化能力的不足。

5. 意义与影响 (Significance)

重新定义 AGI 评估：ARC-AGI-3 标志着 AI 评估从“静态知识检索”向“动态技能习得效率”的转变。它强调智能不仅仅是解决问题，而是如何高效地学习解决从未见过的问题。
揭示当前 AI 的瓶颈：结果证明，尽管 LRM（大推理模型）在特定领域（如编程）表现出色，但在缺乏领域知识和明确指令的开放环境中，其泛化能力和探索策略极其薄弱。
防止“捷径”学习：通过引入交互式环境和严格的 OOD 设计，ARC-AGI-3 旨在成为未来几年内难以被过拟合的“硬基准”，迫使研究者开发真正的通用推理架构，而非依赖数据合成或特定提示工程。
推动代理智能研究：为研究自主目标设定、长期规划、上下文管理和不确定性下的决策提供了标准化的测试平台。

总结：ARC-AGI-3 不仅是一个新的基准测试，更是对当前 AI 能力边界的一次严峻挑战。它明确指出，要实现真正的通用人工智能（AGI），系统必须具备在未知环境中自主探索、建模和高效规划的能力，而不仅仅是依赖庞大的训练数据或特定的任务微调。截至 2026 年初，这一目标尚未被任何现有 AI 系统达成。

ARC-AGI-3: A New Challenge for Frontier Agentic Intelligence