Each language version is independently generated for its own context, not a direct translation.

ARC-AGI-3：AI に「未知の世界」で生き抜く力を試す新しいテスト

2026 年 3 月、AI 研究の分野に新しい挑戦が発表されました。それが**「ARC-AGI-3」**です。

これまでの AI は、大量のデータを「暗記」して正解を導き出すのが得意でした。しかし、この新しいテストは、**「初めて見る未知のルールの中で、どうやって生き残り、目的を達成するか」**という、人間のような「知恵」や「適応力」を測ることを目指しています。

この論文を、難しい専門用語を使わず、身近な例え話で解説しましょう。

1. 以前のテスト（ARC-AGI-1, 2）との違い：パズルから「冒険」へ

以前のテスト（1 と 2）：
これは「パズル」のようなものでした。
- 例え： 「赤い四角が青い四角に変わりました。じゃあ、緑の丸はどうなる？」という問題です。
- 特徴： 答えはすでに決まっていて、AI はパターンを当てはめるだけで解けました。AI はここで少し成長しましたが、まだ「暗記」や「推測」の域を出ていませんでした。
新しいテスト（ARC-AGI-3）：
これは「未知の冒険ゲーム」です。
- 例え： 突然、見知らぬ森に放り出された状態です。
  - 「ゴールはどこ？」と聞かれません。
  - 「どう動けばいい？」という説明書もありません。
  - 最初は「木に触ると音がする」「川を渡ると止まる」といったルールを自分で発見し、「何のためにここにいるのか（目的）」を自分で見つけ出し、「どうすればゴールにたどり着けるか」を計画して実行しなければなりません。

要するに：
以前の AI は「教科書を見てテストを受ける」のが得意でしたが、ARC-AGI-3 は「教科書も先生もいない状態で、新しい国で生き延びる」力を試しています。

2. 4 つの重要な能力：AI に求められる「冒険者」の資質

このテストでは、AI に以下の 4 つの能力が求められます。

探索（Exploration）：
- 例え： 暗闇の洞窟に入ったら、まず壁を触ってみたり、足音を聞いたりして「ここがどういう場所か」を調べる行為です。AI は受動的に待つのではなく、自ら情報を集めに行かなければなりません。
モデル化（Modeling）：
- 例え： 「あ、この川は渡ると溺れるんだ」「この箱は押すと壊れるんだ」という**「世界の法則」を頭の中で理解し、予測する**ことです。
目標設定（Goal-Setting）：
- 例え： 「ゴールはここだ！」と誰かに言われなくても、「あ、あの光っている宝石がゴールっぽいな」と自分で「何を目指すべきか」を決めることです。これが最も難しい部分です。
計画と実行（Planning & Execution）：
- 例え： 「まず左に行き、次にジャンプして、最後にボタンを押す」という作戦を立てて実行し、失敗したら「あ、ダメだった。次は右に行こう」と臨機応変に修正することです。

3. 採点方法：「効率性」がすべて

このテストの面白い点は、**「正解したかどうか」だけでなく、「どれだけ無駄な動きをせず、賢く解けたか」**を重視する点です。

例え：
- AI の動き： 迷路の壁を 100 回ぶつけて、偶然ゴールにたどり着いた。
- 人間の動き： 壁の配置を見て、最短ルートを一瞬で見つけ、5 歩でゴールした。
- 結果： どちらもゴールしましたが、AI は「非効率（バカ）」とみなされ、低い評価になります。

スコア（RHAE）：
「人間が 2 番目に良い成績（無駄のない動き）で解いた回数」を基準にします。AI がその回数と同じか、それ以下で解ければ 100 点。100 回もかかれば 1% 以下の評価になります。
**「いかに人間のように賢く、無駄なく動くか」**が、このテストの核心です。

4. 現在の AI の実力：まだ「赤ちゃん」レベル

2026 年 3 月時点での結果は、少しショッキングです。

人間： 100% の問題を、誰でも（訓練なしで）解けます。平均して 20 分以内です。
最先端の AI： 1% 未満しか解けません。

なぜ AI は負けるのか？
現在の AI は「知識の引き出し」は豊富ですが、「引き出しがない新しい状況」に直面すると、パニックを起こしたり、無意味な動きを繰り返したりします。

例え： 天才的な料理人が、レシピも食材も持たずに「新しい料理を作れ」と言われたら、どうなるでしょうか？料理人は「冷蔵庫の中身を見て、何ができるか考え、試行錯誤して料理を作る」ことができます。しかし、現在の AI は「レシピ（データ）がないと動けない」状態なのです。

また、AI が「テストの答えを覚えている」こと（過学習）を防ぐため、テスト問題は**「インターネットにも存在しない、完全に新しいゲーム」**として設計されています。

5. このテストの目的：本当の「汎用人工知能（AGI）」への道

このテストの最終目標は、**「人間と同じように、どんな新しいことでも、人間と同じくらい速く、上手に学べる AI」**を作ることです。

これまでの AI： 「プログラミングは得意、将棋は得意」というように、特定の分野に特化していました。
目指す AI（AGI）： 「初めて見るゲームでも、ルールを学び、攻略法を考え、勝つことができる」ような、汎用的な知能です。

ARC-AGI-3 は、その「汎用的な知能」がどこまで進化しているかを測る、**「究極の適性試験」**なのです。

まとめ

ARC-AGI-3は、AI に「教科書なしで未知の世界を冒険し、ルールを見抜き、目標を見つけ、最短ルートでゴールする」力を試すテストです。

人間： すぐに適応してクリアします。
現在の AI： 右往左往して、ほとんどクリアできません。

この大きな差を埋めることが、次の世代の AI（本当に人間のように考える AI）を作るための鍵となります。2026 年現在、その壁は依然として高く、AI 研究者たちは「いかに AI に『知恵』を持たせるか」という新たな挑戦に挑んでいます。

Each language version is independently generated for its own context, not a direct translation.

ARC-AGI-3: 自律型知能（Agentic Intelligence）への新たな挑戦

技術的サマリー（日本語）

本論文は、2026 年 3 月に ARC Prize Foundation によって発表された、ARC-AGI-3 という新しいベンチマークの設計と評価手法を詳述したものです。前作（ARC-AGI-1, 2）が静的なタスクにおける推論能力を測定したのに対し、ARC-AGI-3 は**「自律型知能（Agentic Intelligence）」**に焦点を当て、エージェントが明示的な指示なしに環境を探査し、目標を推測し、行動を計画する能力を評価します。

以下に、問題定義、手法、主要な貢献、結果、そしてその意義について詳細をまとめます。

1. 問題定義と背景

既存の限界: 従来の大規模言語モデル（LLM）や推論モデル（LRM）は、事前学習データに含まれる知識や、特定のドメインにおける検証可能なフィードバックがある場合（例：コーディング）には高い性能を発揮します。しかし、「未知の未知（unknown unknowns）」、すなわち事前知識が一切なく、目標も指示も与えられない新規環境への適応能力においては、依然として人間レベルに遠く及びません。
過学習と記憶の罠: 前回のベンチマーク（ARC-AGI-1, 2）は、静的なデータセットとして設計されましたが、大規模な合成データ生成やテスト時適応（Test-time adaptation）の進化により、モデルがベンチマーク自体を「記憶」したり、統計的なショートカットを学習したりするリスクが高まりました。
解決策: 真の汎用人工知能（AGI）の測定には、インタラクティブでターンベースの環境において、エージェントが能動的に情報を収集し、内部モデルを構築し、効率的に行動する能力を評価する必要があります。

2. 手法とベンチマーク設計

2.1 環境の構造

インタラクティブ・ターンベース: 各環境は複数のレベル（ステージ）から構成され、エージェントは 64x64 グリッド（16 色）を観測し、1 ターンに 1 回のアクション（移動、選択、元に戻すなど）を実行します。リアルタイム反応ではなく、オフライン推論を重視しています。
コア知識（Core Knowledge）のみに依存: 言語、文化的記号、既存のゲームの知識は一切使用されません。物体性、幾何学、物理法則（重力、衝突など）、エージェント性といった人間が生まれながらに持つ直感的な知識（Core Knowledge priors）のみを前提としています。
目標の非明示: エージェントは「勝つ条件」や「目的」を事前に知らされません。環境のメカニクスと勝利条件を自ら推測（Goal-Setting）する必要があります。

2.2 評価指標：行動効率（Action Efficiency）

知能を「タスクの達成」ではなく**「リソース効率」**として定義します。

スコアリング手法 (RHAE): 「相対的人間行動効率（Relative Human Action Efficiency）」を用います。
- 基準: 各レベルにおいて、2 番目に優れた人間の行動回数（Human Baseline）を基準とします。
- 計算: AI の行動回数 ( $a$ ) と人間の基準 ( $h$ ) の比率を二乗し、効率性を評価します。
  $S = \min\left(1.0, \frac{h}{a}\right)^2$
- 重み付け: 後半のレベル（より複雑な推論を要する）ほどスコアへの重みが大きくなります。
目的: 無駄な試行錯誤（ブラインド・フォース）を罰し、環境モデルを素早く構築し、最小の行動で目標を達成する能力を重視します。

2.3 データセット構成

公開デモセット (25 環境): 形式の理解とコミュニティへの入り口。
セミプライベートセット (55 環境): 外部 API を通じたモデル評価用。
フルプライベートセット (55 環境): 公式コンペティション用。最も厳格な一般化能力を問うデータで、公開セットとは分布が異なり（OOD）、過学習を防ぎます。
人間による校正: 全ての環境は、訓練を受けていない人間が 10 人中 2 人以上で 100% 解決可能であることを確認済みです。

3. 主要な貢献

自律型知能のベンチマーク化: 探索、モデリング、目標設定、計画・実行という 4 つの自律型知能の核心機能を統合的に評価する初のフレームワークを提供しました。
効率性に基づくスコアリング: 単なる正解率ではなく、「人間と同等の効率でタスクを完了できるか」を定量化する RHAE 指標を提案しました。
過学習への耐性強化: 静的なデータセットからインタラクティブな環境へ移行し、公開データとテストデータの分布を意図的にずらす（OOD 設計）ことで、記憶やショートカットによるスコアアップを困難にしました。
厳格な人間ベースライン: 環境設計の全段階で人間によるテスト（サンフランシスコのテストセンター等）を行い、人間が解決可能かつ合理的な難易度であることを保証するプロセスを確立しました。

4. 結果

人間の性能: 人間は、環境を初めて見た状態で、平均して 7.4 分（成功例は 8.1 分）以内に全てのレベルを解決可能です。
AI の性能（2026 年 3 月時点）: 最先端のモデル（Gemini 3.1, GPT-5, Opus 4.6 など）は、フルプライベートセットにおいて1% 未満のスコアしか達成できませんでした。
- 例：Gemini 3.1 Pro Preview (0.37%), GPT 5.4 (0.26%), Opus 4.6 (0.25%)。
ハルネス（外部支援）の影響: 特定の環境に特化した高度な「ハルネス（ツールや戦略）」を使用すれば、公開セットでは高いスコアが出ますが、 unseen な環境やフルプライベートセットでは性能が劇的に低下することが確認されました。これは、現在の AI が「汎用的な適応」ではなく「特定タスクへの最適化」に依存していることを示しています。

5. 意義と結論

AGI への残差ギャップの可視化: ARC-AGI-3 は、現在の AI が「知識の再利用」は得意だが、「未知の環境への適応と効率的な学習」において人間と決定的な差があることを浮き彫りにしました。
研究の方向転換: 単なるデータ量や計算量の増大（スケーリング）だけでなく、探索戦略、仮説の修正、不確実性下での効率的な計画といった、**「学習効率」**そのものを研究する必要性を提起しています。
将来展望: 2026 年の ARC プライズは、この新しいベンチマーク（ARC-AGI-3）を主軸に据え、真の汎用人工知能の到達点を測定するためのプラットフォームとして機能します。

結論として、ARC-AGI-3 は、AI が「指示されたことをやる」段階から、「何をするべきか自ら見出し、効率的に実行する」段階へ進化するための、2026 年現在で最も厳格かつ意味のある評価基準です。

ARC-AGI-3: A New Challenge for Frontier Agentic Intelligence