ARC-AGI-3: A New Challenge for Frontier Agentic Intelligence

2026 年 3 月時点で 1% 未満のスコアしか達成できていない最先端 AI に対し、人間は 100% の解決率を示す、言語や外部知識を排した純粋な汎用適応効率を評価する新しいインタラクティブベンチマーク「ARC-AGI-3」の設計と検証手法が本論文で発表されています。

ARC Prize Foundation

公開日 2026-03-27
📖 1 分で読めます☕ さくっと読める

Each language version is independently generated for its own context, not a direct translation.

ARC-AGI-3:AI に「未知の世界」で生き抜く力を試す新しいテスト

2026 年 3 月、AI 研究の分野に新しい挑戦が発表されました。それが**「ARC-AGI-3」**です。

これまでの AI は、大量のデータを「暗記」して正解を導き出すのが得意でした。しかし、この新しいテストは、**「初めて見る未知のルールの中で、どうやって生き残り、目的を達成するか」**という、人間のような「知恵」や「適応力」を測ることを目指しています。

この論文を、難しい専門用語を使わず、身近な例え話で解説しましょう。


1. 以前のテスト(ARC-AGI-1, 2)との違い:パズルから「冒険」へ

  • 以前のテスト(1 と 2):
    これは「パズル」のようなものでした。

    • 例え: 「赤い四角が青い四角に変わりました。じゃあ、緑の丸はどうなる?」という問題です。
    • 特徴: 答えはすでに決まっていて、AI はパターンを当てはめるだけで解けました。AI はここで少し成長しましたが、まだ「暗記」や「推測」の域を出ていませんでした。
  • 新しいテスト(ARC-AGI-3):
    これは「未知の冒険ゲーム」です。

    • 例え: 突然、見知らぬ森に放り出された状態です。
      • 「ゴールはどこ?」と聞かれません。
      • 「どう動けばいい?」という説明書もありません。
      • 最初は「木に触ると音がする」「川を渡ると止まる」といったルールを自分で発見し、「何のためにここにいるのか(目的)」を自分で見つけ出し、「どうすればゴールにたどり着けるか」を計画して実行しなければなりません。

要するに:
以前の AI は「教科書を見てテストを受ける」のが得意でしたが、ARC-AGI-3 は「教科書も先生もいない状態で、新しい国で生き延びる」力を試しています。


2. 4 つの重要な能力:AI に求められる「冒険者」の資質

このテストでは、AI に以下の 4 つの能力が求められます。

  1. 探索(Exploration):
    • 例え: 暗闇の洞窟に入ったら、まず壁を触ってみたり、足音を聞いたりして「ここがどういう場所か」を調べる行為です。AI は受動的に待つのではなく、自ら情報を集めに行かなければなりません。
  2. モデル化(Modeling):
    • 例え: 「あ、この川は渡ると溺れるんだ」「この箱は押すと壊れるんだ」という**「世界の法則」を頭の中で理解し、予測する**ことです。
  3. 目標設定(Goal-Setting):
    • 例え: 「ゴールはここだ!」と誰かに言われなくても、「あ、あの光っている宝石がゴールっぽいな」と自分で「何を目指すべきか」を決めることです。これが最も難しい部分です。
  4. 計画と実行(Planning & Execution):
    • 例え: 「まず左に行き、次にジャンプして、最後にボタンを押す」という作戦を立てて実行し、失敗したら「あ、ダメだった。次は右に行こう」と臨機応変に修正することです。

3. 採点方法:「効率性」がすべて

このテストの面白い点は、**「正解したかどうか」だけでなく、「どれだけ無駄な動きをせず、賢く解けたか」**を重視する点です。

  • 例え:
    • AI の動き: 迷路の壁を 100 回ぶつけて、偶然ゴールにたどり着いた。
    • 人間の動き: 壁の配置を見て、最短ルートを一瞬で見つけ、5 歩でゴールした。
    • 結果: どちらもゴールしましたが、AI は「非効率(バカ)」とみなされ、低い評価になります。

スコア(RHAE):
「人間が 2 番目に良い成績(無駄のない動き)で解いた回数」を基準にします。AI がその回数と同じか、それ以下で解ければ 100 点。100 回もかかれば 1% 以下の評価になります。
**「いかに人間のように賢く、無駄なく動くか」**が、このテストの核心です。


4. 現在の AI の実力:まだ「赤ちゃん」レベル

2026 年 3 月時点での結果は、少しショッキングです。

  • 人間: 100% の問題を、誰でも(訓練なしで)解けます。平均して 20 分以内です。
  • 最先端の AI: 1% 未満しか解けません。

なぜ AI は負けるのか?
現在の AI は「知識の引き出し」は豊富ですが、「引き出しがない新しい状況」に直面すると、パニックを起こしたり、無意味な動きを繰り返したりします。

  • 例え: 天才的な料理人が、レシピも食材も持たずに「新しい料理を作れ」と言われたら、どうなるでしょうか? 料理人は「冷蔵庫の中身を見て、何ができるか考え、試行錯誤して料理を作る」ことができます。しかし、現在の AI は「レシピ(データ)がないと動けない」状態なのです。

また、AI が「テストの答えを覚えている」こと(過学習)を防ぐため、テスト問題は**「インターネットにも存在しない、完全に新しいゲーム」**として設計されています。


5. このテストの目的:本当の「汎用人工知能(AGI)」への道

このテストの最終目標は、**「人間と同じように、どんな新しいことでも、人間と同じくらい速く、上手に学べる AI」**を作ることです。

  • これまでの AI: 「プログラミングは得意、将棋は得意」というように、特定の分野に特化していました。
  • 目指す AI(AGI): 「初めて見るゲームでも、ルールを学び、攻略法を考え、勝つことができる」ような、汎用的な知能です。

ARC-AGI-3 は、その「汎用的な知能」がどこまで進化しているかを測る、**「究極の適性試験」**なのです。


まとめ

ARC-AGI-3は、AI に「教科書なしで未知の世界を冒険し、ルールを見抜き、目標を見つけ、最短ルートでゴールする」力を試すテストです。

  • 人間: すぐに適応してクリアします。
  • 現在の AI: 右往左往して、ほとんどクリアできません。

この大きな差を埋めることが、次の世代の AI(本当に人間のように考える AI)を作るための鍵となります。2026 年現在、その壁は依然として高く、AI 研究者たちは「いかに AI に『知恵』を持たせるか」という新たな挑戦に挑んでいます。