From Next Token Prediction to (STRIPS) World Models

この論文は、記号的な STRIPS 行動モデルを行動の痕跡から学習し、既存のプランナーを用いて計画を可能にするかどうかを検証した研究であり、その結果、強固な記号的バイアスを持つ専用モデルよりも、スティックブレイキング注意機構を備えた標準的なトランスフォーマーの方が、訓練精度や一般化性能において優れていることを示しています。

Carlos Núñez-Molina, Vicenç Gómez, Hector Geffner

公開日 2026-03-12
📖 1 分で読めます☕ さくっと読める

Each language version is independently generated for its own context, not a direct translation.

この論文は、**「AI が未来を予測するだけで、本当に『世界の仕組み』を理解して計画を立てられるようになるのか?」**という問いに答えた研究です。

具体的には、AI が「次の言葉(トークン)が何になるか」を当てる練習(次トークン予測)を通じて、ロボットやゲームの「ルールブック(世界モデル)」を勝手に作り上げられるかどうかを調べました。

以下に、難しい専門用語を使わず、身近な例え話で解説します。


1. 背景:AI は「暗記」しているだけ?

最近の AI(チャットボットなど)は、すごい勢いで文章を生成しますが、それは単に「前の言葉から次の言葉が何になりやすいか」を統計的に暗記しているだけかもしれません。
例えば、「空は青い」と言われたら「だから」と続くのを覚えているだけで、「なぜ空が青いのか」という物理的な仕組みを理解しているわけではありません。

研究者たちは、「もし AI がゲームのルールやロボットの動きを『次の行動が正しいか』を予測する練習で学べば、本当に『世界のルールブック』を頭の中に作れるのか?」と疑問に思いました。

2. 実験の舞台:ブロックを積むゲーム

この研究では、複雑な現実世界ではなく、**「ブロックを積むゲーム(ブロックワールド)」**のようなシンプルで論理的な世界を使いました。

  • ルール: 「ブロック A を B の上に置くには、B が空いている(上に何も乗っていない)必要がある」など、明確なルール(STRIPS という形式)があります。
  • 課題: AI に「この行動は可能か?不可能か?」を学習させ、そのルールを逆算して、AI が自分で「ゴールにたどり着くための計画」を立てられるかテストしました。

3. 登場する 2 つの AI アーキテクチャ

研究者は、ルールを学ぶために 2 種類の AI を開発しました。

① STRIPS トランスフォーマー(「ルールに忠実な職人」)

  • 特徴: 最初から「ブロックのルール」を AI の設計図に組み込んでいます。
  • 仕組み: 「どのブロックがどこにあるか」を、AI の内部で厳密に管理するように作られています。
  • 結果: 理論的には完璧ですが、学習が難しく、大量のデータがないと動かないという弱点がありました。まるで、完璧な設計図を持っているのに、材料(データ)が足りないと組み立てられない職人のようです。

② スティック・ブレイキング・トランスフォーマー(「天才的な観察者」)

  • 特徴: 最初からルールは組み込んでいません。ただ、過去の行動を「直近のものから順に」注意深く見る(アテンション)ように設計されています。
  • 仕組み: 「直近の行動が重要だ」という直感を、数学的な「スティック・ブレイキング(棒を折って割合を決める)」という手法で実装しています。
  • 結果: 驚くほど良く学習しました。 少ないデータでも、長い行動の列でも、ルールを完璧に理解し、新しい状況でも計画を立てられました。
  • 比喩: 設計図なしで、ただ「過去の出来事をよく観察して、直近の出来事が未来にどう影響するか」を直感的に掴む天才的な探偵のような存在です。

4. 驚きの発見:AI は「ルールブック」を再生成した

実験の結果、最も面白いことがわかりました。

  • 学習後: 両方の AI は、単に「次の行動が正しいか」を当てるだけでなく、「ブロックを動かすためのルールブック(STRIPS モデル)」を自分自身で作り上げ、それを外部に書き出すことができました。
  • 計画能力: 書き出されたルールブックを、既存の「計画用 AI(プランナー)」に渡すと、AI はこれまで見たことのない、何億通りもの新しいスタート地点やゴールに対して、完璧な解決策(計画)を立てることができました。

これは、AI が単に「暗記」していただけではなく、「世界の法則(ルール)」を本当に理解し、それを応用できる能力を獲得したことを意味します。

5. 重要な教訓:「単純な統計」ではダメだった

比較実験として、従来の一般的な AI(ソフトマックス・アテンションを使うもの)も試しましたが、彼らは**「長い行動の列」になると失敗しました。**

  • 失敗例: 短い物語なら「次はこうなる」と当てられますが、物語が長くなると「最初のルール」を忘れ、論理的な破綻を起こします。
  • 成功例: 今回の「スティック・ブレイキング」を使う AI は、長い物語でも「最初のルール」を忘れず、一貫した論理で未来を予測できました。

まとめ:この研究が意味すること

この論文は、**「AI が次を予測する練習をすれば、やがて『世界の仕組み』を理解し、複雑な計画を立てられるようになる」**ことを証明しました。

  • 従来の AI: 過去のデータから「次はこれかな?」と確率的に推測する「暗記屋」。
  • 今回の AI: 過去のデータから「なぜそうなるのか」というルールを抜き出し、新しい状況でも使える「理解者」。

特に、**「ルールを最初から教えずとも、AI が自らルールを見つけ出し、それを活用して計画を立てられる」**という点は、AI が単なるチャットボットから、本当に自律的に問題を解決する「知能」へと進化するための大きな一歩を示しています。

まるで、子供が積み木を崩したり組んだりするのを眺めているだけで、大人が「積み木の物理法則」を説明する本を自分で書き上げ、その本を使って誰も見たことのない複雑な城を設計できるようになったようなものです。