From Next Token Prediction to (STRIPS) World Models

Each language version is independently generated for its own context, not a direct translation.

この論文は、**「AI が未来を予測するだけで、本当に『世界の仕組み』を理解して計画を立てられるようになるのか？」**という問いに答えた研究です。

具体的には、AI が「次の言葉（トークン）が何になるか」を当てる練習（次トークン予測）を通じて、ロボットやゲームの「ルールブック（世界モデル）」を勝手に作り上げられるかどうかを調べました。

以下に、難しい専門用語を使わず、身近な例え話で解説します。

1. 背景：AI は「暗記」しているだけ？

最近の AI（チャットボットなど）は、すごい勢いで文章を生成しますが、それは単に「前の言葉から次の言葉が何になりやすいか」を統計的に暗記しているだけかもしれません。
例えば、「空は青い」と言われたら「だから」と続くのを覚えているだけで、「なぜ空が青いのか」という物理的な仕組みを理解しているわけではありません。

研究者たちは、「もし AI がゲームのルールやロボットの動きを『次の行動が正しいか』を予測する練習で学べば、本当に『世界のルールブック』を頭の中に作れるのか？」と疑問に思いました。

2. 実験の舞台：ブロックを積むゲーム

この研究では、複雑な現実世界ではなく、**「ブロックを積むゲーム（ブロックワールド）」**のようなシンプルで論理的な世界を使いました。

ルール： 「ブロック A を B の上に置くには、B が空いている（上に何も乗っていない）必要がある」など、明確なルール（STRIPS という形式）があります。
課題： AI に「この行動は可能か？不可能か？」を学習させ、そのルールを逆算して、AI が自分で「ゴールにたどり着くための計画」を立てられるかテストしました。

3. 登場する 2 つの AI アーキテクチャ

研究者は、ルールを学ぶために 2 種類の AI を開発しました。

① STRIPS トランスフォーマー（「ルールに忠実な職人」）

特徴： 最初から「ブロックのルール」を AI の設計図に組み込んでいます。
仕組み： 「どのブロックがどこにあるか」を、AI の内部で厳密に管理するように作られています。
結果： 理論的には完璧ですが、学習が難しく、大量のデータがないと動かないという弱点がありました。まるで、完璧な設計図を持っているのに、材料（データ）が足りないと組み立てられない職人のようです。

② スティック・ブレイキング・トランスフォーマー（「天才的な観察者」）

特徴： 最初からルールは組み込んでいません。ただ、過去の行動を「直近のものから順に」注意深く見る（アテンション）ように設計されています。
仕組み： 「直近の行動が重要だ」という直感を、数学的な「スティック・ブレイキング（棒を折って割合を決める）」という手法で実装しています。
結果： 驚くほど良く学習しました。 少ないデータでも、長い行動の列でも、ルールを完璧に理解し、新しい状況でも計画を立てられました。
比喩： 設計図なしで、ただ「過去の出来事をよく観察して、直近の出来事が未来にどう影響するか」を直感的に掴む天才的な探偵のような存在です。

4. 驚きの発見：AI は「ルールブック」を再生成した

実験の結果、最も面白いことがわかりました。

学習後： 両方の AI は、単に「次の行動が正しいか」を当てるだけでなく、「ブロックを動かすためのルールブック（STRIPS モデル）」を自分自身で作り上げ、それを外部に書き出すことができました。
計画能力： 書き出されたルールブックを、既存の「計画用 AI（プランナー）」に渡すと、AI はこれまで見たことのない、何億通りもの新しいスタート地点やゴールに対して、完璧な解決策（計画）を立てることができました。

これは、AI が単に「暗記」していただけではなく、「世界の法則（ルール）」を本当に理解し、それを応用できる能力を獲得したことを意味します。

5. 重要な教訓：「単純な統計」ではダメだった

比較実験として、従来の一般的な AI（ソフトマックス・アテンションを使うもの）も試しましたが、彼らは**「長い行動の列」になると失敗しました。**

失敗例： 短い物語なら「次はこうなる」と当てられますが、物語が長くなると「最初のルール」を忘れ、論理的な破綻を起こします。
成功例： 今回の「スティック・ブレイキング」を使う AI は、長い物語でも「最初のルール」を忘れず、一貫した論理で未来を予測できました。

まとめ：この研究が意味すること

この論文は、**「AI が次を予測する練習をすれば、やがて『世界の仕組み』を理解し、複雑な計画を立てられるようになる」**ことを証明しました。

従来の AI： 過去のデータから「次はこれかな？」と確率的に推測する「暗記屋」。
今回の AI： 過去のデータから「なぜそうなるのか」というルールを抜き出し、新しい状況でも使える「理解者」。

特に、**「ルールを最初から教えずとも、AI が自らルールを見つけ出し、それを活用して計画を立てられる」**という点は、AI が単なるチャットボットから、本当に自律的に問題を解決する「知能」へと進化するための大きな一歩を示しています。

まるで、子供が積み木を崩したり組んだりするのを眺めているだけで、大人が「積み木の物理法則」を説明する本を自分で書き上げ、その本を使って誰も見たことのない複雑な城を設計できるようになったようなものです。

Each language version is independently generated for its own context, not a direct translation.

1. 問題設定 (Problem)

近年、トランスフォーマーアーキテクチャが「次のトークン予測（Next Token Prediction）」を学習する過程で、環境のダイナミクス（世界モデル）を内部に獲得する可能性が議論されています。しかし、既存の研究では、学習された潜在状態表現が実際の「計画（Planning）」タスクに十分な精度で機能するかは不明確でした。

本研究は、この問いを記号的な STRIPS 世界モデルという厳密に制御された環境で検証します。

STRIPS モデル: 状態が原子（Boolean 変数）の集合で定義され、アクションが事前条件（precondition）、追加リスト（add）、削除リスト（delete）を持つ決定論的な MDP です。
課題: 状態の観測データなしに、アクションの痕跡（Action Traces）のみから STRIPS 行動モデル（どのアクションがいつ適用可能か、状態がどう遷移するか）を学習し、学習したモデルを用いて未知の初期状態や目標に対する計画を生成できるかどうかを問います。
評価基準: 学習したモデルが、既存の STRIPS プランナー（例：Mimir, FF）と連携して、指数関数的に多い未見の初期状態・目標に対して正しく計画を立てられるか。

2. 手法 (Methodology)

著者らは、STRIPS 行動モデルを学習するための 2 つのトランスフォーマーアーキテクチャを提案しました。

A. STRIPS Transformer

概念: STRIPS の構造的な制約をアーキテクチャに明示的に組み込んだモデルです。
理論的基盤: 硬い注意機構（Hard Attention）を持つトランスフォーマーと、形式言語理論における「星なし言語（Star-free languages）」および B-RASP 言語との関連性に基づいています。STRIPS の有効な行動痕跡は星なし言語に属することが知られており、トランスフォーマーがこれを認識できることを利用しています。
仕組み:
- 各原子（Atom）に対して専用のアテンションヘッドを割り当てます。
- 各アクションの適用可能性を判断するために、その原子に直近で影響を与えたアクションを「硬い注意（Hard Attention）」で検索します。
- 事前条件が満たされているか（直近のアクションがその原子を削除していないか）を論理的に計算します。
- 学習パラメータ $\theta$ は、STRIPS の事前条件や効果（add/del）を直接符号化するよう初期化・学習されます。

B. Stick-Breaking (SB) Transformer

概念: 明示的な記号構造を持たない、標準的なデコーダ型トランスフォーマーですが、注意機構に工夫を凝らしたモデルです。
特徴:
- 位置符号（Positional Encoding）を排除し、標準的な Softmax 注意の代わりに**スティック・ブレイキング注意（Stick-Breaking Attention）**を採用しています。
- スティック・ブレイキング注意: 確率的な重み付けを行いながら、直近の重要なトークンに重みを集中させるメカニズムです。これは硬い注意（Hard Attention）の微分可能な近似であり、長期的な依存関係の追跡に優れています。
- 学習されたパラメータから STRIPS モデルを抽出する際、状態プロービング（State Probing）というプロセスを通じて、学習された表現を STRIPS の原子と対応させます。

学習タスクとデータ

入力: 正の痕跡（すべてのアクションが適用可能）と負の痕跡（ある時点で適用不可能なアクションが含まれる）のセット。
タスク: 与えられたアクション列の次のアクションが適用可能かどうかを予測する（二値分類）。
状態情報のエンコーディング: 学習データに状態情報を埋め込むため、init-p（初期状態の原子を設定）や test-p（最終状態の原子を確認）といった特殊な「セットアップアクション」をトレースに追加します。

3. 主要な貢献 (Key Contributions)

記号的世界モデルの学習可能性の証明: トランスフォーマーが、単なる次のトークン予測タスクを通じて、STRIPS 形式の記号的な世界モデルを正確に学習し、抽出できることを実証しました。
2 つのアーキテクチャの提案と比較:
- 構造的バイアスを強めた「STRIPS Transformer」と、柔軟な「SB Transformer」を提案し、その性能を比較しました。
- 特に、スティック・ブレイキング注意が、長系列の一般化において標準的な Softmax 注意よりも圧倒的に優れていることを示しました。
指数関数的な一般化能力: 学習時に観測された初期状態や目標とは異なる、指数関数的に多い数の未見の初期状態・目標に対しても、学習したモデルから抽出された STRIPS プランナーが正しく計画を立てられることを示しました。
構成推論（Compositional Reasoning）の検証: 学習モデルが、原子やアクションの組み合わせを構成的に理解し、長い時間軸（Horizon）にわたる推論を可能にしていることを示しました。

4. 実験結果 (Results)

5 つの古典的計画ドメイン（Blocksworld, Ferry, Npuzzle, Maze, Logistics）で評価を行いました。

トレーニング精度と一般化:
- SB Transformer: ほぼ 100% のトレーニング精度を達成し、長いテスト系列（D=200〜400）に対しても高い一般化性能を示しました。
- STRIPS Transformer: 理論的には STRIPS を表現可能ですが、最適化が難しく、トレーニング精度のばらつきが大きく、学習にはより大量のデータが必要でした。
- 標準トランスフォーマー（Softmax）: トレーニングデータ内では高い精度を出しますが、長い系列への一般化は失敗しました。
計画性能:
- 両モデルから抽出された STRIPS モデルは、既存のプランナー（Mimir）と組み合わせて、未見の初期状態・目標に対してほぼ 100% の計画成功率を達成しました。
- 興味深いことに、標準トランスフォーマー（Softmax）は長い系列での予測精度が低かったものの、短いトレーニング系列から抽出された記号モデルは、計画タスクでは高い精度を維持しました。これは、トランスフォーマーが遷移ダイナミクスを学習しているが、長い系列での予測には限界があることを示唆しています。
データ効率: SB Transformer は少量のデータ（1,000 トレース程度）でも高い計画精度を達成しましたが、STRIPS Transformer はより多くのデータ（10 万トレース以上）を必要としました。

5. 意義と結論 (Significance)

LLM と計画の統合: この研究は、LLM が「表面の統計的規則性」だけでなく、環境の因果構造（世界モデル）を学習し、それを記号的な形式（STRIPS）に変換して計画に活用できる可能性を示しました。
アーキテクチャの重要性: 世界モデルの学習には、単なる大規模なデータだけでなく、スティック・ブレイキング注意のような、長期的な依存関係を捉えるための適切な注意機構が不可欠であることを示しました。
実用的な応用: 学習されたモデルを既存の古典的プランナーと組み合わせることで、LLM の柔軟性と記号的プランナーの確実性を両立させるハイブリッドアプローチの有効性を証明しました。これは、複雑なタスクの自動化や、信頼性の高い AI システムの構築に向けた重要な一歩です。

総じて、この論文は「次のトークン予測」という単純なタスクから、高度な推論と計画を可能にする記号的な世界モデルを学習できることを示し、AI の「理解」のメカニズムと、実用的な計画システムへの応用可能性について重要な知見を提供しています。