On Sample-Efficient Generalized Planning via Learned Transition Models

Each language version is independently generated for its own context, not a direct translation.

🎬 物語の要約：「暗記する生徒」vs「理屈を理解する生徒」

これまでの AI（特に最近の巨大な言語モデル）は、**「暗記が得意な生徒」**のようなものでした。

やり方: 「この問題が出たら、この答えを言え」というパターンを何万回も見て、丸暗記します。
弱点: 試験問題が少し変わると（例えば、ブロックの数が急に増えたり、配置が変わったりすると）、パニックになって「えっ、これ前見たことない！」と答えられなくなります。また、長い物語を話そうとすると、途中で「あれ？今どこだったっけ？」と記憶が飛んでしまい、矛盾した話をしてしまいます。

この論文の著者たちは、**「理屈を理解する生徒」**を作ろうとしました。

新しいやり方: 答え（行動）を直接覚えるのではなく、**「今この状態から、何をしてどうなるか（未来の状態）」**という「世界の動き方（法則）」そのものを学びます。
メリット: 法則さえ理解していれば、ブロックが 100 個あっても 1000 個あっても、「積み上げる」という法則は変わらないので、新しい大きな問題でも正しく答えられます。

🧩 具体的な仕組み：3 つのステップ

この新しい AI は、以下の 3 つのステップで動きます。

1. 状態を「絵」に変える（Size-Invariant State Representation）

AI は、ブロックやボールの数が変わると、それまで見たことのない「新しい絵」を見てしまいます。

工夫: AI は、個々の名前（ブロックA、ブロックB）を気にせず、**「ブロックが積み上がっている構造」**という「絵の模様」だけを見て判断します。
例え: 料理のレシピを覚えるとき、「卵 1 個、小麦粉 200g」を覚えるのではなく、「卵と小麦粉を混ぜて焼く」という**「手順の構造」**を覚えるようなものです。だから、卵が 10 個になっても、同じ手順で料理できます。

2. 「未来の予測」を学習する（Transition-Model Learning）

ここが最大のポイントです。

従来の AI: 「次に『右に行け』と言え」と教えます。
この論文の AI: 「今、ここにいて、右に行くと**『どうなるか（新しい状態）』**を予測する」ことを教えます。
例え: 将棋の AI が「次に指す手」を覚えるのではなく、「この手を指すと、盤面がこう変わる」という**「変化の法則」**を覚えるイメージです。
残差（デルタ）学習: 大部分のものは変わらないので、「何が変わったか（差分）」だけを予測させます。これにより、学習が非常に効率的になります。

3. 神様（記号論理）がチェックする（Neuro-Symbolic Verification）

AI が予測した「未来」は、あくまで予測です。間違っているかもしれません。

工夫: AI が「次はこうなるよ」と予測したら、**「本当にそうなるか？」**を、厳格なルール（記号論理）で即座にチェックします。
例え: AI が「次は空を飛べる！」と予測しても、ルールブック（物理法則）に「人間は飛べない」と書いてあれば、AI は「あ、ダメだ」と気づいて正しい行動を選び直します。
これにより、AI が「幻覚（ハルシネーション）」を見て間違った道を進むのを防ぎます。

🏆 実験結果：なぜこれがすごいのか？

研究者たちは、ブロック積み上げや物流などのテストを行いました。

データ量: 従来の巨大な AI（Transformer）は、何百万ものパラメータと大量のデータが必要でした。しかし、この新しい方法は、その 100 分の 1 以下の小さなモデルで動きます。
性能: 小さなデータセットで学習させたにもかかわらず、**「見たことのない巨大な問題」**に対しても、従来の巨大 AI よりも高い成功率を叩き出しました。
理由: 「暗記」ではなく「法則の理解」に集中できたからです。

💡 まとめ：この論文のメッセージ

「AI に大量のデータを浴びせて暗記させるのではなく、『世界の仕組み（法則）』を小さなモデルで理解させることが、本当の汎用性（どんな問題でも解ける力）への近道だ」ということを示しました。

まるで、**「地図を丸暗記する旅人」ではなく、「地形の法則を理解して、どんな未知の山でも登れる登山家」**を作ろうとしたようなものです。これにより、AI はより少ないエネルギーで、より賢く、頑丈に行動できるようになります。

Each language version is independently generated for its own context, not a direct translation.

1. 研究の背景と課題 (Problem)

一般化計画 (Generalized Planning, GP) とは、共通のドメインモデル（遷移関数 $\gamma$ ）を持つ一連の計画問題ファミリーに対して、単一の戦略（モデル）を構築し、それらを解決する手法を指します。

既存のアプローチの限界:
- 近年のTransformerベースのプランナー（PlanGPT, Plansformer など）は、問題記述から直接「行動シーケンス」を予測する行動中心 (Action-centric) なアプローチを取っています。
- これらは分布内（in-distribution）のインスタンスでは効果的ですが、以下の課題を抱えています：
  1. 大規模なデータとモデルサイズが必要: 数百万〜数億パラメータのモデルと大量のトレーニングデータが必要です。
  2. 状態ドリフト (State Drift): 明示的な世界状態の進化モデルを持たないため、長期の計画や分布外（out-of-distribution）のインスタンスにおいて、状態が現実の物理法則から乖離し、失敗しやすいです。
  3. サイズ不変性の欠如: 対象物の数が増えた場合（例：ブロックの数が増える）に、トレーニングデータから外れたサイズへの一般化が困難です。

2. 提案手法 (Methodology)

著者らは、一般化計画を「行動予測」ではなく、遷移モデル学習問題として再定式化しました。これを状態中心 (State-centric) アプローチと呼んでいます。

2.1 基本的な枠組み

目標: 直接次の行動を予測するのではなく、現在の状態 $s_t$ と目標 $g$ から、次の状態 $s_{t+1}$ を予測するニューラル遷移モデル $T_\theta$ を学習します。
計画生成: 学習したモデルを用いて状態軌道をロールアウト（予測）し、その予測された状態と記号的な遷移関数 $\gamma$ を照合することで、実行可能な行動を復元します。

2.2 主要な技術的要素

サイズ不変な状態表現 (Size-Invariant State Representation):
- 状態の記述は対象物の数に依存するため、固定次元のベクトルへの変換が必要です。
- WL グラフ埋め込み (Weisfeiler-Leman Graph Embeddings): 状態と目標を関係グラフとして表現し、WL 色付けアルゴリズムを用いて固定次元の特徴ベクトル $\phi(s, g)$ を生成します。これにより、対象物の数や名前（置換）に依存しない表現が可能になります。
- 対照実験として、固定サイズの事象ベクトル（Fixed-Size Factored, FSF）も使用されましたが、サイズ不変性は WL のみが保証します。
遷移モデルの学習 (Transition Model Learning):
- 残差予測 (Residual/Delta Prediction): STRIPS 形式の遷移では、多くの述語は変化しません（フレーム公理）。そのため、完全な次状態を予測するのではなく、状態の変化量（デルタ $\Delta_t$ ）を予測する形式を採用しました。
  $\hat{\phi}(s_{t+1}) = \phi(s_t) + f_\theta(\phi(s_t), \phi(g))$
- モデルアーキテクチャ:
  - LSTM: 時系列依存性を捉えるためのパラメトリックなニューラルネットワーク。
  - XGBoost: 局所的な遷移カーネルを近似するためのノンパラメトリックな決定木ベースの回帰モデル。
ニューロ・シンボリックな計画デコーディング (Neuro-Symbolic Plan Decoding):
- 推論時、ニューラルモデルは「ターゲットとなる状態埋め込み」を出力します。
- 記号的な実行環境では、現在の状態 $s_t$ から適用可能なすべての行動 $a$ を列挙し、それぞれの遷移結果 $\gamma(s_t, a)$ を埋め込み空間に変換します。
- ニューラル予測と最も近い記号的な後継状態を選択し、対応する行動を実行します。これにより、すべてのステップで記号的な妥当性（シンボリック・バリディティ）が保証され、ニューラルモデルの誤りをオンラインで修正できます。

3. 主な貢献 (Key Contributions)

一般化計画の新しい定式化: 目標条件付きの次状態予測に基づく遷移モデル学習アプローチの提案。
状態表現の体系的評価: サイズ不変性とサンプル効率を達成するための状態表現（WL グラフ埋め込み vs 固定サイズ事象）の比較評価。
コンパクトモデルによる高性能化: Transformer ベースの巨大モデル（数億パラメータ）と比較して、はるかに少ないパラメータ（LSTM で約 100 万、XGBoost で約 11 万ノード）とトレーニングデータ（データ拡張なし）で、分布外一般化において同等かそれ以上の性能を達成することを実証。

4. 実験結果 (Results)

4 つの IPC ベンチマークドメイン（Blocksworld, Gripper, Logistics, VisitAll）で評価を行いました。

分布外一般化 (Extrapolation):
- 既存の行動中心モデル（Plansformer, PlanGPT, SymT）は、トレーニングデータよりもはるかに大きな問題サイズ（Extrapolation）において、多くのドメインで成功率が 0% または極めて低い値でした。
- 提案手法（特に WL 埋め込み + XGBoost のデルタ予測）は、Blocksworld や VisitAll において、SymT よりも高い成功率（例：VisitAll で 0.87 vs 0.64）を達成しました。
サンプル効率とモデルサイズ:
- 提案手法は、SymT（約 2500 万〜3500 万パラメータ）や PlanGPT（約 1.25 億パラメータ）と比較して、パラメータ数が 100 分の 1 以下であり、データ拡張を行わずにトレーニング済みデータのみで学習しました。
- これにより、「ドメインの物理法則（遷移ダイナミクス）を明示的に学習すること」が、アーキテクチャの規模やデータ拡張よりも強力な帰納的バイアスとなることが示されました。
状態表現の重要性:
- 対象物の数に依存する FSF 表現を使用した場合、外挿性能はほぼ 0% でした。これにより、サイズ不変な関係性表現（WL 埋め込み）が必須であることが確認されました。
限界:
- Logistics ドメイン（多層的な因果関係と長距離依存性を持つ）では、すべての学習モデルが外挿に失敗しました。これは、1 ステップの遷移予測だけでは、複雑な階層的な依存関係を捉えきれないことを示唆しています。

5. 意義と結論 (Significance)

効率性の革新: 大規模な LLM や Transformer に依存せず、軽量なモデルと明示的な遷移モデル学習によって、高品質な一般化計画が可能であることを示しました。
信頼性の向上: ニューロ・シンボリックなデコーディングにより、生成された計画が常に記号的に妥当であることを保証し、状態ドリフトの問題を解決しました。
今後の展望: 階層的な因果関係を持つ複雑なドメインへの適用や、多ステップまたは抽象的な遷移予測への拡張が今後の課題です。

総じて、この論文は「行動を直接予測する」アプローチから「状態の進化をモデル化して行動を導出する」アプローチへのパラダイムシフトを提案し、小規模なデータとモデルで高い汎化性能を達成する有効な手法を示しています。