Each language version is independently generated for its own context, not a direct translation.

🏗️ 1. 問題：AI は「ルールブック」を作るのが苦手

想像してください。あなたが新しいボードゲームを作ろうとして、AI に「ルールを日本語で書いてね」と頼んだとします。
AI は一生懸命書いてくれますが、結果は**「文法は正しいのに、ゲームのルールが破綻している」**という状態になりがちです。

「プレイヤーは移動できる」と書いたのに、実際には壁にぶつかって動けない。
「ゴールに到達できる」と書いたのに、実はゴールにたどり着く道がない。

これでは、そのルールブックを使って実際にゲーム（計画）をプレイできません。これを「ドメイン生成（計画領域の生成）」の問題と呼びます。

🛠️ 2. 解決策：AI に「添削」を繰り返させる

これまでの研究では、AI に一度書かせて終わり、あるいは人間が手直ししていました。しかし、この論文のチームは**「AI 自身に、自分の書いたルールブックをテストして、間違いを直させる」**という方法を提案しました。

これを**「モデル空間の探索（Model Space Reasoning as Search）」と呼んでいますが、簡単に言うと「AI が試行錯誤しながら、最高のルールブックを見つける旅」**です。

🧭 旅の道具：2 つの「添削リスト」

AI がルールブックを書くと、2 つの異なる方法で「添削（フィードバック）」をもらいます。

ランドマーク（道しるべ）フィードバック 🗺️
- 例え： 「このゲームをクリアするには、必ず『鍵』を手に入れる瞬間が来るはずだ」という**「絶対に通るべき道しるべ」**を AI に教えます。
- AI の反応： 「あ、私のルールブックだと『鍵』を手に入れなくてもゴールに行けるように書いてある！これはダメだ！」と気づきます。
プラン検証（計画検証）フィードバック 🚦
- 例え： 人間が「このルールで A さんから B さんへ移動する手順」を実際にやってみて、「あ、ここで止まっちゃう！ゴールにたどり着かない！」と**「失敗した手順」**を AI に見せます。
- AI の反応： 「なるほど、この手順ではゴールにたどり着けないんだ。じゃあ、ルールを直そう」と考えます。

🔍 3. 工夫：ランダムに直すのではなく、賢く探す

ただ「間違えたら直して」と言うだけでは、AI は同じミスを繰り返したり、遠回りしたりします。そこでこの論文では、**「賢い検索（ヒューリスティック検索）」**を使います。

ランダムな直し（ランダム・ウォーク）： 間違っている箇所をランダムに選んで直していく。→ 運次第で良い結果が出ることもあれば、ダメなことも。
賢い検索（ベスト・ファースト・サーチ）： 「どの間違いを直せば、一番ルールブックが良くなるか」を計算して、最も効果的な添削を選んで直していく。→ 効率的に正解に近づける。

これは、迷路を脱出する時に、**「適当に歩き回る」のではなく、「ゴールに近い方へ進む道を選ぶ」**ようなものです。

📊 4. 結果：AI は劇的に上手くなった

研究者たちは、有名なパズル（ブロック積みなど）から、誰も見たことのない新しいゲームまで、さまざまな「ルール」を AI に作らせました。

結果： 添削（フィードバック）を全くしない場合と比べて、AI が作ったルールブックの質は劇的に向上しました。
驚きの事実： 「ランドマーク（道しるべ）」という少し抽象的なアドバイスだけでも、詳細な「失敗手順」を教えるのと同じくらい効果的でした。
最強の組み合わせ： 「ランドマーク」と「失敗手順」の両方を使い、さらに「賢い検索」で選別すると、すべてのテストで「完璧なルールブック（100% 正解）」を一度は作れるようになりました。

💡 5. まとめ：なぜこれがすごいのか？

この研究は、**「AI に完璧なルールブックを作らせるには、人間がすべて教える必要はない」**ことを示しました。

人間の役割： 「道しるべ（ランドマーク）」や「失敗例（プラン）」というヒントを与えること。
AI の役割： そのヒントをもとに、自分で試行錯誤してルールを修正し、完璧なものを作り上げること。

これにより、専門知識がない人でも、ただ「こんなゲームを作りたい」と言葉で伝えるだけで、AI が実際に使える高品質なゲームのルール（計画システム）を自動で作れるようになる未来が近づいています。

一言で言うと：
「AI にルールブックを作らせる時、『どこがダメか』というヒントをいくつか与えて、AI 自身に『一番いい直し方』を探させてあげれば、完璧なルールブックが作れるよ！」という発見です。

Each language version is independently generated for its own context, not a direct translation.

論文技術概要：モデル空間推論をフィードバック空間での探索として用いた計画ドメイン生成

ICLR 2026 ワークショップ「World Models」に提出された本論文は、自然言語記述から AI 計画（AI Planning）のドメインモデル（PDDL 形式）を生成する際の問題に焦点を当て、大規模言語モデル（LLM）の能力を向上させるための新しいフレームワークを提案しています。

以下に、問題定義、手法、主要な貢献、結果、および意義について詳細にまとめます。

1. 問題定義 (Problem)

AI 計画における最大のボトルネックの一つは、正確かつ完全な「計画ドメインモデル（アクション、オブジェクト、制約の形式記述）」を手動で作成する作業です。自然言語から自動的にこのドメインを生成できれば、計画技術のアクセシビリティが飛躍的に向上します。

近年、LLM は自然言語から PDDL（Planning Domain Definition Language）を生成する能力を示していますが、以下の課題が残っています：

構文は正しくても意味論的に欠陥がある: 生成されたドメインは構文的には正しいが、意図された動作や制約を正しく反映していない（意味論的エラー）。
既存手法の限界: 従来のフィードバックベースの手法は、単一のフィードバックタイプ（例：プラン検証のみ）に依存したり、問題やプランの生成も同時に行うことでエラーが累積したり、限られた既知のドメインのみで評価され、一般化性が低いという問題がありました。

2. 手法 (Methodology)

著者らは、**「モデル空間推論をフィードバック空間での探索として」**という概念を提案し、LLM 生成ドメインを反復的に改善するエージェント型フレームワークを開発しました。

2.1 基本的なパイプライン

初期ドメイン構築: 自然言語記述（アクション、述語の説明など）を入力し、LLM に PDDL アクションを生成させます。構文エラーがあれば即座に修正を求めます。
ドメイン品質評価: 生成されたドメイン $D'$ $D^{'}$ の品質を、人間による評価なしで自動評価する指標として**「ヒューリスティック・ドメイン・エカビバレンス（HDE）」**を使用します。
- HDE は、真のドメイン（Ground Truth）のプランと、生成ドメインのプランを相互に検証し、互いに有効なプランの割合を計算します。
フィードバックループ: 生成ドメインにエラーがある場合、以下のフィードバックメカニズムを用いて修正を促します。

2.2 提案するフィードバックメカニズム

本研究では、以下の 2 種類の**記号的フィードバック（Symbolic Feedback）**を組み合わせます：

ランドマーク（Landmarks）: 計画問題において、すべての計画パスで必ず通過しなければならない事象（事実またはアクションの集合）です。これらが満たされていない場合、モデルに「特定のアクションが含まれる必要がある」というフィードバックを与えます。
プラン検証（Plan Validation, VAL）: 真のドメインで有効なプランを、生成ドメイン上で実行し、失敗した原因（事前条件の不足、効果の欠落、ゴール未達成など）をフィードバックします。

2.3 ヒューリスティック探索によるフィードバック選択

単にランダムにフィードバックを与えるのではなく、モデル空間（生成されたドメインの空間）における探索を行います。

探索戦略: 候補となるフィードバックメッセージの空間に対して、最良優先探索（Best-First Search）を適用します。
評価関数: 探索ツリーのノード（ドメイン）を評価する際、ツリーの深さ（ $G$ ）と、無効なプランの数を表すヒューリスティック値（ $H$ ）の重み付き和を使用します。
目的: 最もドメイン品質を改善する可能性が高いフィードバックを選択し、LLM に再プロンプトすることで、効率的に高品質なドメインを生成します。

3. 主要な貢献 (Key Contributions)

多様な記号的フィードバックの統合: ランドマークとプラン検証の両方を活用し、単一のフィードバック源に依存しないロバストな生成パイプラインを構築しました。
モデル空間での探索フレームワーク: 生成ドメインの品質向上を、フィードバックメッセージの選択問題として定式化し、ヒューリスティック探索を用いて最適化しました。
自動評価指標の適用: 人間の評価を不要とする HDE 指標を適応させ、生成ドメインの真のドメインに対する適合度を定量的に評価可能にしました。
未知のドメインへの一般化: 既存のベンチマーク（よく知られたドメイン）だけでなく、LLM の学習データに含まれていない新規・難解なドメイン（例：hiking, pacman-variant など）でも評価を行いました。

4. 実験結果 (Results)

データセット: 古典的な計画ドメイン（blocks, miconic など）と、新規・難解なドメイン（hiking, pacman-63/72 など）を含む多様なセットを使用。
モデル: GPT-5-nano, GPT-5-mini, DeepSeek-Chat の 3 種類のモデルで評価。
主要な発見:
- フィードバックの有効性: フィードバックなしのベースラインと比較して、あらゆるフィードバック手法がドメイン品質（HDE スコア）を有意に向上させました。
- 探索の優位性: 一般的に、ランダムなフィードバック選択よりも、ヒューリスティック探索を用いたフィードバック選択の方が良い結果をもたらしましたが、ドメインやモデルによってはランダムの方が優れたケースもありました（相補的な関係）。
- 完全なドメイン生成: GPT-5-mini を使用し、ランドマークとプラン検証を組み合わせた探索（LVS）手法では、テストされたすべてのドメインにおいて、少なくとも 1 回 100% の HDE スコア（真のドメインと同等の品質）を達成することに成功しました。
- ランドマークの重要性: 詳細なプラン検証だけでなく、ランドマークフィードバックだけでも高い効果があり、非専門家への PDDL 生成のアクセシビリティ向上に寄与する可能性があります。

5. 意義と将来展望 (Significance & Future Work)

実用性の向上: 自然言語から実用的な AI 計画ドメインを生成するハードルを下げ、LLM を活用した自動計画システムの実用化に大きく貢献します。
エラーの特定と修正: 単なる構文チェックではなく、意味論的な制約（ランドマーク）や実行結果（プラン検証）に基づいたフィードバックにより、LLM の推論能力をドメイン生成タスクに特化させます。
将来の課題:
- 不変条件（Invariants）に基づくフィードバックの追加。
- 探索空間の分岐係数が大きい場合のより高度な探索戦略の検討。
- 非専門家ユーザーを対象としたユーザビリティ調査と、実世界シナリオへの適用。

本論文は、LLM による計画ドメイン生成が「構文生成」から「意味論的整合性の確保」へと進化するための重要なステップを示しており、特にフィードバック空間での体系的な探索が、高品質なドメイン生成の鍵であることを実証しています。

Model Space Reasoning as Search in Feedback Space for Planning Domain Generation