Agentic LLM Planning via Step-Wise PDDL Simulation: An Empirical Characterisation

Each language version is independently generated for its own context, not a direct translation.

この論文は、**「AI（特に大規模言語モデル）が、ロボットのような自律的なシステムで『計画』を立てるのに、本当に使えるのか？」**という疑問に答える実験レポートです。

特に、**「AI に一度に全部の計画を言わせる（直接生成）」方法と、「AI に一つずつ行動させて、その結果を見て修正させる（エージェント型）」**方法のどちらが優れているかを、ブロックを積み上げる「ブロックワールド」というゲームを使って比較しました。

以下に、専門用語を避け、身近な例えを使って解説します。

1. 実験の舞台：ブロックワールド

想像してください。机の上に積み木（ブロック）が散らばっています。「赤いブロックを青いブロックの上に置き、その上に黄色いブロックを乗せて」というような**「ゴール」**があります。
これを達成するために、どの順序でブロックを動かすかという「計画」を立てる必要があります。これがロボットの「タスク計画」です。

2. 4 つの「計画屋」たち

研究者たちは、この問題を解くために 4 つの異なるアプローチをテストしました。

古典的な天才（Fast Downward）:
- 特徴: 数学と論理で完璧に計算する「古典的な AI」。
- イメージ: 迷路を解くのが得意な、計算機のような頭脳。一度に最短ルートを計算し、間違えることはほぼありません。
- 結果: 85% の成功率。非常に安定しています。
AI 作家 A（直接生成）:
- 特徴: 「全部の動きを最初から最後まで考えて答えを出して」と頼む方法。
- イメージ: 試験で「答えを全部書きなさい」と言われ、一度で書こうとする生徒。間違えたら、最初からやり直し（リトライ）します。
- 結果: 64% 程度。
AI 作家 B（エージェント型・今回の主役）:
- 特徴: 「一つだけ動いて、結果を見て、次に何をするか考えて」という対話型の方法。
- イメージ: 迷路を歩きながら、「あ、ここは壁だ、引き返そう」と自分で判断する探検家。
- 仕組み: 論文で開発された「PyPDDLEngine」というツールを使い、AI が一つずつブロックを動かして、その都度「今、どこにいるか」を確認できます。
- 結果: 67% 程度。
古典的な天才（改良版）:
- 最初の計画を何度も見直して、より短い道を探すタイプ。

3. 驚きの結果：何がわかった？

① 「対話型」は少しだけ上手くなったが、大差ない

「一つずつ確認しながら進める（エージェント型）」方が、最初から全部言う（直接生成）よりもわずかに（3% ほど）成功率が上がりました。
しかし、コストは 5.7 倍もかかりました。つまり、「少しだけ上手くなったけど、その分、ものすごいエネルギー（計算コスト）を消費した」という結果です。

② 意外な事実：AI は「暗記」しているだけかも？

古典的な AI は、難しい問題ほど「長い計画」を立てますが、今回の AI たちは、古典的な AI が「何度も見直して短くした」計画よりも、最初から「短い計画」を出していました。
これは、AI が「論理的に考えて最短ルートを見つけ出した」のではなく、**「過去のトレーニングデータ（教科書）に載っていた、似たような問題の答えを思い出した（暗記）」**可能性が高いことを示唆しています。

例え話: 数学のテストで、公式を自分で導き出したのではなく、過去問の答えを丸暗記していた生徒が、たまたま同じ問題が出たので正解したようなものです。

③ 最大の発見：「正解のヒント」がないと AI は迷子になる

ここがこの論文の最も重要なポイントです。

プログラミングの AI（成功例）:
プログラムを書かせて「エラーが出たよ」と外部のコンピューターが教えてくれます。これは「客観的な正解のヒント」です。AI は「あ、ここが間違ってた」と修正できます。
今回のブロック計画（失敗例）:
AI がブロックを動かしても、「ブロックが動いたよ」という事実しか教えてくれません。「ゴールに近づいているか？」「間違っているか？」という**「進捗のヒント」は与えられません**。
- 結果: AI は「自分自身で『今、間違ってるかも』と判断」しなければなりません。しかし、AI はその判断が下手です。
- 現象: AI は「この問題は解けない」と勝手に判断して、まだ時間があるのに**「あきらめて立ち去る（早期終了）」**というミスを犯しました。実際は解ける問題だったのに、です。

4. 結論：ロボットに何を教えるべきか？

この研究は、**「AI に『一つずつ行動させて、結果を見る』という仕組みだけでは、ロボットはうまく計画できない」**と警告しています。

重要な教訓:
AI が「今、成功しているか失敗しているか」を自分で判断するのは無理です。
ロボットを本格的に動かすためには、AI に「ブロックが動いた」という事実だけでなく、「あなたはゴールに近づいているよ（または遠ざかっているよ）」という、外部からの明確なフィードバック（進捗報告）を与える仕組みが必要です。

まとめ

AI は「暗記」が得意だが、「新しい道筋を論理的に探る」のは苦手なようです。
「一つずつ確認する」方法は、プログラミングのような「明確な正解・不正解がある世界」では強力ですが、ブロック積み上げのような「進捗が曖昧な世界」では、AI が迷子になりやすいことがわかりました。
今後のロボット開発では、AI 自身に「今どうなってるか」を判断させるのではなく、**「進捗を正しく伝えるセンサーやシステム」**をどう作るかが鍵になります。

この論文は、AI に「何でもできる万能な頭脳」を期待するのではなく、**「AI が正しく判断できる環境（フィードバック）」**をどう設計するかが重要だと教えてくれています。

Agentic LLM Planning via Step-Wise PDDL Simulation: An Empirical Characterisation

1. 実験の舞台：ブロックワールド

2. 4 つの「計画屋」たち

3. 驚きの結果：何がわかった？

① 「対話型」は少しだけ上手くなったが、大差ない

② 意外な事実：AI は「暗記」しているだけかも？

③ 最大の発見：「正解のヒント」がないと AI は迷子になる

4. 結論：ロボットに何を教えるべきか？

まとめ

1. 問題定義 (Problem)

2. 手法と提案システム (Methodology)

PyPDDLEngine の開発

実験設定

3. 主要な貢献 (Key Contributions)

4. 結果 (Results)

成功率と失敗モード

計画の品質（解けたインスタンスのみ比較）

コスト

難易度別分析

5. 意義と結論 (Significance & Conclusion)

外部フィードバックの重要性

ロボティクスへの示唆

総括

Agentic LLM Planning via Step-Wise PDDL Simulation: An Empirical Characterisation

1. 実験の舞台：ブロックワールド

2. 4 つの「計画屋」たち

3. 驚きの結果：何がわかった？

① 「対話型」は少しだけ上手くなったが、大差ない

② 意外な事実：AI は「暗記」しているだけかも？

③ 最大の発見：「正解のヒント」がないと AI は迷子になる

4. 結論：ロボットに何を教えるべきか？

まとめ

1. 問題定義 (Problem)

2. 手法と提案システム (Methodology)

PyPDDLEngine の開発

実験設定

3. 主要な貢献 (Key Contributions)

4. 結果 (Results)

成功率と失敗モード

計画の品質（解けたインスタンスのみ比較）

コスト

難易度別分析

5. 意義と結論 (Significance & Conclusion)

外部フィードバックの重要性

ロボティクスへの示唆

総括

関連論文

BeSafe-Bench: Unveiling Behavioral Safety Risks of Situated Agents in Functional Environments

AutoB2G: A Large Language Model-Driven Agentic Framework For Automated Building-Grid Co-Simulation

Semi-Automated Knowledge Engineering and Process Mapping for Total Airport Management

GUIDE: Resolving Domain Bias in GUI Agents through Real-Time Web Video Retrieval and Plug-and-Play Annotation

AIRA_2: Overcoming Bottlenecks in AI Research Agents