GenePlan: Evolving Better Generalized PDDL Plans using Large Language Models

この論文は、大規模言語モデルを活用した進化アルゴリズムを用いて PDDL で記述された古典的計画タスク向けの汎用的なプランナーを自動生成する「GenePlan」という新しいフレームワークを提案し、既存の最先端プランナーと同等の性能を発揮しながら、他の LLM ベースの手法を大幅に上回る結果を示したことを報告しています。

Andrew Murray, Danial Dervovic, Alberto Pozanco, Michael Cashmore

公開日 Wed, 11 Ma
📖 1 分で読めます☕ さくっと読める

Each language version is independently generated for its own context, not a direct translation.

GenePlan: AI による「万能な計画屋」の進化

この論文は、「GenePlan(ジープラン)」という新しいシステムについて紹介しています。これは、人工知能(AI)を使って、複雑な問題解決の「レシピ」や「戦略」を自動的に作り出し、それをより良いものへと進化させる技術です。

わかりやすく、日常の例え話を使って説明しましょう。


1. 従来の AI の悩み:「一度きりの天才」

これまでの AI(特に大規模言語モデル)は、質問に答えたりコードを書いたりするのが得意でした。しかし、「計画(プラン)」を立てるタスクでは、少し苦手としていました。

  • 例え話: 従来の AI は、**「その場限りの天才料理人」**のようです。
    • 「今日の夕食を作ってください」と言われれば、美味しい料理を作れます。
    • でも、「明日の朝も、明後日の夜も、来週の同じ条件で料理を作ってください」と言われると、毎回ゼロから考え直してしまい、効率が悪いだけでなく、失敗することもありました。
    • また、AI が作ったレシピが「少しだけ無駄な工程がある」など、最適ではないこともありました。

2. GenePlan のアイデア:「進化させる料理学校」

GenePlan は、AI に「その場限りの天才」ではなく、**「どんな状況でも通用する、完璧な料理の教科書(戦略)」を作らせることにしました。そして、その教科書を作るプロセスを、「進化(ダーウィンの進化論)」**に似せて設計しました。

この仕組みを 3 つのステップで説明します。

ステップ 1: 候補の生み出し(卵を産む)

まず、AI に「料理のレシピ(Python というプログラミング言語で書かれた戦略)」をいくつか書かせます。

  • 例え話: 料理学校で、生徒たちがそれぞれ「どうすれば最短で料理ができるか?」というレシピを思いついて提出します。最初は、みんなのレシピはバラバラで、下手な人もいれば、天才的な人もいます。

ステップ 2: 厳しい審査(味見と採点)

次に、そのレシピが実際に使えるか、テストします。

  • 例え話: 審査員(コンピューター)が、そのレシピを使って実際に料理を作ってみます。
    • 「失敗した!」→ 0 点。
    • 「成功したけど、手順が 100 回必要だった」→ 100 点(点数が高いほど悪い)。
    • 「成功して、手順がたったの 10 回だった」→ 10 点(点数が低いほど良い)。
    • 重要: 失敗したレシピや、点数が悪いレシピは、その場で「淘汰(はぶかれる)」されます。

ステップ 3: 優秀なレシピの「掛け合わせ」と「改良」(進化)

ここで GenePlan のすごいところが出ます。AI は、「点数の良かったレシピ」だけを集め、それらを混ぜ合わせて新しいレシピを作ります。

  • 例え話:
    • 「A さんのレシピは『野菜を切る手順』が速い!」
    • 「B さんのレシピは『炒める手順』が効率的だ!」
    • AI は、A さんの「切る手順」と B さんの「炒める手順」を組み合わせて(交配)、新しいレシピを作ります。
    • さらに、**「ちょっとだけ変えてみよう(突然変異)」**という作業もします。例えば、「炒める時間を 1 秒短くしてみる」など、小さな変更を加えて、もっと良くなるか試します。

この「作って→テストして→良いものだけ残して→混ぜて→変える」というサイクルを、何回も何回も繰り返します。

3. 結果:「完璧な教科書」の完成

このサイクルを繰り返すうちに、AI は**「どんな状況でも、最短で、最も効率的に問題を解決できる、完璧な戦略」**を編み出します。

  • 従来の AI(CoT など): 毎回ゼロから考え直すので、時間がかかり、ミスも多い(平均スコア 0.64)。
  • GenePlan: 進化させて完成した「戦略」を使うので、非常に速く、非常に正確(平均スコア 0.91)。
    • 速さ: 1 つの問題を解くのに、わずか0.49 秒
    • コスト: 1 つの分野(ドメイン)の戦略を作るのに、**約 1.82 ドル(約 270 円)**という安さ。

4. なぜこれがすごいのか?

GenePlan が作り出したのは、単なる「答え」ではなく、**「答えを出すための考え方のルール(Python プログラム)」**です。

  • 例え話:
    • 従来の AI は、「この問題の答えは『A』です」と教えてくれます。
    • GenePlan は、「この分野の問題に遭遇したら、**『この手順で考えれば、どんな問題でも最短で解決できる』**というマニュアル」を渡してくれます。
    • そのマニュアルさえあれば、新しい問題が来ても、AI が考える必要なく、マニュアル通りに瞬時に解決できます。

まとめ

GenePlan は、**「AI に、失敗から学び、良いアイデアを組み合わせ、より良い戦略を進化させる」**という仕組みを作りました。

これにより、AI は単に「答えを言う」だけでなく、「問題を解決する賢いルール」を自分で作り出し、人間が作った最高の専門家(Fast Downward という従来の最強の計画システム)と肩を並べるレベルの成果を出しました。しかも、そのルールは人間にも読み解ける(解釈可能)もので、非常に安価に作れます。

これは、AI が「答え」だけでなく、「知恵」そのものを進化させる第一歩と言えるでしょう。