The World Won't Stay Still: Programmable Evolution for Agent Benchmarks

本論文は、現実世界の動的な変化を反映したエージェントの適応性を評価するため、環境・データ・スキーマを統一的なグラフとして表現し、その変換を通じてスケーラブルかつ制御可能な環境進化を実現するフレームワーク「ProEvolve」を提案するものである。

Guangrui Li, Yaochen Xie, Yi Liu, Ziwei Dong, Xingyuan Pan, Tianqi Zheng, Jason Choi, Michael J. Morais, Binit Jha, Shaunak Mishra, Bingrou Zhou, Chen Luo, Monica Xiao Cheng, Dawn Song

公開日 2026-03-09
📖 1 分で読めます☕ さくっと読める

Each language version is independently generated for its own context, not a direct translation.

「世界は止まらない」:AI エージェントの新しいテスト方法

この論文は、「AI エージェント(人間に代わって作業をする AI)」を、現実世界のように「移り変わる環境」でテストする新しい方法を提案しています。

これまでの AI のテストは、まるで**「静止した水族館」のようでした。水槽(環境)は固定され、魚(データ)も道具(ツール)も一切動きません。しかし、現実の世界は「生きた森」**のように常に変化しています。新しい木が生えたり、道が閉鎖されたり、新しい動物が現れたりします。

この論文は、その「生きた森」をシミュレーションし、AI が変化にどう適応できるかを測るための**「プログラム可能な進化システム(ProEvolve)」**を紹介しています。


1. 問題点:なぜこれまでのテストではダメなのか?

これまでの AI のテストは、**「固定されたおままごと」**でした。

  • 例: 「注文する」という道具があり、「商品データ」が決まっている。
  • 現実: 明日には「キャンセル機能」が追加され、明後日には「古い検索ボタン」が消えるかもしれません。

これまでのテストでは、AI が**「変化に対応できるか」を測れていませんでした。まるで、「常に同じ道しか歩かない練習」**をして、突然「道が崩れて新しいルートが必要になった時」にどうするかを評価していないのと同じです。

2. 解決策:ProEvolve(プロ・エボリューション)とは?

著者たちは、環境を**「レゴブロックの図面(グラフ)」**として表現し、それをプログラムで自動的に書き換えるシステムを作りました。

① 環境を「つながりの図」で描く

AI が使うデータや道具を、**「点(ノード)」と「線(エッジ)」**でつなげた図(グラフ)で表します。

  • 点: ユーザー、商品、注文、クーポンなど。
  • 線: 「注文には商品が含まれる」「クーポンは注文に使える」などの関係。

② 進化を「図の書き換え」として行う

この図に対して、3 つの魔法のような操作(プログラム)を施して、環境を進化させます。

  1. 完成(Completion):「新しい機能を追加」
    • 図に新しい点と線を足します。
    • 例:「価格アラート」という新しい機能を作るために、図に「価格履歴」の点と「通知」の線を追加する。
  2. 飽和(Saturation):「ショートカットを作る」
    • 遠回りな線を、直接つなぐ新しい線を引きます。
    • 例:「ユーザー→注文→商品→在庫」と 3 回たどる代わりに、「ユーザーの購入履歴を直接見る」という新しい線を引いて、AI の作業を楽にする。
  3. 廃止(Deprecation):「古い機能を消す」
    • 点や線を消します。
    • 例:「カート機能」がメンテナンスで使えなくなる。AI は「カート」を使わずに、別の方法で注文を進めなければならない。

3. 実験:200 種類の「生きた世界」を作ってみた

著者たちは、このシステムを使って、1 つの「オンラインショップ」の環境から、200 種類もの異なる進化バージョンを自動生成しました。

  • 結果: 合計 3,000 個のタスク(課題)を作り、最新の AI モデル(GPT-5 や Claude など)をテストしました。

発見された驚きの事実

  • AI は「変化」に弱い: 環境が進化すると、AI の性能が劇的に変わることがわかりました。あるバージョンでは完璧にできたのに、次のバージョン(道具が削除された時)では全くできなくなることもありました。
  • 過去の経験は万能ではない: 「前の会話の内容を記憶させる」だけでは、環境の変化には対応できませんでした。AI は「過去の記憶」をそのまま使うのではなく、**「新しい状況に合わせて思考をリセットし、再構築する」**能力が必要だとわかりました。
  • コストと性能のトレードオフ: 難しい環境では、AI はより多くの道具を使って、より長く会話をする傾向がありました。しかし、それが必ずしも成功につながるとは限りませんでした。

4. この研究の重要性

この研究は、**「AI が現実世界で生き残るためには、静的なテストではなく、動的な進化のテストが必要だ」**と示しました。

  • これまでのテスト: 「同じ道で走る練習」
  • この研究のテスト: 「道が常に変わり、時には橋が崩れる森で、どうやって目的地にたどり着くか」を練習させること。

これにより、私たちが使う AI アシスタントは、API が変わったり、システムが更新されたりしても、パニックにならずに柔軟に対応できる、よりタフで賢い存在になるはずです。


まとめ:一言で言うと?

「AI のテストを、静止した水族館から、常に進化する生きた森に変えた」
これがこの論文が世界に伝えたいメッセージです。AI が本当の意味で「賢い」かどうかは、変化にどう向き合うかで決まるのです。