EvoTool: Self-Evolving Tool-Use Policy Optimization in LLM Agents via Blame-Aware Mutation and Diversity-Aware Selection

本論文は、遅延した教師信号と長期タスクにおけるクレジット割り当ての困難さに対処するため、失敗を特定モジュールに帰属させ、自然言語によるフィードバックに基づきモジュール単位で変異を行い、多様性を維持する選択を行う「EvoTool」という、モジュール化されたツール使用ポリシーを自己進化的に最適化する新しいフレームワークを提案し、複数のベンチマークで既存手法を上回る性能を実証しています。

Shuo Yang, Soyeon Caren Han, Xueqi Ma, Yan Li, Mohammad Reza Ghasemi Madani, Eduard Hovy

公開日 2026-03-06
📖 1 分で読めます☕ さくっと読める

Each language version is independently generated for its own context, not a direct translation.

🍳 例え話:4 人の料理チームと「失敗の責任追及」

Imagine you have a team of 4 chefs working together to cook a complex dish (the task).

  • プランナー (Planner): 献立を決め、手順を考える人。
  • セレクト (Selector): 必要な食材や道具を選ぶ人。
  • コーラー (Caller): 実際に調理器具を操作し、火加減や調味料を調整する人。
  • シンセサイザー (Synthesizer): 出来上がった料理を盛り付け、客に提供する人。

これまでの AI の学習方法には、2 つの大きな問題がありました。

  1. 全員を一度に直す方法(モノリシック):
    料理がまずかったとき、「チーム全体が悪い!」として、4 人全員の手順を一度に書き換えてしまいます。

    • 問題点: 道具選びが上手だったのに、そのせいで「道具選びも下手になった」という**「巻き添え被害」**が起きます。
  2. 1 人だけ直す方法(シングルアスペクト):
    「プランナーが悪いんだ!」と決めつけて、プランナーだけを変えます。

    • 問題点: 実際は「道具選び」が間違っていたのに、プランナーだけ変えても直りません。また、他の人が作った影響(エラーの連鎖)を無視してしまいます。

✨ EVOTOOL の新しいアプローチ:「 blame(責任追及)」と「進化」

EVOTOOL は、**「誰のせいで失敗したのかを正確に見極め、その人だけをピンポイントで指導する」**という、まるで優秀な料理長のようなアプローチを取ります。

この仕組みは、3 つのステップで回っています。

1. 🔍 失敗の「犯人探し」(Blame Attribution)

料理が失敗したとき、AI は「なぜ失敗したか」を詳しく分析します。

  • 「献立が難しすぎたのか?」(プランナーのミス)
  • 「間違えた鍋を使っちゃったのか?」(セレクトのミス)
  • 「火が強すぎて焦がしちゃったのか?」(コーラーのミス)
  • 「盛り付けが汚かったのか?」(シンセサイザーのミス)

AI は、**「この失敗は、主に『道具選び(セレクト)』の人のせいだ!」**と、最も責任の重い人だけを特定します。これを「トラジェクトリー・グラウンドド・ブレイム(軌跡に基づく責任追及)」と呼びます。

2. 📝 犯人だけへの「ピンポイント指導」(Targeted Mutation)

特定された「道具選びの人」に対してだけ、自然言語(普通の言葉)でフィードバックを与えます。

  • 「さっきは鍋を選んだけど、実はフライパンが必要だったね。次は『鍋』ではなく『フライパン』を選ぶルールを追加しよう。」
  • 重要: 他の 3 人はそのままにします。だから、上手だった部分は壊れません。

3. 🧬 多様性を保つ「チームの選抜」(Diversity-Aware Selection)

進化の過程で、「一番上手な人」だけを残そうとすると、チーム全体が「似たような考え方」しか持たなくなり、新しいアイデアが出なくなります(多様性の欠如)。
EVOTOOL は、**「この料理には A さんが得意、あの料理には B さんが得意」というように、「得意分野が違うメンバー」**をチームに残します。これにより、どんな難しい料理(タスク)にも対応できる柔軟なチームになります。


🚀 結果:どうなった?

この新しい方法(EVOTOOL)を実験で試したところ、以下の成果がありました。

  • 劇的な成績向上: 既存の AI 手法よりも、テストの点数が5 点以上も上がりました。
  • 効率が良い: 無駄な試行錯誤を減らしたため、計算コスト(トークン使用量)も少なくて済みます。
  • 応用が利く: 一度学んだ「道具選びのスキル」は、別の料理(別のタスク)や、別のシェフ(別の AI モデル)にでもそのまま使えて、高い性能を発揮しました。

💡 まとめ

この論文が伝えているのは、**「AI に失敗から学ぶとき、全体をバラバラに直すのではなく、『どこがダメだったか』を正確に見つけて、その部分だけ優しく、かつ的確に指導すれば、AI は驚くほど早く賢くなる」**ということです。

まるで、子供が料理を失敗したとき、「お前全部ダメだ!」と怒るのではなく、「お前が塩を入れすぎたね。次は塩の量を半分にしてごらん」と教えてあげるような、**「 blame-aware(責任を特定する)」**な進化の仕組みが、AI の未来を切り開く鍵になるのです。

このような論文をメールで受け取る

あなたの興味に合わせた毎日または毎週のダイジェスト。Gistまたは技術要約を、あなたの言語で。

Digest を試す →