EvoTool: Self-Evolving Tool-Use Policy Optimization in LLM Agents via Blame-Aware Mutation and Diversity-Aware Selection

Each language version is independently generated for its own context, not a direct translation.

🍳 例え話：4 人の料理チームと「失敗の責任追及」

Imagine you have a team of 4 chefs working together to cook a complex dish (the task).

プランナー (Planner): 献立を決め、手順を考える人。
セレクト (Selector): 必要な食材や道具を選ぶ人。
コーラー (Caller): 実際に調理器具を操作し、火加減や調味料を調整する人。
シンセサイザー (Synthesizer): 出来上がった料理を盛り付け、客に提供する人。

これまでの AI の学習方法には、2 つの大きな問題がありました。

全員を一度に直す方法（モノリシック）：
料理がまずかったとき、「チーム全体が悪い！」として、4 人全員の手順を一度に書き換えてしまいます。
- 問題点: 道具選びが上手だったのに、そのせいで「道具選びも下手になった」という**「巻き添え被害」**が起きます。
1 人だけ直す方法（シングルアスペクト）：
「プランナーが悪いんだ！」と決めつけて、プランナーだけを変えます。
- 問題点: 実際は「道具選び」が間違っていたのに、プランナーだけ変えても直りません。また、他の人が作った影響（エラーの連鎖）を無視してしまいます。

✨ EVOTOOL の新しいアプローチ：「 blame（責任追及）」と「進化」

EVOTOOL は、**「誰のせいで失敗したのかを正確に見極め、その人だけをピンポイントで指導する」**という、まるで優秀な料理長のようなアプローチを取ります。

この仕組みは、3 つのステップで回っています。

1. 🔍 失敗の「犯人探し」（Blame Attribution）

料理が失敗したとき、AI は「なぜ失敗したか」を詳しく分析します。

「献立が難しすぎたのか？」（プランナーのミス）
「間違えた鍋を使っちゃったのか？」（セレクトのミス）
「火が強すぎて焦がしちゃったのか？」（コーラーのミス）
「盛り付けが汚かったのか？」（シンセサイザーのミス）

AI は、**「この失敗は、主に『道具選び（セレクト）』の人のせいだ！」**と、最も責任の重い人だけを特定します。これを「トラジェクトリー・グラウンドド・ブレイム（軌跡に基づく責任追及）」と呼びます。

2. 📝 犯人だけへの「ピンポイント指導」（Targeted Mutation）

特定された「道具選びの人」に対してだけ、自然言語（普通の言葉）でフィードバックを与えます。

「さっきは鍋を選んだけど、実はフライパンが必要だったね。次は『鍋』ではなく『フライパン』を選ぶルールを追加しよう。」
重要: 他の 3 人はそのままにします。だから、上手だった部分は壊れません。

3. 🧬 多様性を保つ「チームの選抜」（Diversity-Aware Selection）

進化の過程で、「一番上手な人」だけを残そうとすると、チーム全体が「似たような考え方」しか持たなくなり、新しいアイデアが出なくなります（多様性の欠如）。
EVOTOOL は、**「この料理には A さんが得意、あの料理には B さんが得意」というように、「得意分野が違うメンバー」**をチームに残します。これにより、どんな難しい料理（タスク）にも対応できる柔軟なチームになります。

🚀 結果：どうなった？

この新しい方法（EVOTOOL）を実験で試したところ、以下の成果がありました。

劇的な成績向上: 既存の AI 手法よりも、テストの点数が5 点以上も上がりました。
効率が良い: 無駄な試行錯誤を減らしたため、計算コスト（トークン使用量）も少なくて済みます。
応用が利く: 一度学んだ「道具選びのスキル」は、別の料理（別のタスク）や、別のシェフ（別の AI モデル）にでもそのまま使えて、高い性能を発揮しました。

💡 まとめ

この論文が伝えているのは、**「AI に失敗から学ぶとき、全体をバラバラに直すのではなく、『どこがダメだったか』を正確に見つけて、その部分だけ優しく、かつ的確に指導すれば、AI は驚くほど早く賢くなる」**ということです。

まるで、子供が料理を失敗したとき、「お前全部ダメだ！」と怒るのではなく、「お前が塩を入れすぎたね。次は塩の量を半分にしてごらん」と教えてあげるような、**「 blame-aware（責任を特定する）」**な進化の仕組みが、AI の未来を切り開く鍵になるのです。

EvoTool: Self-Evolving Tool-Use Policy Optimization in LLM Agents via Blame-Aware Mutation and Diversity-Aware Selection

🍳 例え話：4 人の料理チームと「失敗の責任追及」

✨ EVOTOOL の新しいアプローチ：「 blame（責任追及）」と「進化」

1. 🔍 失敗の「犯人探し」（Blame Attribution）

2. 📝 犯人だけへの「ピンポイント指導」（Targeted Mutation）

3. 🧬 多様性を保つ「チームの選抜」（Diversity-Aware Selection）

🚀 結果：どうなった？

💡 まとめ

EVOTOOL: blame 意識的変異と多様性意識選択による LLM エージェントの自己進化型ツール使用ポリシー最適化

1. 背景と問題定義

2. 提案手法：EVOTOOL

2.1 軌道に基づく責任帰属（Trajectory-Grounded Blame Attribution）

2.2 フィードバック誘導型ターゲット変異（Feedback-Guided Targeted Mutation）

2.3 多様性意識型集団選択（Diversity-Aware Population Selection）

3. 主要な貢献

4. 実験結果

5. 意義と結論

EvoTool: Self-Evolving Tool-Use Policy Optimization in LLM Agents via Blame-Aware Mutation and Diversity-Aware Selection

🍳 例え話：4 人の料理チームと「失敗の責任追及」

✨ EVOTOOL の新しいアプローチ：「 blame（責任追及）」と「進化」

1. 🔍 失敗の「犯人探し」（Blame Attribution）

2. 📝 犯人だけへの「ピンポイント指導」（Targeted Mutation）

3. 🧬 多様性を保つ「チームの選抜」（Diversity-Aware Selection）

🚀 結果：どうなった？

💡 まとめ

EVOTOOL: blame 意識的変異と多様性意識選択による LLM エージェントの自己進化型ツール使用ポリシー最適化

1. 背景と問題定義

2. 提案手法：EVOTOOL

2.1 軌道に基づく責任帰属（Trajectory-Grounded Blame Attribution）

2.2 フィードバック誘導型ターゲット変異（Feedback-Guided Targeted Mutation）

2.3 多様性意識型集団選択（Diversity-Aware Population Selection）

3. 主要な貢献

4. 実験結果

5. 意義と結論

関連論文

Holos: A Web-Scale LLM-Based Multi-Agent System for the Agentic Web

Xpertbench: Expert Level Tasks with Rubrics-Based Evaluation

Compositional Neuro-Symbolic Reasoning

Understanding the Nature of Generative AI as Threshold Logic in High-Dimensional Space

AIVV: Neuro-Symbolic LLM Agent-Integrated Verification and Validation for Trustworthy Autonomous Systems