EvoTool: Self-Evolving Tool-Use Policy Optimization in LLM Agents via Blame-Aware Mutation and Diversity-Aware Selection

Each language version is independently generated for its own context, not a direct translation.

🍳 배경: 왜 AI 는 실수를 할까요?

우리가 복잡한 요리를 시키면 (예: "오늘 저녁 메뉴를 계획하고, 재료를 사서, 요리해서 먹게 해줘"), AI 는 여러 단계를 거쳐야 합니다.

메뉴 계획 (Planner): 무엇을 만들지 정함.
도구 선택 (Selector): 어떤 칼, 어떤 팬을 쓸지 고름.
작업 실행 (Caller): 실제로 칼질을 하고 불을 조절함.
결과 정리 (Synthesizer): 요리가 다 되면 접시에 담고 손님에게 줌.

문제점:
기존 방법들은 이 팀이 실패했을 때, **"아, 실패했네. 전체 팀을 다시 훈련시켜야겠다!"**라고 막연하게 생각하거나, **"아, 칼질만 잘못했네. 칼질만 고치자!"**라고 너무 좁게만 생각했습니다.

전체 수정: 팀 전체를 다 고치려다 보니, 잘하던 요리사가 오히려 망가질 수 있어요. (비효율적)
부분 수정: 칼질만 고쳤는데, 사실 문제는 '메뉴 계획'이 잘못되어서 재료를 잘못 샀던 거였어요. (원인을 못 찾음)

🚀 EVOTOOL 의 해결책: "누가 실수했는지 찾아서, 그 사람만 코칭한다!"

EVOTOOL 은 이 문제를 해결하기 위해 세 가지 마법 같은 단계를 거칩니다.

1. 🕵️‍♂️ "누가 실수했지?" (책임 소재 파악)

요리사가 실패한 요리를 보고, 진단 도구를 꺼냅니다.

"음, 재료를 잘못 샀네? → **선택자 (Selector)**의 실수야!"
"칼질은 잘했는데 불 조절을 못 했네? → **작업자 (Caller)**의 실수야!"
"요리 자체는 잘했는데 접시에 담는 법을 몰랐네? → **정리꾼 (Synthesizer)**의 실수야!"

이처럼 **정확히 누가, 어디서 실수했는지 pinpoint(핀포인트)**으로 찾아냅니다. 이전에는 "팀 전체가 망했다"고만 알았지만, 이제는 "A 가 실수했다"고 정확히 압니다.

2. 📝 "그 사람만 코칭한다" (타겟 수정)

이제 **코치 (Mutator)**가 나옵니다.

만약 선택자가 실수했다면, 코치는 선택자만 불러서 "다음엔 이 재료를 고를 때 이 규칙을 지켜!"라고 **자연어 (사람 말)**로 구체적인 피드백을 줍니다.
다른 팀원들 (계획자, 작업자 등) 은 그대로 둡니다. 그들이 잘하던 방식을 망가뜨리지 않으면서, 실수한 사람만 딱 고치는 것입니다.

3. 🌈 "다양한 재능을 지켜라" (다양성 유지)

기존 방법들은 "가장 잘하는 사람 한 명만 남기고 나머지는 다 버린다"는 방식을 썼어요. 하지만 문제는, 어떤 요리에는 A 가 잘하고, 다른 요리에는 B 가 잘할 수 있다는 거죠.

EVOTOOL 은 다양한 재능을 가진 팀원들을 모두 모아둡니다.
"이 요리에는 A 가 최고지만, 저 요리에는 B 가 최고야. 둘 다 필요해!"라고 생각하며, 서로 다른 강점을 가진 후보들을 골고루 유지합니다. 이렇게 하면 어떤 상황에서도 실패하지 않는 튼튼한 팀이 됩니다.

🏆 결과: 얼마나 잘할까요?

이 방법을 실험해 보니, 기존에 가장 잘하던 AI 들보다 5 점 이상 더 높은 점수를 받았습니다.

효율성: 불필요한 말 (토큰) 을 덜 쓰면서도 더 잘합니다.
이동성: 한 환경 (예: 요리) 에서 배운 지식을 다른 환경 (예: 여행 계획) 으로 옮겨도 잘 적용됩니다.

💡 한 줄 요약

EVOTOOL은 AI 가 실수했을 때, "전체 다 고쳐!"라고 막연하게 하는 대신, "누가 실수했는지 정확히 찾아서, 그 사람만 구체적으로 코칭하고, 다양한 재능을 가진 팀원들을 모두 살려서" 점점 더 똑똑하게 만들어주는 스마트한 AI 훈련 시스템입니다.

이제 AI 가 요리할 때, 실수한 사람만 조용히 불러서 "다음엔 이렇게 해"라고 알려주면, 팀 전체가 훨씬 더 훌륭해진다는 뜻이죠! 🍳✨

EvoTool: Self-Evolving Tool-Use Policy Optimization in LLM Agents via Blame-Aware Mutation and Diversity-Aware Selection

🍳 배경: 왜 AI 는 실수를 할까요?

🚀 EVOTOOL 의 해결책: "누가 실수했는지 찾아서, 그 사람만 코칭한다!"

1. 🕵️‍♂️ "누가 실수했지?" (책임 소재 파악)

2. 📝 "그 사람만 코칭한다" (타겟 수정)

3. 🌈 "다양한 재능을 지켜라" (다양성 유지)

🏆 결과: 얼마나 잘할까요?

💡 한 줄 요약

1. 문제 정의 (Problem Definition)

2. 제안 방법론: EVOTOOL (Methodology)

A. 궤적 기반 책임 귀속 (Trajectory-Grounded Blame Attribution)

B. 피드백 유도 표적 변이 (Feedback-Guided Targeted Mutation)

C. 다양성 인식 인구 선택 (Diversity-Aware Population Selection)

3. 주요 기여 (Key Contributions)

4. 실험 결과 (Results)

5. 의의 및 결론 (Significance)

EvoTool: Self-Evolving Tool-Use Policy Optimization in LLM Agents via Blame-Aware Mutation and Diversity-Aware Selection

🍳 배경: 왜 AI 는 실수를 할까요?

🚀 EVOTOOL 의 해결책: "누가 실수했는지 찾아서, 그 사람만 코칭한다!"

1. 🕵️‍♂️ "누가 실수했지?" (책임 소재 파악)

2. 📝 "그 사람만 코칭한다" (타겟 수정)

3. 🌈 "다양한 재능을 지켜라" (다양성 유지)

🏆 결과: 얼마나 잘할까요?

💡 한 줄 요약

1. 문제 정의 (Problem Definition)

2. 제안 방법론: EVOTOOL (Methodology)

A. 궤적 기반 책임 귀속 (Trajectory-Grounded Blame Attribution)

B. 피드백 유도 표적 변이 (Feedback-Guided Targeted Mutation)

C. 다양성 인식 인구 선택 (Diversity-Aware Population Selection)

3. 주요 기여 (Key Contributions)

4. 실험 결과 (Results)

5. 의의 및 결론 (Significance)

유사한 논문

Holos: A Web-Scale LLM-Based Multi-Agent System for the Agentic Web

Xpertbench: Expert Level Tasks with Rubrics-Based Evaluation

Compositional Neuro-Symbolic Reasoning

Understanding the Nature of Generative AI as Threshold Logic in High-Dimensional Space

AIVV: Neuro-Symbolic LLM Agent-Integrated Verification and Validation for Trustworthy Autonomous Systems