EvoTool: Self-Evolving Tool-Use Policy Optimization in LLM Agents via Blame-Aware Mutation and Diversity-Aware Selection

이 논문은 지연된 감독과 긴 시간 범위의 궤적에서 발생하는 신용 할당 문제를 해결하기 위해, 모듈별 실패 원인 분석과 피드백 기반 변이, 다양성 유지 선택 메커니즘을 통해 LLM 에이전트의 도구 사용 정책을 자기 진화적으로 최적화하는 'EvoTool' 프레임워크를 제안합니다.

Shuo Yang, Soyeon Caren Han, Xueqi Ma, Yan Li, Mohammad Reza Ghasemi Madani, Eduard Hovy

게시일 2026-03-06
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

🍳 배경: 왜 AI 는 실수를 할까요?

우리가 복잡한 요리를 시키면 (예: "오늘 저녁 메뉴를 계획하고, 재료를 사서, 요리해서 먹게 해줘"), AI 는 여러 단계를 거쳐야 합니다.

  1. 메뉴 계획 (Planner): 무엇을 만들지 정함.
  2. 도구 선택 (Selector): 어떤 칼, 어떤 팬을 쓸지 고름.
  3. 작업 실행 (Caller): 실제로 칼질을 하고 불을 조절함.
  4. 결과 정리 (Synthesizer): 요리가 다 되면 접시에 담고 손님에게 줌.

문제점:
기존 방법들은 이 팀이 실패했을 때, **"아, 실패했네. 전체 팀을 다시 훈련시켜야겠다!"**라고 막연하게 생각하거나, **"아, 칼질만 잘못했네. 칼질만 고치자!"**라고 너무 좁게만 생각했습니다.

  • 전체 수정: 팀 전체를 다 고치려다 보니, 잘하던 요리사가 오히려 망가질 수 있어요. (비효율적)
  • 부분 수정: 칼질만 고쳤는데, 사실 문제는 '메뉴 계획'이 잘못되어서 재료를 잘못 샀던 거였어요. (원인을 못 찾음)

🚀 EVOTOOL 의 해결책: "누가 실수했는지 찾아서, 그 사람만 코칭한다!"

EVOTOOL 은 이 문제를 해결하기 위해 세 가지 마법 같은 단계를 거칩니다.

1. 🕵️‍♂️ "누가 실수했지?" (책임 소재 파악)

요리사가 실패한 요리를 보고, 진단 도구를 꺼냅니다.

  • "음, 재료를 잘못 샀네? → **선택자 (Selector)**의 실수야!"
  • "칼질은 잘했는데 불 조절을 못 했네? → **작업자 (Caller)**의 실수야!"
  • "요리 자체는 잘했는데 접시에 담는 법을 몰랐네? → **정리꾼 (Synthesizer)**의 실수야!"

이처럼 **정확히 누가, 어디서 실수했는지 pinpoint(핀포인트)**으로 찾아냅니다. 이전에는 "팀 전체가 망했다"고만 알았지만, 이제는 "A 가 실수했다"고 정확히 압니다.

2. 📝 "그 사람만 코칭한다" (타겟 수정)

이제 **코치 (Mutator)**가 나옵니다.

  • 만약 선택자가 실수했다면, 코치는 선택자만 불러서 "다음엔 이 재료를 고를 때 이 규칙을 지켜!"라고 **자연어 (사람 말)**로 구체적인 피드백을 줍니다.
  • 다른 팀원들 (계획자, 작업자 등) 은 그대로 둡니다. 그들이 잘하던 방식을 망가뜨리지 않으면서, 실수한 사람만 딱 고치는 것입니다.

3. 🌈 "다양한 재능을 지켜라" (다양성 유지)

기존 방법들은 "가장 잘하는 사람 한 명만 남기고 나머지는 다 버린다"는 방식을 썼어요. 하지만 문제는, 어떤 요리에는 A 가 잘하고, 다른 요리에는 B 가 잘할 수 있다는 거죠.

  • EVOTOOL 은 다양한 재능을 가진 팀원들을 모두 모아둡니다.
  • "이 요리에는 A 가 최고지만, 저 요리에는 B 가 최고야. 둘 다 필요해!"라고 생각하며, 서로 다른 강점을 가진 후보들을 골고루 유지합니다. 이렇게 하면 어떤 상황에서도 실패하지 않는 튼튼한 팀이 됩니다.

🏆 결과: 얼마나 잘할까요?

이 방법을 실험해 보니, 기존에 가장 잘하던 AI 들보다 5 점 이상 더 높은 점수를 받았습니다.

  • 효율성: 불필요한 말 (토큰) 을 덜 쓰면서도 더 잘합니다.
  • 이동성: 한 환경 (예: 요리) 에서 배운 지식을 다른 환경 (예: 여행 계획) 으로 옮겨도 잘 적용됩니다.

💡 한 줄 요약

EVOTOOL은 AI 가 실수했을 때, "전체 다 고쳐!"라고 막연하게 하는 대신, "누가 실수했는지 정확히 찾아서, 그 사람만 구체적으로 코칭하고, 다양한 재능을 가진 팀원들을 모두 살려서" 점점 더 똑똑하게 만들어주는 스마트한 AI 훈련 시스템입니다.

이제 AI 가 요리할 때, 실수한 사람만 조용히 불러서 "다음엔 이렇게 해"라고 알려주면, 팀 전체가 훨씬 더 훌륭해진다는 뜻이죠! 🍳✨

이런 논문을 받은편지함으로 받아보세요

관심사에 맞는 일간 또는 주간 다이제스트. Gist 또는 기술 요약을 당신의 언어로.

Digest 사용해 보기 →