Build, Judge, Optimize: A Blueprint for Continuous Improvement of Multi-Agent Consumer Assistants

이 논문은 프로덕션 수준의 AI 장바구니 쇼핑 도구를 위해 다차원 평가 기준과 LLM 기반 심사 파이프라인을 구축하고, GEPA 기반의 개별 에이전트 최적화 및 MAMuT GEPA를 통한 시스템 전체의 다중 턴 최적화 전략을 제시하여 다중 에이전트 소비자 도구의 지속적인 개선 청사진을 마련합니다.

Alejandro Breen Herrera, Aayush Sheth, Steven G. Xu, Zhucheng Zhan, Charles Wright, Marcus Yearwood, Hongtai Wei, Sudeep Das

게시일 2026-03-05
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

🛒 배경: "내 장바구니를 도와줘!"라는 주문이 왜 어려운가?

상상해 보세요. 당신이 AI 비서에게 "이번 주 장 봐줘. 평소 먹던 거로, 2 만 원 이하로, 그리고 와인도 하나 고르라고"라고 말합니다.
이때 AI 는 단순히 검색만 하는 게 아니라, 당신의 취향을 기억하고, 재고를 확인하고, 예산을 지키면서 장바구니를 채워야 합니다.

하지만 문제는 AI 가 실수할 때입니다.

  • "평소 먹던 거"가 정확히 무엇인지 모를 때,
  • 예산을 초과했을 때,
  • 와인을 고르다가 알코올 함량이 높은 술을 잘못 골랐을 때...

기존의 AI 는 이런 복잡한 상황을 처리하느라 고군분투했습니다. 이 논문은 바로 이 복잡한 쇼핑 AI 팀을 어떻게 평가하고 최적화할지 해결책을 제시합니다.


📋 1 단계: "심사위원"을 세우다 (평가 기준 만들기)

먼저, AI 가 잘했는지 나빴는지 판단할 **엄격한 심사 기준 (Rubric)**을 만들었습니다. 이를 4 가지 영역으로 나누었습니다.

  1. 장보기 실행 (Shopping Execution): 필요한 물건을 다 샀나요? 예산을 지켰나요?
  2. 개인화 (Personalization): 당신이 싫어하는 채소는 넣지 않았나요? 좋아하는 브랜드를 골랐나요?
  3. 대화 품질 (Conversation Quality): 말이 자연스럽고 논리적인가요?
  4. 안전 (Safety): 유해한 내용을 말하거나 위생에 문제가 없는 음식은 추천하지 않았나요?

💡 핵심 아이디어:
과거에는 "AI 가 친절했나요? (1~5 점)"처럼 주관적으로 점수를 매겼다면, 이번 연구는 **"실제로 장바구니에 담긴 물건이 맞나요? (O/X)"**처럼 구체적인 사실로만 점수를 매기게 했습니다.

그리고 이 점수를 매기는 **심사위원 (LLM-as-Judge)**을 훈련시켰습니다. 인간 심사위원과 AI 심사위원의 의견이 84% 에서 91% 이상으로 맞춰지도록 'GEPA'라는 도구를 써서 심사위원의 눈을 똑똑하게 만든 것입니다.


🤖 2 단계: 두 가지 최적화 전략 (AI 팀을 어떻게 훈련시킬까?)

이제 점수가 나오는 '심사위원'을 바탕으로 AI 팀을 훈련시킵니다. 두 가지 방법이 있습니다.

방법 A: "개별 선수 훈련" (Sub-agent GEPA)

  • 비유: 축구팀에서 공격수만 골키퍼 연습을 시키고, 수비수는 공격 연습을 시키는 방식입니다.
  • 방식: AI 팀을 여러 명으로 나누어 (검색 담당, 장바구니 담당, 대화 담당), 각자 맡은 일만 잘하도록 따로따로 훈련시킵니다.
  • 결과: 개별 실수는 줄어들지만, 팀워크 문제는 해결되지 않습니다.
    • 예: 검색 담당이 너무 많은 정보를 가져와서 대화 담당이 말문이 막히는 경우, 혹은 장바구니 담당이 검색 담당의 정보를 제대로 못 받아서 실수하는 경우.

방법 B: "팀 전체 훈련" (MAMUT GEPA) - 이 논문의 하이라이트!

  • 비유: 축구 감독이 팀 전체를 한 번에 훈련시키는 방식입니다. 공격수, 수비수, 골키퍼가 서로 어떻게 협력해야 골을 넣을지, 실수를 막을지 함께 연습합니다.
  • 방식: 모든 AI 팀원들의 말과 행동을 한 번에 시뮬레이션 (가상 실행) 해보고, 전체적인 결과 (장바구니 완성도) 가 좋으면 점수를 줍니다.
  • 효과: 개별 실수뿐만 아니라, 팀원 간의 오해와 소통 실수까지 해결합니다.
    • 실제 성과: 이 방법으로 훈련한 AI 는 **안전성 (Safety)**과 대화 품질에서 훨씬 큰 향상을 보였습니다. 특히 "개인화" 부분에서, 검색 담당이 찾아온 정보를 대화 담당이 잘 전달하는 등 팀워크가 획기적으로 좋아졌습니다.

🏆 결론: 왜 이 연구가 중요한가?

이 논문은 "AI 가 혼자 일하는 게 아니라, 여러 AI 가 팀을 이뤄 일할 때" 어떻게 해야 실패를 줄이고 성공할 수 있는지 보여줍니다.

  • 기존 방식: 각자 잘하라고 가르치면, 팀워크는 망가질 수 있음.
  • 이 논문의 방식: **전체 시나리오 (Trajectory)**를 보고 점수를 매겨, 팀 전체가 협력하도록 훈련시킴.

마치 훌륭한 슈퍼마켓 매니저가 각 직원의 업무 능력만 보는 게 아니라, 고객이 만족하며 장을 보고 나가는 전체 과정을 보고 팀을 지휘하는 것과 같습니다.

이 연구는 앞으로 우리가 쇼핑, 여행, 의료 등 복잡한 일을 AI 에게 맡길 때, AI 가 단순히 "말은 잘하는" 수준을 넘어, 실제로 "일을 잘해내는" 생산적인 파트너가 될 수 있는 길을 열어주었습니다.