From Self-Evolving Synthetic Data to Verifiable-Reward RL: Post-Training Multi-turn Interactive Tool-Using Agents

이 논문은 고품질의 다턴 도구 사용 데이터를 생성하고 검증 기반 강화 학습을 통해 사용자 시뮬레이션 노이즈를 줄이는 통합 프레임워크인 'EigenData'를 제안하여, 고비용 인간 라벨링 없이도 복잡한 도구 사용 에이전트를 확장 가능하게 학습시키는 방법을 제시합니다.

Jiaxuan Gao, Jiaao Chen, Chuyi He, Shusheng Xu, Di Jin, Yi Wu

게시일 Wed, 11 Ma
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

이 논문은 **"AI 비서가 복잡한 일을 스스로 배우고, 사람과 대화하며 도구를 사용하는 능력을 어떻게 키울 것인가?"**에 대한 해법을 제시합니다.

기존의 AI 는 단순히 질문에 답하는 수준이었지만, 이제는 항공권 예약, 은행 업무, 쇼핑 등 실제 생활에서 여러 단계의 도구 (API) 를 사용하며 사람과 대화해야 하는 복잡한 임무를 수행해야 합니다. 하지만 이런 AI 를 가르치기엔 데이터가 너무 비싸고, AI 가 배우는 과정에서 사람의 행동이 예측 불가능해서 학습이 잘 안 된다는 문제가 있었습니다.

이 논문은 이 문제를 해결하기 위해 두 가지 핵심 전략을 제안합니다. 마치 **"스스로 진화하는 교실"**과 **"엄격한 심판관"**을 동시에 도입한 것과 같습니다.


1. 스스로 진화하는 교실 (AReaL-SEA): "AI 가 AI 를 가르친다"

기존에는 사람이 일일이 AI 가 배울 만한 대화 데이터를 만들어야 했습니다. 하지만 이는 비용이 너무 많이 들고, 모든 상황을 다 만들기 어렵습니다.

이 논문은 AReaL-SEA라는 시스템을 만들었습니다. 이 시스템은 마치 **스스로 교재를 만들고, 스스로 시험을 치르고, 스스로 오답을 고치는 '스스로 진화하는 교실'**과 같습니다.

  • 교재 만들기 (데이터 생성): AI 에이전트들이 서로 역할을 나누어, 항공권 예약이나 통신사 업무 같은 복잡한 상황을 시뮬레이션합니다.
  • 스스로 채점하기 (검증): 생성된 데이터가 정말로 맞는지, 도구가 제대로 작동하는지 AI 심판관이 즉시 확인합니다.
  • 스스로 고치기 (자기 진화): 만약 AI 가 실수를 하거나, 데이터가 부족하다면, 시스템은 "아, 이 부분은 설명이 부족했구나"라고 스스로 깨닫고, 다음에는 더 좋은 교재와 더 엄격한 채점 기준을 만들어냅니다.

비유하자면:

사람이 일일이 문제를 내서 아이를 가르치는 대신, **스스로 문제를 내고, 스스로 정답을 확인하며, 틀린 문제를 분석해 더 좋은 문제를 만드는 '스스로 성장하는 튜터'**를 둔 것과 같습니다.

2. 엄격한 심판관 (검증 기반 강화 학습): "결과가 아니면 0 점"

AI 가 학습할 때, 특히 사람과 대화하는 상황에서는 AI 가 잘해도 가상 사용자 (시뮬레이션) 가 엉뚱한 반응을 하면 AI 가 잘못한 것처럼 오해받을 수 있습니다. 이는 AI 가 혼란을 겪게 만듭니다.

이 논문은 GRPO라는 학습 방법을 사용하면서, 사용자 모델 (가상 사람) 을 먼저 튼튼하게 다듬는 것이 중요하다고 말합니다.

  • 사용자 모델 다듬기: AI 가 배우는 동안 함께 대화할 '가상 사용자'도 먼저 훈련시켜서, AI 의 지시를 정확하게 이해하고 행동하도록 만듭니다. (예: "비행기 취소해"라고 하면, AI 가 취소 버튼을 누르는 것을 막지 않고 자연스럽게 반응하게 함)
  • 결과 기반 심판: 중간에 뭐가 잘못됐는지 추측하지 않습니다. 최종적으로 목표한 일 (예: 항공권 성공 취소) 이 이루어졌는지만 엄격하게 봅니다. 만약 결과가 맞으면 점수를 주고, 틀리면 0 점입니다.
  • 노이즈 제거: 만약 가상 사용자가 너무 엉뚱해서 AI 가 아무리 잘해도 실패하는 경우, 그 데이터는 학습에서 제외합니다. (소음 제거)

비유하자면:

축구 선수가 연습할 때, 동료 선수 (가상 사용자) 가 공을 잡지 못하거나 엉뚱한 곳으로 차버리면 선수가 실수한 것처럼 보일 수 있습니다. 이 논문은 동료 선수도 먼저 훈련시켜서 공을 정확히 받아주게 만든 뒤, 오직 골을 넣었는지 (결과) 만 보고 점수를 매기는 시스템을 도입한 것입니다.


3. 실제 성과: "상위권 AI 를 따라잡다"

이 방법으로 학습시킨 AI 는 항공권 (Airline), 쇼핑 (Retail), 통신 (Telecom) 분야에서 기존에 유명한 상용 AI 들 (GPT, Claude, Gemini 등) 과 맞먹거나, 심지어 더 좋은 성능을 보여주었습니다.

  • 항공권 분야: 73.0% 성공률 (기존 최상위 모델들과 동급)
  • 통신 분야: 98.3% 성공률 (압도적 1 위)

요약: 왜 이 연구가 중요한가?

  1. 비용 절감: 사람이 일일이 데이터를 만들지 않아도, AI 가 스스로 좋은 데이터를 만들어냅니다.
  2. 신뢰성: AI 가 사람과 대화할 때 혼란을 줄이기 위해, '가상 사람'을 먼저 훈련시켜 학습의 노이즈를 없앴습니다.
  3. 확장성: 이 방법은 복잡한 업무 자동화 (고객 상담, 업무 처리 등) 를 위해 AI 를 키우는 새로운 표준이 될 수 있습니다.

한 줄 요약:

"AI 가 스스로 교재를 만들고, 훈련된 가상 사람과 대화하며, 결과만 보고 엄격하게 심판받는 시스템을 만들어, 복잡한 실생활 업무를 완벽하게 수행하는 AI 를 탄생시켰다."