Each language version is independently generated for its own context, not a direct translation.

🚀 "스스로 성장하는 AI 비서"를 만드는 새로운 방법: SAGE

이 논문은 거대 언어 모델 (LLM) 기반 AI 에이전트가 새로운 환경에 투입되었을 때, 어떻게 스스로 배우고 발전할 수 있는지에 대한 혁신적인 방법을 제시합니다.

기존의 AI 는 새로운 일을 만나면 어리둥절해하거나, 같은 실수를 반복하기 일쑤였습니다. 하지만 이 연구팀은 AI 가 **"스킬 라이브러리 (Skill Library)"**라는 나만의 도구함을 만들고, 이를 통해 스스로를 업그레이드하는 시스템을 개발했습니다. 이를 SAGE라고 부릅니다.

이 복잡한 기술을 일상적인 비유로 쉽게 설명해 드릴게요.

1. 문제: "매번 처음부터 배우는 AI"

기존의 AI 에이전트들은 마치 매번 새로운 직장에 들어갈 때마다 '사원 교육'을 다시 받아야 하는 신입 사원과 같습니다.

어제 배운 '엑셀 데이터 정리' 기술을 오늘 '이메일 작성' 업무에 적용하지 못합니다.
새로운 환경 (예: 다른 회사의 시스템) 에 가면, 과거의 경험을 기억하지 못해 다시 헤매야 합니다.
기존 연구들은 AI 가 실수를 하면 "다음엔 이렇게 해봐"라고 **메모 (프롬프트)**만 남겼을 뿐, 실제로 그 기술을 자동으로 도구로 만들어주지는 못했습니다.

2. 해결책: "나만의 도구함 (스킬 라이브러리)"을 만드는 AI

이 연구팀은 AI 에게 스스로 '사용 가능한 도구 (코드 함수)'를 만들어서 도구함에 넣어두는 능력을 가르쳤습니다.

비유: AI 가 "이런 복잡한 작업을 할 때, 매번 하나하나 클릭하는 대신 '자동화 버튼'을 하나 만들어서 저장해두자!"라고 생각하는 것입니다.
예를 들어, "Spotify 에서 친구에게 노래를 공유하는 작업"을 처음 했다면, AI 는 그 과정을 하나의 **'친구에게 노래 공유하기'라는 버튼 (스킬)**으로 만들어 도구함에 저장합니다.
다음에 비슷한 일이 생기면, 매번 처음부터 시작하는 대신 저장된 버튼을 누르기만 하면 됩니다.

3. 핵심 기술: SAGE (스스로 진화하는 AI)

이 시스템을 가능하게 만든 핵심은 SAGE라는 새로운 학습 방법입니다. 두 가지 중요한 아이디어가 들어있습니다.

① "연속된 미션"을 통한 학습 (Sequential Rollout)

기존에는 AI 가 한 번의 작업만 하고 점수를 받았습니다. 하지만 SAGE 는 비슷한 미션 2 개를 연속으로 수행하게 합니다.

비유: 마치 **게임의 '연속 퀘스트'**처럼요.
- 1 번째 퀘스트: "이 복잡한 작업을 해봐." (AI 가 여기서 새로운 '자동화 버튼'을 만들어서 도구함에 넣음)
- 2 번째 퀘스트: "방금 만든 버튼으로 비슷한 작업을 해봐." (AI 가 만든 버튼을 실제로 써봄)
이렇게 하면 AI 는 "내가 만든 도구가 실제로 유용했구나!"라는 것을 깨닫고, 더 좋은 도구를 만들려고 노력하게 됩니다.

② "도구 사용"에 대한 보상 (Skill-integrated Reward)

기존 AI 는 "작업이 성공했으면 점수 100 점"이라고만 받았습니다. 하지만 SAGE 는 두 가지 점수를 줍니다.

작업 성공 점수: 일이 잘 끝났나요?
스킬 활용 점수: 내가 만든 도구를 잘 썼나요?

비유: 요리사가 요리를 잘 끝냈을 때 점수를 주는 것뿐만 아니라, **"새로 만든 레시피 (스킬) 를 다음 요리에 잘 활용했으면 추가 점수"**를 주는 것과 같습니다.
이 점수 시스템 덕분에 AI 는 단순히 일을 끝내는 것뿐만 아니라, 더 효율적인 방법 (도구) 을 만드는 법을 배우게 됩니다.

4. 결과: 얼마나 잘할까요?

이 방법을 실험 (AppWorld 데이터셋) 에 적용한 결과는 놀라웠습니다.

성능 향상: 기존 방법보다 작업 성공률이 8.9% 더 높아졌습니다. 특히 비슷한 작업들이 연속으로 나올 때, AI 가 만든 도구를 활용해 훨씬 잘 해냈습니다.
효율성 극대화:
- 단계를 26% 줄였습니다: (더 적은 클릭과 명령으로 일을 끝냄)
- 생성된 텍스트 (토큰) 를 59% 줄였습니다: (AI 가 덜 말하고 더 많이 행동함)
결론: AI 가 스스로 만든 도구를 활용함으로써, 더 빠르고, 더 정확하며, 더 적은 비용으로 일을 처리할 수 있게 되었습니다.

5. 요약: 왜 이것이 중요한가요?

이 연구는 AI 가 단순히 지시받은 대로만 움직이는 로봇에서, 경험을 바탕으로 나만의 도구를 만들고 스스로 발전하는 지능형 비서로 변모할 수 있는 길을 열었습니다.

과거: "매번 처음부터 배우는 AI"
현재 (SAGE): "어제 배운 기술을 오늘 도구로 만들어, 내일 더 잘하는 AI"

이 기술이 발전하면, 우리가 새로운 앱이나 시스템을 사용할 때 AI 가 **"이건 내가 이미 해결해 본 일이야, 내 도구로 바로 처리할게!"**라고 말하며 우리를 도와주는 날이 머지않았습니다.

Each language version is independently generated for its own context, not a direct translation.

1. 문제 정의 (Problem Statement)

대형 언어 모델 (LLM) 기반 에이전트는 복잡한 추론과 다중 턴 상호작용에서 뛰어난 능력을 보여주지만, 새로운 환경에 배포되었을 때 지속적으로 학습하고 적응하는 데는 한계가 있습니다. 기존 연구들은 에이전트가 과거 경험을 재사용 가능한 '기술 (Skill)'로 변환하여 기술 라이브러리에 저장하고 재사용하는 방식을 제안했으나, 다음과 같은 주요 문제점이 존재했습니다.

프롬프트 의존성: 기존 기술 라이브러리 접근법은 주로 LLM 프롬프팅에 의존합니다. 이는 기본 모델의 지시 따르기 (Instruction Following) 능력에 제한을 받아, 기술의 품질과 적응성을 일정하게 유지하기 어렵게 만듭니다.
학습의 단절: 기존 강화 학습 (RL) 은 개별 작업에 대한 보상만 고려하여, 배포 중 발생하는 새로운 경험으로부터 지속적인 자기 개선이 어렵습니다.
효율성 부족: 복잡한 작업 시나리오에서 에이전트가 매번 API 를 직접 호출하며 단계를 반복하는 경우, 토큰 생성량과 상호작용 단계가 과도하게 증가하여 비효율적입니다.

2. 방법론 (Methodology)

저자들은 이러한 문제를 해결하기 위해 기술 라이브러리를 통합한 자기 개선 에이전트를 위한 새로운 강화 학습 프레임워크인 SAGE (Skill Augmented GRPO for self-Evolution) 를 제안했습니다.

핵심 구성 요소

기술 라이브러리 에이전트 (Skill Library Agent):
- 기존 프레임워크 (예: CodeAct) 를 확장하여, 에이전트가 여러 API 를 직접 호출하는 대신 프로그램 가능한 함수 (Skill) 를 생성하고 이를 호출하는 방식으로 작업을 수행하도록 설계되었습니다.
- 작업 수행과 기술 생성을 통일된 포맷으로 처리하여, 컨텍스트 길이 문제를 완화하고 학습 일관성을 높였습니다.
순차적 롤아웃 (Sequential Rollout):
- 단일 작업이 아닌, 유사한 작업들의 체인 (Task Chain) 을 구성하여 에이전트를 학습시킵니다.
- 예를 들어, 동일한 시나리오 내의 두 가지 유사한 작업 $(q_1, q_2)$ 를 순차적으로 수행합니다.
- $q_1$ 에서 생성된 기술은 $q_2$ 수행 시 라이브러리에 저장되어 즉시 활용됩니다. 이를 통해 후속 작업에서의 성공 보상이 이전 작업의 기술 생성으로 역전파 (Back-propagation) 되도록 합니다.
기술 통합 보상 (Skill-integrated Reward):
- 기존 결과 기반 보상 (Outcome-based Reward) 에 더해, 기술 생성과 활용을 장려하는 추가 보상을 설계했습니다.
- 보상 구조:
  - $R_1$ (첫 번째 작업): 작업 성공 + 해당 작업에서 생성된 기술이 두 번째 작업에서 성공적으로 활용되었을 경우 추가 보상.
  - $R_2$ (두 번째 작업): 작업 성공 + 이전 작업에서 생성된 기술을 활용하여 성공했을 경우 추가 보상.
- 이는 에이전트가 단순히 작업을 끝내는 것을 넘어, 재사용 가능한 고품질 기술을 생성하고 이를 효과적으로 활용하도록 유도합니다.
SAGE 학습 알고리즘:
- GRPO (Group Relative Policy Optimization) 를 기반으로 합니다.
- 기존 GRPO 와 달리, 순차적 롤아웃을 통해 생성된 작업 체인 전체에 대한 기대값을 계산하고, 각 그룹 내에서의 상대적 이점 (Advantage) 을 기술 통합 보상을 기반으로 계산합니다.
- 초기화 전략: 오픈소스 모델이 기술 라이브러리 포맷을 따르는 데 어려움을 겪으므로, 먼저 전문가 (Claude 3.5 Sonnet) 가 생성한 고품질 트래젝토리를 통해 지도 미세 조정 (SFT) 을 수행한 후, SAGE 를 적용합니다.

3. 주요 기여 (Key Contributions)

RL 기반 자기 개선 프레임워크 제안: 프롬프트 의존성을 탈피하고, 강화 학습을 통해 에이전트가 기술 라이브러리를 효과적으로 구축하고 활용할 수 있도록 하는 SAGE를 최초로 제안했습니다.
순차적 롤아웃 및 보상 설계: 유사한 작업 체인을 통한 학습과 기술 생성/활용을 명시적으로 보상하는 메커니즘을 도입하여, 에이전트의 장기적 자기 개선 능력을 극대화했습니다.
효율성과 정확도 동시 달성: 기술 재사용을 통해 복잡한 작업을 더 적은 단계와 토큰으로 해결하면서도 성공률을 높이는 방법을 입증했습니다.

4. 실험 결과 (Results)

AppWorld 데이터셋 (실제 앱 환경 시뮬레이션) 에서 Qwen2.5-32B-Instruct 모델을 기반으로 실험을 수행한 결과, 기존 방법론 대비 압도적인 성능을 보였습니다.

성능 향상:
- Scenario Goal Completion (SGC): 기존 GRPO 기반 에이전트 대비 8.9% 향상 (51.8% → 60.7%). 이는 유사한 작업 간 기술 전이 (Transfer) 능력이 크게 개선되었음을 의미합니다.
- Task Goal Completion (TGC): 69.2% → 72.0% 향상.
효율성 개선:
- 상호작용 단계 (Avg. Steps): 16.4 단계 → 12.1 단계로 26% 감소.
- 생성 토큰 (Avg. Tokens): 3,613 개 → 1,475 개로 59% 감소. 기술 재사용이 토큰 소모를 획기적으로 줄임을 보여줍니다.
비교 분석:
- SFT 만 적용한 모델은 전문가 행동 모방에 그쳐 최적 성능에 미치지 못했으나, SAGE 를 적용한 모델은 모든 베이스라인 (프롬프팅 기반, RL without Skill Library 등) 을 능가했습니다.
- 기술 사용률 (Skill Usage Rate) 과 성공적인 기술 활용률 (Success Skill Usage Rate) 이 SAGE 적용 후 크게 증가했습니다.

5. 의의 및 결론 (Significance)

이 논문은 LLM 기반 에이전트가 새로운 환경에서도 지속적으로 자기 개선 (Self-Improvement) 할 수 있는 길을 열었습니다.

실용적 가치: 기술 라이브러리를 통해 에이전트가 복잡한 작업을 단순화하고, 배포 환경에서 발생하는 새로운 시나리오에 유연하게 대응할 수 있게 되었습니다.
비용 절감: 생성 토큰과 상호작용 단계의 대폭 감소는 실제 서비스 적용 시 연산 비용과 지연 시간을 획기적으로 줄여줍니다.
향후 방향: 현재는 AppWorld 데이터셋에 국한되었으나, 이 프레임워크는 다양한 도구 사용 에이전트 (Tool-using Agents) 로 확장 가능하여, 에이전트의 자율성과 적응성을 높이는 중요한 기반 기술이 될 것입니다.

요약하자면, SAGE는 강화 학습을 통해 에이전트가 스스로 기술을 학습하고 재사용하도록 함으로써, 기존 에이전트의 한계를 극복하고 정확성과 효율성을 동시에 달성한 획기적인 접근법입니다.

Reinforcement Learning for Self-Improving Agent with Skill Library