Reinforcement Learning for Self-Improving Agent with Skill Library

이 논문은 LLM 에이전트의 지속적인 자기 개선과 적응 능력을 향상시키기 위해, 이전 작업에서 생성된 기술이 축적되어 후속 작업에 활용되도록 하는 '시퀀셜 롤아웃'과 기술 통합 보상 메커니즘을 도입한 강화 학습 프레임워크인 SAGE 를 제안하고, AppWorld 환경에서 기존 방법보다 정확도와 효율성을 크게 개선한 결과를 입증합니다.

Jiongxiao Wang, Qiaojing Yan, Yawei Wang, Yijun Tian, Soumya Smruti Mishra, Zhichao Xu, Megha Gandhi, Panpan Xu, Lin Lee Cheong

게시일 Wed, 11 Ma
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

🚀 "스스로 성장하는 AI 비서"를 만드는 새로운 방법: SAGE

이 논문은 거대 언어 모델 (LLM) 기반 AI 에이전트가 새로운 환경에 투입되었을 때, 어떻게 스스로 배우고 발전할 수 있는지에 대한 혁신적인 방법을 제시합니다.

기존의 AI 는 새로운 일을 만나면 어리둥절해하거나, 같은 실수를 반복하기 일쑤였습니다. 하지만 이 연구팀은 AI 가 **"스킬 라이브러리 (Skill Library)"**라는 나만의 도구함을 만들고, 이를 통해 스스로를 업그레이드하는 시스템을 개발했습니다. 이를 SAGE라고 부릅니다.

이 복잡한 기술을 일상적인 비유로 쉽게 설명해 드릴게요.


1. 문제: "매번 처음부터 배우는 AI"

기존의 AI 에이전트들은 마치 매번 새로운 직장에 들어갈 때마다 '사원 교육'을 다시 받아야 하는 신입 사원과 같습니다.

  • 어제 배운 '엑셀 데이터 정리' 기술을 오늘 '이메일 작성' 업무에 적용하지 못합니다.
  • 새로운 환경 (예: 다른 회사의 시스템) 에 가면, 과거의 경험을 기억하지 못해 다시 헤매야 합니다.
  • 기존 연구들은 AI 가 실수를 하면 "다음엔 이렇게 해봐"라고 **메모 (프롬프트)**만 남겼을 뿐, 실제로 그 기술을 자동으로 도구로 만들어주지는 못했습니다.

2. 해결책: "나만의 도구함 (스킬 라이브러리)"을 만드는 AI

이 연구팀은 AI 에게 스스로 '사용 가능한 도구 (코드 함수)'를 만들어서 도구함에 넣어두는 능력을 가르쳤습니다.

  • 비유: AI 가 "이런 복잡한 작업을 할 때, 매번 하나하나 클릭하는 대신 '자동화 버튼'을 하나 만들어서 저장해두자!"라고 생각하는 것입니다.
  • 예를 들어, "Spotify 에서 친구에게 노래를 공유하는 작업"을 처음 했다면, AI 는 그 과정을 하나의 **'친구에게 노래 공유하기'라는 버튼 (스킬)**으로 만들어 도구함에 저장합니다.
  • 다음에 비슷한 일이 생기면, 매번 처음부터 시작하는 대신 저장된 버튼을 누르기만 하면 됩니다.

3. 핵심 기술: SAGE (스스로 진화하는 AI)

이 시스템을 가능하게 만든 핵심은 SAGE라는 새로운 학습 방법입니다. 두 가지 중요한 아이디어가 들어있습니다.

① "연속된 미션"을 통한 학습 (Sequential Rollout)

기존에는 AI 가 한 번의 작업만 하고 점수를 받았습니다. 하지만 SAGE 는 비슷한 미션 2 개를 연속으로 수행하게 합니다.

  • 비유: 마치 **게임의 '연속 퀘스트'**처럼요.
    • 1 번째 퀘스트: "이 복잡한 작업을 해봐." (AI 가 여기서 새로운 '자동화 버튼'을 만들어서 도구함에 넣음)
    • 2 번째 퀘스트: "방금 만든 버튼으로 비슷한 작업을 해봐." (AI 가 만든 버튼을 실제로 써봄)
  • 이렇게 하면 AI 는 "내가 만든 도구가 실제로 유용했구나!"라는 것을 깨닫고, 더 좋은 도구를 만들려고 노력하게 됩니다.

② "도구 사용"에 대한 보상 (Skill-integrated Reward)

기존 AI 는 "작업이 성공했으면 점수 100 점"이라고만 받았습니다. 하지만 SAGE 는 두 가지 점수를 줍니다.

  1. 작업 성공 점수: 일이 잘 끝났나요?
  2. 스킬 활용 점수: 내가 만든 도구를 잘 썼나요?
  • 비유: 요리사가 요리를 잘 끝냈을 때 점수를 주는 것뿐만 아니라, **"새로 만든 레시피 (스킬) 를 다음 요리에 잘 활용했으면 추가 점수"**를 주는 것과 같습니다.
  • 이 점수 시스템 덕분에 AI 는 단순히 일을 끝내는 것뿐만 아니라, 더 효율적인 방법 (도구) 을 만드는 법을 배우게 됩니다.

4. 결과: 얼마나 잘할까요?

이 방법을 실험 (AppWorld 데이터셋) 에 적용한 결과는 놀라웠습니다.

  • 성능 향상: 기존 방법보다 작업 성공률이 8.9% 더 높아졌습니다. 특히 비슷한 작업들이 연속으로 나올 때, AI 가 만든 도구를 활용해 훨씬 잘 해냈습니다.
  • 효율성 극대화:
    • 단계를 26% 줄였습니다: (더 적은 클릭과 명령으로 일을 끝냄)
    • 생성된 텍스트 (토큰) 를 59% 줄였습니다: (AI 가 덜 말하고 더 많이 행동함)
  • 결론: AI 가 스스로 만든 도구를 활용함으로써, 더 빠르고, 더 정확하며, 더 적은 비용으로 일을 처리할 수 있게 되었습니다.

5. 요약: 왜 이것이 중요한가요?

이 연구는 AI 가 단순히 지시받은 대로만 움직이는 로봇에서, 경험을 바탕으로 나만의 도구를 만들고 스스로 발전하는 지능형 비서로 변모할 수 있는 길을 열었습니다.

  • 과거: "매번 처음부터 배우는 AI"
  • 현재 (SAGE): "어제 배운 기술을 오늘 도구로 만들어, 내일 더 잘하는 AI"

이 기술이 발전하면, 우리가 새로운 앱이나 시스템을 사용할 때 AI 가 **"이건 내가 이미 해결해 본 일이야, 내 도구로 바로 처리할게!"**라고 말하며 우리를 도와주는 날이 머지않았습니다.