RetroAgent: From Solving to Evolving via Retrospective Dual Intrinsic Feedback

이 논문은 기존 강화학습의 한계를 극복하고 에이전트가 단순한 문제 해결을 넘어 지속적인 진화를 이루도록 돕기 위해, 과거의 경험을 수치적 피드백과 언어적 교훈으로 변환하여 효율적으로 활용하는 새로운 온라인 강화학습 프레임워크인 RetroAgent 를 제안하고 다양한 복잡한 작업에서 기존 방법들을 압도하는 성능을 입증합니다.

Xiaoying Zhang, Zichen Liu, Yipeng Zhang, Xia Hu, Wenqi Shao

게시일 2026-03-10
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

1. 기존 AI 의 문제: "한 번만 하면 그만"인 학생

기존의 강화학습 (RL) 을 사용하는 AI 는 마치 시험을 한 번 보고 점수만 확인하고 끝내는 학생과 같습니다.

  • 문제점 1 (탐색 부족): 시험에서 60 점만 받아도 "아, 이 방법으로 60 점 받았으니 이거면 됐다"라고 생각하며, 더 좋은 방법 (90 점 이상) 을 찾아보지 않고 멈춥니다. (지나친 수확, 즉 'Exploitation' 문제)
  • 문제점 2 (경험의 부재): 시험을 치르며 배운 교훈이 머릿속 (모델 파라미터) 에 숨겨져 있을 뿐, 나중에 비슷한 문제를 풀 때 "어? 이거 전에 틀렸던 문제랑 비슷한데?"라고 명시적으로 기억해내지 못합니다.

2. RETROAGENT 의 해결책: "성찰하는 현명한 학생"

RETROAGENT 는 매번 시험 (작업) 을 마친 후, 스스로를 돌아보는 (Self-Reflection) 시간을 가집니다. 이때 두 가지 종류의 '내면의 피드백'을 얻어 다음 시험에 대비합니다.

🌟 비유 1: 내면의 숫자 피드백 (Intrinsic Numerical Feedback)

"완벽한 정답이 아니더라도, 조금이라도 더 나아진 걸 칭찬해 주는 선생님"

기존에는 '합격 (1 점)' 아니면 '불합격 (0 점)'만 평가했습니다. 하지만 RETROAGENT 는 진행 상황을 봅니다.

  • 상황: 쇼핑을 하러 갔는데, 원하는 물건을 찾지는 못했지만 '장바구니'까지는 넣는 데 성공했다고 가정해 봅시다.
  • 기존 AI: "물건을 못 샀으니 0 점. 실패야." (다음엔 같은 실수를 반복할 수 있음)
  • RETROAGENT: "물건은 못 샀지만, 이전엔 장바구니도 못 넣었는데 오늘은 넣었네! 이건 큰 진전이야. 이 exploratory(탐색) 행동을 칭찬해 줘야 해."
  • 효과: 완벽한 성공이 아니더라도 작은 진전을 보상해주기 때문에, AI 는 실패를 두려워하지 않고 다양한 시도를 계속하게 됩니다.

🌟 비유 2: 내면의 언어 피드백 (Intrinsic Language Feedback)

"실패 경험을 '요약 노트'로 만들어 다시 꺼내 보는 습관"

AI 는 실패나 성공 경험을 자연어 (말) 로 된 교훈으로 요약하여 '기억 노트 (Memory Buffer)'에 저장합니다.

  • 상황: "빨간색 셔츠를 사려다가 실수로 파란색을 샀다"는 실패를 겪었다고 합시다.
  • 기존 AI: "아, 실수했어." (그리고 잊어버림)
  • RETROAGENT: "아, 빨간색을 찾으려는데 '색상' 필터를 안 썼구나. 다음엔 색상 필터를 먼저 확인하자."라고 구체적인 메모를 남깁니다.
  • 효과: 다음에 비슷한 쇼핑을 할 때, 이 메모를 꺼내어 "어? 이거 전에 '색상 필터'를 안 써서 실패했던 거잖아?"라고 적극적으로 활용합니다.

3. 핵심 기술: "SimUtil-UCB" (가장 좋은 노트를 고르는 방법)

기억 노트가 쌓이면, 어떤 노트를 꺼내야 할지 고민이 생깁니다. RETROAGENT 는 SimUtil-UCB라는 똑똑한 방법을 사용합니다.

  • 유사성 (Similarity): 지금 하는 일과 비슷한 과거의 경험을 먼저 찾습니다. (예: 쇼핑할 때는 쇼핑 관련 노트를 찾음)
  • 유용성 (Utility): 과거에 정말 도움이 되었던 노트를 우선시합니다. (예: "색상 필터 확인"이 도움이 된 적이 많다면 이 노트를 더 자주 봄)
  • 탐색 (Exploration): 너무 익숙한 노트만 보지 않고, 아직 안 써본 새로운 노트도 가끔 꺼내 봅니다. (새로운 아이디어를 발견하기 위함)

이 세 가지를 적절히 섞어서 가장 현명한 조언을 골라냅니다.

4. 실제 성과: "어디서나 잘하는 만능 선수"

이 방법은 4 가지 다른 난이도 높은 게임 (집안일, 온라인 쇼핑, 퍼즐, 폭탄제거) 에서 테스트되었습니다.

  • 결과: 기존 최고의 AI 들보다 성공률이 훨씬 높았습니다. (예: 온라인 쇼핑에서 15% 이상 향상)
  • 특징: 훈련받지 않은 새로운 상황 (예: 전혀 다른 방에서의 집안일) 에서도 빠르게 적응하여 잘 해냈습니다.

5. 요약: 왜 이것이 중요한가요?

기존 AI 는 **"문제를 풀면 끝"**인 반면, RETROAGENT 는 "문제를 풀고 그 경험을 통해 스스로를 업그레이드하는" 방식입니다.

마치 유능한 요리사가 비유할 수 있습니다.

  • 기존 AI: 요리 실패하면 "아, 실패했네" 하고 다음 요리를 똑같이 합니다.
  • RETROAGENT: 실패하면 "소금이 너무 많았구나. 다음엔 소금 양을 줄이자"라고 메모를 남기고, 비슷한 요리를 할 때 그 메모를 보고 더 맛있게 요리합니다.

이처럼 RETROAGENT 는 과거의 경험을 현재와 미래에 연결하여, AI 가 단순히 지시를 따르는 기계가 아니라 스스로 배우고 진화하는 지능체로 만드는 획기적인 기술입니다.

이런 논문을 받은편지함으로 받아보세요

관심사에 맞는 일간 또는 주간 다이제스트. Gist 또는 기술 요약을 당신의 언어로.

Digest 사용해 보기 →