RetroAgent: From Solving to Evolving via Retrospective Dual Intrinsic Feedback

Each language version is independently generated for its own context, not a direct translation.

1. 기존 AI 의 문제: "한 번만 하면 그만"인 학생

기존의 강화학습 (RL) 을 사용하는 AI 는 마치 시험을 한 번 보고 점수만 확인하고 끝내는 학생과 같습니다.

문제점 1 (탐색 부족): 시험에서 60 점만 받아도 "아, 이 방법으로 60 점 받았으니 이거면 됐다"라고 생각하며, 더 좋은 방법 (90 점 이상) 을 찾아보지 않고 멈춥니다. (지나친 수확, 즉 'Exploitation' 문제)
문제점 2 (경험의 부재): 시험을 치르며 배운 교훈이 머릿속 (모델 파라미터) 에 숨겨져 있을 뿐, 나중에 비슷한 문제를 풀 때 "어? 이거 전에 틀렸던 문제랑 비슷한데?"라고 명시적으로 기억해내지 못합니다.

2. RETROAGENT 의 해결책: "성찰하는 현명한 학생"

RETROAGENT 는 매번 시험 (작업) 을 마친 후, 스스로를 돌아보는 (Self-Reflection) 시간을 가집니다. 이때 두 가지 종류의 '내면의 피드백'을 얻어 다음 시험에 대비합니다.

🌟 비유 1: 내면의 숫자 피드백 (Intrinsic Numerical Feedback)

"완벽한 정답이 아니더라도, 조금이라도 더 나아진 걸 칭찬해 주는 선생님"

기존에는 '합격 (1 점)' 아니면 '불합격 (0 점)'만 평가했습니다. 하지만 RETROAGENT 는 진행 상황을 봅니다.

상황: 쇼핑을 하러 갔는데, 원하는 물건을 찾지는 못했지만 '장바구니'까지는 넣는 데 성공했다고 가정해 봅시다.
기존 AI: "물건을 못 샀으니 0 점. 실패야." (다음엔 같은 실수를 반복할 수 있음)
RETROAGENT: "물건은 못 샀지만, 이전엔 장바구니도 못 넣었는데 오늘은 넣었네! 이건 큰 진전이야. 이 exploratory(탐색) 행동을 칭찬해 줘야 해."
효과: 완벽한 성공이 아니더라도 작은 진전을 보상해주기 때문에, AI 는 실패를 두려워하지 않고 다양한 시도를 계속하게 됩니다.

🌟 비유 2: 내면의 언어 피드백 (Intrinsic Language Feedback)

"실패 경험을 '요약 노트'로 만들어 다시 꺼내 보는 습관"

AI 는 실패나 성공 경험을 자연어 (말) 로 된 교훈으로 요약하여 '기억 노트 (Memory Buffer)'에 저장합니다.

상황: "빨간색 셔츠를 사려다가 실수로 파란색을 샀다"는 실패를 겪었다고 합시다.
기존 AI: "아, 실수했어." (그리고 잊어버림)
RETROAGENT: "아, 빨간색을 찾으려는데 '색상' 필터를 안 썼구나. 다음엔 색상 필터를 먼저 확인하자."라고 구체적인 메모를 남깁니다.
효과: 다음에 비슷한 쇼핑을 할 때, 이 메모를 꺼내어 "어? 이거 전에 '색상 필터'를 안 써서 실패했던 거잖아?"라고 적극적으로 활용합니다.

3. 핵심 기술: "SimUtil-UCB" (가장 좋은 노트를 고르는 방법)

기억 노트가 쌓이면, 어떤 노트를 꺼내야 할지 고민이 생깁니다. RETROAGENT 는 SimUtil-UCB라는 똑똑한 방법을 사용합니다.

유사성 (Similarity): 지금 하는 일과 비슷한 과거의 경험을 먼저 찾습니다. (예: 쇼핑할 때는 쇼핑 관련 노트를 찾음)
유용성 (Utility): 과거에 정말 도움이 되었던 노트를 우선시합니다. (예: "색상 필터 확인"이 도움이 된 적이 많다면 이 노트를 더 자주 봄)
탐색 (Exploration): 너무 익숙한 노트만 보지 않고, 아직 안 써본 새로운 노트도 가끔 꺼내 봅니다. (새로운 아이디어를 발견하기 위함)

이 세 가지를 적절히 섞어서 가장 현명한 조언을 골라냅니다.

4. 실제 성과: "어디서나 잘하는 만능 선수"

이 방법은 4 가지 다른 난이도 높은 게임 (집안일, 온라인 쇼핑, 퍼즐, 폭탄제거) 에서 테스트되었습니다.

결과: 기존 최고의 AI 들보다 성공률이 훨씬 높았습니다. (예: 온라인 쇼핑에서 15% 이상 향상)
특징: 훈련받지 않은 새로운 상황 (예: 전혀 다른 방에서의 집안일) 에서도 빠르게 적응하여 잘 해냈습니다.

5. 요약: 왜 이것이 중요한가요?

기존 AI 는 **"문제를 풀면 끝"**인 반면, RETROAGENT 는 "문제를 풀고 그 경험을 통해 스스로를 업그레이드하는" 방식입니다.

마치 유능한 요리사가 비유할 수 있습니다.

기존 AI: 요리 실패하면 "아, 실패했네" 하고 다음 요리를 똑같이 합니다.
RETROAGENT: 실패하면 "소금이 너무 많았구나. 다음엔 소금 양을 줄이자"라고 메모를 남기고, 비슷한 요리를 할 때 그 메모를 보고 더 맛있게 요리합니다.

이처럼 RETROAGENT 는 과거의 경험을 현재와 미래에 연결하여, AI 가 단순히 지시를 따르는 기계가 아니라 스스로 배우고 진화하는 지능체로 만드는 획기적인 기술입니다.

Each language version is independently generated for its own context, not a direct translation.

1. 연구 배경 및 문제 정의 (Problem)

대형 언어 모델 (LLM) 기반 에이전트는 강화 학습 (RL) 을 통해 복잡한 상호작용 작업을 수행하는 데 큰 잠재력을 보여주고 있습니다. 그러나 기존의 표준 RL 패러다임은 다음과 같은 두 가지 주요 한계를 가지고 있습니다.

과도한 활용 (Exploitation) 과 최적화 편향: 에이전트가 단순히 문제를 해결하는 데만 집중하여, 최적의 전략이 아닌 국소 최적해 (suboptimal strategy) 에 빠르게 수렴하는 경향이 있습니다. 이는 충분한 탐색 (exploration) 이 부족하기 때문입니다.
암묵적 지식과 비효율적인 경험 학습: 학습된 지식이 모델 파라미터 내부에 암묵적으로 인코딩되어 있어, 명시적으로 검색하거나 재사용하기 어렵습니다. 이로 인해 과거의 성공/실패 경험을 명시적으로 활용하여 의사결정을 개선하는 '지속적인 적응 (continuous adaptation)'이 어렵습니다.

기존 연구들은 탐색을 촉진하거나 명시적인 메모리 메커니즘을 도입하는 등 이 두 문제를 개별적으로 해결하려 했으나, 문제 해결과 지속적인 적응 사이의 간극을 메우지는 못했습니다.

2. 제안 방법론: RETROAGENT (Methodology)

저자들은 에이전트가 단순히 문제를 '해결'하는 것을 넘어, 경험을 통해 '진화 (evolving)'할 수 있도록 하는 온라인 RL 프레임워크인 RETROAGENT를 제안합니다. 핵심은 사후 자기 성찰 (Hindsight Self-Reflection) 메커니즘을 통해 생성된 **이중 내재적 피드백 (Dual Intrinsic Feedback)**을 활용하는 것입니다.

A. 이중 내재적 피드백 (Dual Intrinsic Feedback)

에이전트는 각 에피소드 종료 후 자신의 궤적을 분석하여 두 가지 형태의 피드백을 생성합니다.

내재적 수치 피드백 (Intrinsic Numerical Feedback):
- 목적: 탐색을 장려하고 국소 최적해 수렴을 방지.
- 메커니즘: 이전 시도 대비 **점진적인 서브태스크 완료 (incremental subtask completion)**를 추적합니다. 예를 들어, 최종 구매는 실패했지만 원하는 상품을 찾았거나 필터링을 성공적으로 수행했다면 이를 '잠재적 점수 (potential score)'로 평가합니다.
- 보상: 이 점수가 과거의 역사적 최선치 (baseline) 를 초과할 경우, 에이전트에 내재적 보상 ( $R_{int}$ ) 을 부여하여 유망한 탐색 행위를 강화합니다.
내재적 언어 피드백 (Intrinsic Language Feedback):
- 목적: 과거의 경험을 명시적인 지식으로 추출하여 재사용.
- 메커니즘: 성공 및 실패 궤적에서 **실행 가능한 교훈 (actionable lessons)**을 자연어 형태로 추출하여 메모리 버퍼에 저장합니다.
- 검색 전략 (SimUtil-UCB): 저장된 교훈을 검색할 때 단순히 의미적 유사성 (Semantic Similarity) 만 고려하는 것이 아니라, **유용성 (Utility)**과 **탐색 (Exploration)**을 균형 있게 고려하는 SimUtil-UCB 전략을 사용합니다.
  - 유사성: 현재 작업과 관련된 교훈인지 확인.
  - 유용성: 과거에 해당 교훈이 작업 성공에 기여했는지 평가 (지수 이동 평균 기반).
  - UCB (Upper Confidence Bound): 잘 사용되지 않은 잠재적 가치가 높은 교훈을 탐색하도록 장려하여 메모리 편향을 방지.

B. 최적화 방식

RETROAGENT 는 두 가지 변형으로 구현됩니다.

In-Context 변형: 성찰 기능을 고정된 프롬프트 (In-context learning) 를 통해 수행.
RL-Trained 변형: 의사결정 정책과 성찰 능력을 **공동 최적화 (Joint Optimization)**합니다. 성찰의 정확도를 평가하는 보상 ( $R_{reflect}$ ) 을 추가하여 에이전트가 스스로를 더 정확하게 평가하도록 학습시킵니다.

3. 주요 기여 (Key Contributions)

새로운 RL 패러다임: 문제 해결 (Solving) 에서 지속적인 적응 (Evolving) 으로의 전환을 가능하게 하는 '사후 성찰' 기반의 이중 내재적 피드백 프레임워크를 제안했습니다.
SimUtil-UCB 검색 전략: 의미적 유사성, 과거 유용성, 그리고 탐색 균형을 동시에 고려하여 메모리에서 가장 가치 있는 경험을 효과적으로 추출하는 새로운 알고리즘을 개발했습니다.
성찰 메커니즘의 정교화: 단일 궤적 분석 대신 **쌍대 유도 (Pairwise Induction, 성공/실패 궤적 비교)**를 통해 더 정확한 잠재 점수와 고품질의 교훈을 생성하는 방법을 제시했습니다.

4. 실험 결과 (Results)

Qwen-2.5-7B-Instruct 및 Llama-3.1-8B-Instruct 모델을 사용하여 4 가지 복잡한 에이전트 작업 (ALFWorld, WebShop, Sokoban, MineSweeper) 에서 실험을 수행했습니다.

성능 향상 (SOTA 달성):
- 기존 GRPO (Group Relative Policy Optimization) 기반 에이전트 대비 **ALFWorld(+18.3%), WebShop(+15.4%), Sokoban(+27.1%), MineSweeper(+8.9%)**에서 현저히 높은 성공률을 기록했습니다.
- 특히 WebShop 과 Sokoban 에서 기존 최첨단 방법론 (GiGPO, SkillRL 등) 을 압도하는 성능을 보였습니다.
테스트 시간 적응 (Test-Time Adaptation):
- 제한된 시도 횟수 내에서 과제를 완료할 확률 (Discovery@k) 이 매우 높게 나타났으며, 분포 외 (OOD) 시나리오에서도 강력한 일반화 능력을 입증했습니다.
학습 효율성:
- 전체 학습 시간은 GRPO 보다 다소 길지만, GRPO 가 달성하는 최고 성능에 도달하는 데 걸리는 시간이 약 32~46% 단축되어 학습 수렴 속도가 빠릅니다.
이중 피드백의 상호 보완성:
- 수치 피드백과 언어 피드백 중 하나만 사용할 때보다 두 가지를 결합했을 때 성능이 가장 우수함을 입증했습니다.

5. 의의 및 결론 (Significance)

RETROAGENT 는 LLM 기반 에이전트가 단순한 환경 상호작용을 넘어, 자신의 경험을 성찰하고 이를 체계적으로 재사용함으로써 지속적으로 진화할 수 있는 능력을 갖추게 함을 보여줍니다.

이론적 의의: 외부 보상 (Extrinsic Reward) 에만 의존하는 기존 RL 의 한계를 극복하고, 내재적 신호 (Intrinsic Signals) 를 통한 자기 개선 메커니즘의 중요성을 입증했습니다.
실용적 의의: 복잡한 상호작용 환경에서 에이전트의 신뢰성과 적응력을 높여, 실제 세계의 동적 작업 (e-commerce, 로봇 제어, 게임 등) 에 적용 가능한 강력한 프레임워크를 제공합니다.

결론적으로, 이 연구는 에이전트가 "해결 (Solving)"을 넘어 "진화 (Evolving)"하는 새로운 RL 패러다임을 제시하며, 향후 자율 에이전트 개발의 중요한 방향성을 제시합니다.