Each language version is independently generated for its own context, not a direct translation.

🧠 탐험가 AI 를 위한 '기억력'과 '학습법' 혁신: EMPO2 소개

이 논문은 거대 언어 모델 (LLM) 이 새로운 세상을 탐험할 때 겪는 **'탐색의 어려움'**을 해결하기 위해 개발된 새로운 인공지능 학습 방법, EMPO2에 대해 설명합니다.

기존의 AI 는 이미 알고 있는 지식을 바탕으로만 행동하는 경향이 있어, 전혀 새로운 상황에서는 막히기 쉽습니다. EMPO2 는 이 문제를 해결하기 위해 AI 에게 '외부 메모리 (메모장)'를 주고, 그 메모리를 바탕으로 스스로 학습하게 만드는 혁신적인 방법을 제안합니다.

🎒 1. 문제: 왜 AI 는 새로운 길을 찾지 못할까요?

상상해 보세요. 어떤 AI 가 낯선 숲속을 헤매고 있습니다.

기존 AI (GRPO 등): "내가 전에 배운 대로 저 나무 뒤에 숨어있을 거야!"라고 생각하며, 이미 알고 있는 패턴만 반복합니다. 하지만 정답이 그 패턴에 없다면, AI 는 끝까지 그 나무 뒤만 쫓아다니며 실패합니다. (탐색 부족)
비유: 마치 지도 없이 같은 길만 반복해서 걷는 등산객과 같습니다. 새로운 길이 있어도 발견하지 못해 산 정상에 오르지 못합니다.

💡 2. 해결책: EMPO2 의 두 가지 무기

EMPO2 는 AI 가 새로운 길을 찾을 수 있도록 두 가지 강력한 무기를 장착합니다.

📓 무기 1: '스스로 쓰는 탐험 일기' (메모리)

AI 는 실패했을 때 "왜 실패했지?"라고 스스로 반성하고, 그 내용을 메모장에 적어둡니다.

예시: "아까는 빨간 전구를 찾으려다 실패했어. 전구는 거실에 있었지!"
효과: 다음에 같은 상황에 처하면, AI 는 이 메모장을 꺼내 "아, 전구는 거실에 있었구나!"라고 생각하며 새로운 행동을 시도합니다.
비유: **실수한 내용을 적어두는 '공부 노트'**입니다. 같은 실수를 반복하지 않고, 노트를 보며 더 똑똑해집니다.

🔄 무기 2: '혼합 학습법' (온/오프 정책 최적화)

이게 바로 EMPO2 의 핵심입니다. AI 는 메모장을 보는 방식과 학습하는 방식을 두 가지로 나누어 사용합니다.

메모장 보고 학습 (온-정책): 메모장에 적힌 조언을 보고 행동하며, 그 경험을 그대로 학습합니다.
메모장 없이 학습 (오프-정책): 이게 핵심입니다! 메모장을 보고 행동했던 경험을 가져와, **"만약 메모장이 없었더라도 내가 이걸 했을까?"**라고 가정하며 학습합니다.
- 비유: 스승의 도움을 받아 문제를 풀고, 그 해답을 보며 '스스로도 그 문제를 풀 수 있었을 것'이라고 믿고 실력을 키우는 과정입니다.
- 목적: 처음에는 메모장 (외부 도움) 이 필요하지만, 결국 그 지식을 AI 의 뇌 (모델 파라미터) 자체에 새겨 넣는 것입니다. 나중에 메모장이 없어도 AI 혼자서 똑똑하게 행동할 수 있게 됩니다.

🚀 3. 실제 성과: 얼마나 잘할까요?

논문은 두 가지 복잡한 게임 환경에서 EMPO2 를 테스트했습니다.

ScienceWorld (과학 실험 게임):
- AI 가 전구를 켜거나 화학 물질을 섞는 실험을 해야 합니다.
- 결과: 기존 AI 는 30% 정도만 성공했지만, EMPO2 는 128% 향상되어 거의 모든 문제를 해결했습니다.
- 이유: 실패한 원인을 메모장에 적고, 새로운 방법을 시도했기 때문입니다.
WebShop (온라인 쇼핑 게임):
- 복잡한 조건에 맞는 물건을 찾아 구매해야 합니다.
- 결과: 기존 방법보다 11.3% 더 높은 점수를 받았습니다.

🌟 놀라운 특징: 낯선 환경에도 강함

기존 AI 는 새로운 게임이 나오면 다시 0 점부터 시작해야 했지만, EMPO2 는 메모장을 몇 번만 보고 (학습 없이도) 새로운 환경에 빠르게 적응했습니다. 마치 유능한 탐험가가 낯선 땅에 가도, 과거의 경험 (메모) 을 바탕으로 빠르게 길을 찾는 것과 같습니다.

📝 4. 요약: EMPO2 가 주는 교훈

이 논문은 우리에게 다음과 같은 메시지를 줍니다.

단순한 지식 암기가 아닌, '탐험'이 중요합니다: AI 가 새로운 것을 배우려면 실패를 두려워하지 않고 새로운 시도를 해야 합니다.
메모리는 '지팡이'가 아니라 '근육'을 키우는 도구: 처음에는 메모 (외부 도구) 를 쓰지만, 그 경험을 통해 AI 의 본질적인 능력 (뇌) 을 키워야 합니다.
혼합 전략의 힘: 메모를 보는 방식과 메모 없이 학습하는 방식을 적절히 섞으면, AI 는 더 빠르고 튼튼하게 성장합니다.

한 줄 요약:

EMPO2 는 AI 에게 **'실패 노트'**를 주고, 그 노트를 보며 스스로의 뇌를 단련시켜, 낯선 세상에서도 혼자서 길을 찾아갈 수 있게 만든 초능력의 학습법입니다.

Each language version is independently generated for its own context, not a direct translation.

1. 연구 배경 및 문제 정의 (Problem)

대형 언어 모델 (LLM) 기반 에이전트는 강화 학습 (RL) 과 결합하여 복잡한 의사결정, 계획 수립, 환경 상호작용 능력을 갖추게 되었습니다. 그러나 현재 LLM 에이전트들은 탐색 (Exploration) 능력의 부재라는 심각한 병목 현상에 직면해 있습니다.

기존 방법의 한계: 대부분의 기존 RL 기반 에이전트는 사전 학습된 지식 (Prior Knowledge) 을 활용하는 '활용 (Exploitation)'에 치중합니다. 이는 익숙한 분포 내에서는 잘 작동하지만, 새로운 상태나 정보를 발견해야 하는 환경에서는 실패합니다.
탐색의 필요성: 과학 실험 (ScienceWorld) 이나 웹 쇼핑 (WebShop) 과 같은 복잡한 태스크에서는 에이전트가 실패 원인을 분석하고, 새로운 행동 공간을 탐색하며, 사전에 알려지지 않은 정보를 획득해야 합니다.
기존 메모리 기반 접근법의 결함: Reflexion 등 외부 메모리를 사용하는 방법들은 실패 경험을 기록하여 다음 시도에 반영하지만, 모델 파라미터를 업데이트하지 않기 때문에 학습이 빠르게 포화 상태에 도달하며 장기적인 일반화 능력을 갖추기 어렵습니다.

2. 제안 방법: EMPO2 (Methodology)

저자들은 **EMPO2(Exploratory Memory-Augmented On- and Off-Policy Optimization)**를 제안합니다. 이는 LLM 에이전트가 파라미터 업데이트 (On-policy) 와 외부 메모리 업데이트 (Non-parametric) 를 동시에 수행하며, 두 가지 모드 (메모리 사용/비사용) 와 두 가지 업데이트 방식 (On-policy/Off-policy) 을 혼합한 하이브리드 RL 프레임워크입니다.

핵심 구성 요소

자가 생성 메모리 (Self-Generated Memory):
- 에이전트는 각 에피소드 종료 시, 과거 트레젝토리를 분석하여 '팁 (Tip)'을 생성하고 외부 메모리 버퍼에 저장합니다.
- 이 팁은 에이전트가 반복 실수를 피하고 새로운 전략을 탐색하도록 유도하는 자기 주도적 가이드 역할을 합니다.
하이브리드 롤아웃 모드 (Hybrid Rollout Modes):
- 메모리 없는 프롬프팅: 현재 상태와 태스크만 기반으로 행동 생성 (기존 RL 방식).
- 메모리 증강 프롬프팅: 메모리에서 검색된 관련 팁을 프롬프트에 포함시켜 행동 생성. 이는 새로운 탐색을 촉진합니다.
- 두 모드는 확률 $p$ 에 따라 선택됩니다.
하이브리드 업데이트 모드 (Hybrid Update Modes):
- On-Policy 업데이트: 메모리를 사용한 트레젝토리를 그대로 학습합니다.
- Off-Policy 업데이트 (핵심 기여): 메모리를 사용하여 행동한 트레젝토리를 학습하되, 업데이트 시에는 팁을 제거하고 기본 정책 ( $\pi_\theta(\cdot|s, u)$ $π_{θ} (\cdot ∣ s, u)$ ) 으로만 확률을 계산합니다.
  - 이는 **지식 증류 (Knowledge Distillation)**의 일종으로 해석됩니다. 팁이 있는 상태 (Teacher) 에서 얻은 고수익 행동을, 팁이 없는 상태 (Student) 에서도 자연스럽게 수행할 수 있도록 모델을 학습시킵니다.
  - 결과적으로 모델은 추론 시 외부 메모리에 의존하지 않고도, 메모리에서 얻은 탐색의 이점을 파라미터 내부에 내재화하게 됩니다.
학습 안정화 및 내재 보상:
- 마스킹 메커니즘: 오프-폴리시 학습의 불안정성을 해결하기 위해, 정책 확률이 임계치 이하인 토큰에 대한 이점 (Advantage) 항을 마스킹하여 그래디언트 폭주를 방지합니다.
- 내재 보상 (Intrinsic Reward): 환경이 보상을 주지 않는 새로운 상태 (Novelty) 를 발견했을 때 보상을 주어 적극적인 탐색을 유도합니다.

3. 주요 기여 (Key Contributions)

파라미터 및 비파라미터 업데이트의 통합: 외부 메모리 (비파라미터) 를 통한 탐색과 LLM 파라미터 업데이트를 결합하여, 메모리 의존성을 줄이면서도 장기적인 일반화 능력을 갖춘 에이전트를 만듭니다.
하이브리드 최적화 프레임워크: 온-폴리시 (On-policy) 와 오프-폴리시 (Off-policy) 학습을 혼합하여, 메모리 기반의 탐색 효율성과 모델의 내재적 학습 능력을 동시에 극대화합니다.
지식 증류 기반 오프-폴리시 학습: 메모리 팁을 '가이드'로 활용하여 탐색을 돕고, 이를 모델 파라미터에 내재화하는 새로운 학습 메커니즘을 제시합니다.

4. 실험 결과 (Results)

저자들은 ScienceWorld와 WebShop 두 가지 벤치마크에서 Qwen2.5-7B-Instruct 모델을 기반으로 실험을 수행했습니다.

성능 향상:
- ScienceWorld: 기존 강력한 온라인 RL 베이스라인인 GRPO 대비 **128.6%**의 성능 향상.
- WebShop: GRPO 대비 **11.3%**의 성능 향상.
- 특히 ScienceWorld 의 'power-component' 태스크에서 GRPO 는 하위 최적 해에 수렴하는 반면, EMPO2 는 지속적인 탐색을 통해 과제를 성공적으로 해결했습니다.
OOD (Out-of-Distribution) 적응성:
- 학습된 모델이 새로운 태스크에 적용될 때, 외부 메모리만 추가하면 파라미터 업데이트 없이도 소수의 시도 (Few-shot) 로 높은 적응력을 보였습니다. 이는 모델이 메모리를 활용한 탐색 능력을 효과적으로 습득했음을 의미합니다.
Ablation Study:
- 메모리 없는 On-policy 학습만, 또는 메모리 없는 Off-policy 학습만 수행하는 경우보다 세 가지 모드 (메모리 유무, 온/오프-폴리시) 가 모두 결합되었을 때 최적의 성능을 발휘함을 확인했습니다.

5. 의의 및 결론 (Significance)

EMPO2 는 LLM 에이전트가 탐색의 병목 현상을 극복하고, 외부 메모리를 통해 새로운 지식을 습득하면서도 이를 모델 자체의 능력으로 전환하여 **일반화 (Generalization)**를 달성할 수 있음을 입증했습니다.

효율성: 메모리 의존성을 줄이고 모델 파라미터에 지식을 내재화함으로써 추론 시의 효율성을 높입니다.
확장성: 복잡한 물리 환경 (ScienceWorld) 과 웹 기반 상호작용 (WebShop) 모두에서 뛰어난 성능을 보여주어, 다양한 도메인 적용 가능성을 시사합니다.
미래 방향: 이 연구는 단순한 메모리 활용을 넘어, 메모리 기반 탐색과 모델 학습을 통합하는 새로운 RL 패러다임을 제시하며, 더 적응적이고 일반화된 에이전트 개발의 중요한 방향성을 제시합니다.

요약하자면, EMPO2 는 **"메모리를 통해 탐색하고, 그 경험을 모델 파라미터에 학습시켜 메모리 없이도 작동하는 강력한 에이전트"**를 만드는 혁신적인 프레임워크입니다.

Exploratory Memory-Augmented LLM Agent via Hybrid On- and Off-Policy Optimization