Exploratory Memory-Augmented LLM Agent via Hybrid On- and Off-Policy Optimization

이 논문은 강화 학습 기반 LLM 에이전트의 탐험 병목 현상을 해결하기 위해 메모리를 활용한 탐험과 온/오프 정책 최적화를 결합한 'EMPO2^2' 프레임워크를 제안하며, 이를 통해 새로운 환경에서의 적응력과 성능을 크게 향상시켰음을 보여줍니다.

Zeyuan Liu, Jeonghye Kim, Xufang Luo, Dongsheng Li, Yuqing Yang

게시일 2026-03-09
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

🧠 탐험가 AI 를 위한 '기억력'과 '학습법' 혁신: EMPO2 소개

이 논문은 거대 언어 모델 (LLM) 이 새로운 세상을 탐험할 때 겪는 **'탐색의 어려움'**을 해결하기 위해 개발된 새로운 인공지능 학습 방법, EMPO2에 대해 설명합니다.

기존의 AI 는 이미 알고 있는 지식을 바탕으로만 행동하는 경향이 있어, 전혀 새로운 상황에서는 막히기 쉽습니다. EMPO2 는 이 문제를 해결하기 위해 AI 에게 '외부 메모리 (메모장)'를 주고, 그 메모리를 바탕으로 스스로 학습하게 만드는 혁신적인 방법을 제안합니다.


🎒 1. 문제: 왜 AI 는 새로운 길을 찾지 못할까요?

상상해 보세요. 어떤 AI 가 낯선 숲속을 헤매고 있습니다.

  • 기존 AI (GRPO 등): "내가 전에 배운 대로 저 나무 뒤에 숨어있을 거야!"라고 생각하며, 이미 알고 있는 패턴만 반복합니다. 하지만 정답이 그 패턴에 없다면, AI 는 끝까지 그 나무 뒤만 쫓아다니며 실패합니다. (탐색 부족)
  • 비유: 마치 지도 없이 같은 길만 반복해서 걷는 등산객과 같습니다. 새로운 길이 있어도 발견하지 못해 산 정상에 오르지 못합니다.

💡 2. 해결책: EMPO2 의 두 가지 무기

EMPO2 는 AI 가 새로운 길을 찾을 수 있도록 두 가지 강력한 무기를 장착합니다.

📓 무기 1: '스스로 쓰는 탐험 일기' (메모리)

AI 는 실패했을 때 "왜 실패했지?"라고 스스로 반성하고, 그 내용을 메모장에 적어둡니다.

  • 예시: "아까는 빨간 전구를 찾으려다 실패했어. 전구는 거실에 있었지!"
  • 효과: 다음에 같은 상황에 처하면, AI 는 이 메모장을 꺼내 "아, 전구는 거실에 있었구나!"라고 생각하며 새로운 행동을 시도합니다.
  • 비유: **실수한 내용을 적어두는 '공부 노트'**입니다. 같은 실수를 반복하지 않고, 노트를 보며 더 똑똑해집니다.

🔄 무기 2: '혼합 학습법' (온/오프 정책 최적화)

이게 바로 EMPO2 의 핵심입니다. AI 는 메모장을 보는 방식과 학습하는 방식을 두 가지로 나누어 사용합니다.

  1. 메모장 보고 학습 (온-정책): 메모장에 적힌 조언을 보고 행동하며, 그 경험을 그대로 학습합니다.
  2. 메모장 없이 학습 (오프-정책): 이게 핵심입니다! 메모장을 보고 행동했던 경험을 가져와, **"만약 메모장이 없었더라도 내가 이걸 했을까?"**라고 가정하며 학습합니다.
    • 비유: 스승의 도움을 받아 문제를 풀고, 그 해답을 보며 '스스로도 그 문제를 풀 수 있었을 것'이라고 믿고 실력을 키우는 과정입니다.
    • 목적: 처음에는 메모장 (외부 도움) 이 필요하지만, 결국 그 지식을 AI 의 뇌 (모델 파라미터) 자체에 새겨 넣는 것입니다. 나중에 메모장이 없어도 AI 혼자서 똑똑하게 행동할 수 있게 됩니다.

🚀 3. 실제 성과: 얼마나 잘할까요?

논문은 두 가지 복잡한 게임 환경에서 EMPO2 를 테스트했습니다.

  1. ScienceWorld (과학 실험 게임):

    • AI 가 전구를 켜거나 화학 물질을 섞는 실험을 해야 합니다.
    • 결과: 기존 AI 는 30% 정도만 성공했지만, EMPO2 는 128% 향상되어 거의 모든 문제를 해결했습니다.
    • 이유: 실패한 원인을 메모장에 적고, 새로운 방법을 시도했기 때문입니다.
  2. WebShop (온라인 쇼핑 게임):

    • 복잡한 조건에 맞는 물건을 찾아 구매해야 합니다.
    • 결과: 기존 방법보다 11.3% 더 높은 점수를 받았습니다.

🌟 놀라운 특징: 낯선 환경에도 강함

기존 AI 는 새로운 게임이 나오면 다시 0 점부터 시작해야 했지만, EMPO2 는 메모장을 몇 번만 보고 (학습 없이도) 새로운 환경에 빠르게 적응했습니다. 마치 유능한 탐험가가 낯선 땅에 가도, 과거의 경험 (메모) 을 바탕으로 빠르게 길을 찾는 것과 같습니다.


📝 4. 요약: EMPO2 가 주는 교훈

이 논문은 우리에게 다음과 같은 메시지를 줍니다.

  • 단순한 지식 암기가 아닌, '탐험'이 중요합니다: AI 가 새로운 것을 배우려면 실패를 두려워하지 않고 새로운 시도를 해야 합니다.
  • 메모리는 '지팡이'가 아니라 '근육'을 키우는 도구: 처음에는 메모 (외부 도구) 를 쓰지만, 그 경험을 통해 AI 의 본질적인 능력 (뇌) 을 키워야 합니다.
  • 혼합 전략의 힘: 메모를 보는 방식과 메모 없이 학습하는 방식을 적절히 섞으면, AI 는 더 빠르고 튼튼하게 성장합니다.

한 줄 요약:

EMPO2 는 AI 에게 **'실패 노트'**를 주고, 그 노트를 보며 스스로의 뇌를 단련시켜, 낯선 세상에서도 혼자서 길을 찾아갈 수 있게 만든 초능력의 학습법입니다.

이런 논문을 받은편지함으로 받아보세요

관심사에 맞는 일간 또는 주간 다이제스트. Gist 또는 기술 요약을 당신의 언어로.

Digest 사용해 보기 →