Internalizing Agency from Reflective Experience

이 논문은 환경 피드백을 행동 가능한 경험으로 요약하고 이를 통해 의사결정 지점을 되돌아가 대안을 탐색하는 'LEAFE' 프레임워크를 제안하여, 기존 결과 중심 학습의 한계를 극복하고 장기적 상호작용에서 에이전트의 회복 능력과 문제 해결 성능을 획기적으로 향상시킵니다.

Rui Ge, Yichao Fu, Yuyang Qian, Junda Su, Yiming Zhao, Peng Zhao, Hao Zhang

게시일 2026-03-18
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

🎓 핵심 비유: "시험지 채점" vs "오답노트 작성"

1. 기존 방식 (GRPO 등): "성적표만 보는 학생"

지금까지 AI 를 가르치는 주된 방법은 결과 중심의 강화학습이었습니다.

  • 상황: 학생 (AI) 이 문제를 풀고 있습니다.
  • 학습 과정: 학생이 문제를 풀고 나면, 선생님 (시스템) 은 오직 **"정답 (A)"**인지 **"오답 (X)"**인지만 알려줍니다.
  • 문제점: 학생이 중간에 실수해서 틀린 길로 갔을 때, "어디서 실수했는지", "왜 틀렸는지"에 대한 구체적인 피드백은 없습니다. 그냥 "틀렸다"는 점수만 받습니다.
  • 결과: 학생은 이미 정답을 맞힌 몇 가지 패턴만 반복해서 외우게 됩니다. (기존에 잘하던 건 더 잘하지만, 새로운 문제나 복잡한 상황에서는 실수를 고칠 줄 모릅니다.) 이를 **'분포 sharpening(확산)'**이라고 하는데, 마치 좁은 길만 계속 걷는 것과 같습니다.

2. 이 논문의 제안 (LEAFE): "오답노트를 만드는 학생"

이 논문은 **"LEAFE"**라는 새로운 방법을 제안합니다. 이는 **"반성적인 경험을 통해 실수를 배우는 과정"**을 AI 내부에 심어주는 것입니다.

  • 상황: 학생이 문제를 풀다가 막히거나 틀린 길로 들어섭니다.
  • 학습 과정 (1 단계 - 되돌리기와 성찰):
    • AI 는 "아, 여기서 실수했구나!"라고 스스로 깨닫습니다.
    • 되돌리기 (Rollback): 실수한 시점으로 시간을 거슬러 올라갑니다.
    • 오답노트 작성 (Experience): "왜 틀렸는지"와 "어떻게 고쳐야 하는지"를 구체적인 메모 (경험) 로 정리합니다.
    • 새로운 시도: 그 메모를 보고 다시 다른 길로 시도해 봅니다.
  • 학습 과정 (2 단계 - 내면화):
    • 이렇게 "실수 → 되돌리기 → 고침 → 성공"하는 과정을 여러 번 반복한 뒤, AI 는 이 오답노트를 자신의 머릿속 (모델 가중치) 에 완전히 흡수시킵니다.
    • 이제 시험을 볼 때, 오답노트를 따로 보지 않아도 스스로 실수를 감지하고 고칠 수 있는 능력이 생깁니다.

🚀 구체적인 예시: 미로 찾기 게임

  • 기존 AI: 미로에서 길을 잃으면 "틀렸다"는 신호만 받고, 다시 처음부터 무작위로 뛰어다닙니다. 운이 좋으면 정답을 찾지만, 실수를 고치는 능력이 부족해 같은 실수를 반복합니다.
  • LEAFE AI:
    1. 벽에 부딪히면 멈춥니다.
    2. "아, 여기서 왼쪽으로 갔어야 했는데 오른쪽으로 갔네?"라고 되돌아갑니다.
    3. "다음엔 오른쪽 벽을 피해야지"라고 전략을 수정합니다.
    4. 이 과정을 반복하며 **"실수하지 않는 법"**을 체득합니다.
    5. 결과적으로, 한 번에 성공할 확률도 높아지고, **많은 시도를 했을 때 성공할 확률 (Pass@k)**도 기존 AI 보다 훨씬 뛰어납니다.

💡 이 연구가 왜 중요한가요?

  1. 단순 반복이 아닌 '진짜 학습': AI 가 단순히 정답을 외우는 게 아니라, "왜 틀렸는지"를 이해하고 고치는 **능동적인 주체 (Agency)**가 됩니다.
  2. 복잡한 문제 해결: 웹 서핑, 코드 작성, 로봇 제어 등 긴 과정이 필요한 작업에서 실수가 나면 바로잡을 수 있어, 전체적인 성공률이 크게 올라갑니다.
  3. 비용 절감: 시험 시간 (실제 사용 시) 에 여러 번 시도해보거나 외부 도구를 쓸 필요가 줄어듭니다. AI 가 스스로 "아, 이걸 고쳐야겠다"라고 생각하기 때문입니다.

📝 한 줄 요약

"기존 AI 는 '정답'만 보고 외웠다면, 이 새로운 AI 는 '실수'를 분석해 '오답노트'를 만들고 그걸로 스스로 성장하는 법을 배웠습니다."

이 방법은 AI 가 더 복잡한 세상에서 실수를 두려워하지 않고, 유연하게 대처하며 스스로 발전할 수 있는 토대를 마련해 줍니다.

연구 분야의 논문에 파묻히고 계신가요?

연구 키워드에 맞는 최신 논문의 일일 다이제스트를 받아보세요 — 기술 요약 포함, 당신의 언어로.

Digest 사용해 보기 →