Internalizing Agency from Reflective Experience

Each language version is independently generated for its own context, not a direct translation.

🎓 핵심 비유: "시험지 채점" vs "오답노트 작성"

1. 기존 방식 (GRPO 등): "성적표만 보는 학생"

지금까지 AI 를 가르치는 주된 방법은 결과 중심의 강화학습이었습니다.

상황: 학생 (AI) 이 문제를 풀고 있습니다.
학습 과정: 학생이 문제를 풀고 나면, 선생님 (시스템) 은 오직 **"정답 (A)"**인지 **"오답 (X)"**인지만 알려줍니다.
문제점: 학생이 중간에 실수해서 틀린 길로 갔을 때, "어디서 실수했는지", "왜 틀렸는지"에 대한 구체적인 피드백은 없습니다. 그냥 "틀렸다"는 점수만 받습니다.
결과: 학생은 이미 정답을 맞힌 몇 가지 패턴만 반복해서 외우게 됩니다. (기존에 잘하던 건 더 잘하지만, 새로운 문제나 복잡한 상황에서는 실수를 고칠 줄 모릅니다.) 이를 **'분포 sharpening(확산)'**이라고 하는데, 마치 좁은 길만 계속 걷는 것과 같습니다.

2. 이 논문의 제안 (LEAFE): "오답노트를 만드는 학생"

이 논문은 **"LEAFE"**라는 새로운 방법을 제안합니다. 이는 **"반성적인 경험을 통해 실수를 배우는 과정"**을 AI 내부에 심어주는 것입니다.

상황: 학생이 문제를 풀다가 막히거나 틀린 길로 들어섭니다.
학습 과정 (1 단계 - 되돌리기와 성찰):
- AI 는 "아, 여기서 실수했구나!"라고 스스로 깨닫습니다.
- 되돌리기 (Rollback): 실수한 시점으로 시간을 거슬러 올라갑니다.
- 오답노트 작성 (Experience): "왜 틀렸는지"와 "어떻게 고쳐야 하는지"를 구체적인 메모 (경험) 로 정리합니다.
- 새로운 시도: 그 메모를 보고 다시 다른 길로 시도해 봅니다.
학습 과정 (2 단계 - 내면화):
- 이렇게 "실수 → 되돌리기 → 고침 → 성공"하는 과정을 여러 번 반복한 뒤, AI 는 이 오답노트를 자신의 머릿속 (모델 가중치) 에 완전히 흡수시킵니다.
- 이제 시험을 볼 때, 오답노트를 따로 보지 않아도 스스로 실수를 감지하고 고칠 수 있는 능력이 생깁니다.

🚀 구체적인 예시: 미로 찾기 게임

기존 AI: 미로에서 길을 잃으면 "틀렸다"는 신호만 받고, 다시 처음부터 무작위로 뛰어다닙니다. 운이 좋으면 정답을 찾지만, 실수를 고치는 능력이 부족해 같은 실수를 반복합니다.
LEAFE AI:
1. 벽에 부딪히면 멈춥니다.
2. "아, 여기서 왼쪽으로 갔어야 했는데 오른쪽으로 갔네?"라고 되돌아갑니다.
3. "다음엔 오른쪽 벽을 피해야지"라고 전략을 수정합니다.
4. 이 과정을 반복하며 **"실수하지 않는 법"**을 체득합니다.
5. 결과적으로, 한 번에 성공할 확률도 높아지고, **많은 시도를 했을 때 성공할 확률 (Pass@k)**도 기존 AI 보다 훨씬 뛰어납니다.

💡 이 연구가 왜 중요한가요?

단순 반복이 아닌 '진짜 학습': AI 가 단순히 정답을 외우는 게 아니라, "왜 틀렸는지"를 이해하고 고치는 **능동적인 주체 (Agency)**가 됩니다.
복잡한 문제 해결: 웹 서핑, 코드 작성, 로봇 제어 등 긴 과정이 필요한 작업에서 실수가 나면 바로잡을 수 있어, 전체적인 성공률이 크게 올라갑니다.
비용 절감: 시험 시간 (실제 사용 시) 에 여러 번 시도해보거나 외부 도구를 쓸 필요가 줄어듭니다. AI 가 스스로 "아, 이걸 고쳐야겠다"라고 생각하기 때문입니다.

📝 한 줄 요약

"기존 AI 는 '정답'만 보고 외웠다면, 이 새로운 AI 는 '실수'를 분석해 '오답노트'를 만들고 그걸로 스스로 성장하는 법을 배웠습니다."

이 방법은 AI 가 더 복잡한 세상에서 실수를 두려워하지 않고, 유연하게 대처하며 스스로 발전할 수 있는 토대를 마련해 줍니다.

Each language version is independently generated for its own context, not a direct translation.

1. 연구 배경 및 문제 정의 (Problem)

배경: 대규모 언어 모델 (LLM) 이 웹 탐색, 프로그램 합성, 장기적 작업 수행 등 복잡한 환경에서 자율 에이전트로 배포되고 있습니다. 이러한 에이전트의 성공은 단순히 한 번의 정답을 내는 것이 아니라, 환경으로부터의 피드백 (오류 메시지, 상태 전이 등) 을 해석하고 실수를 복구하며 적응하는 능력에 달려 있습니다.
기존 방법의 한계: 현재 주류인 결과 기반 강화 학습 (RLVR, 예: GRPO) 은 최종 성공 신호 (Scalar Reward) 만을 최적화합니다.
- 분포 sharpening (Distribution Sharpening): 이 방법은 이미 성공한 소수의 행동 패턴에 확률 질량을 집중시켜 Pass@1(단일 시도 성공률) 은 높일 수 있지만, 모델의 기존 능력 범위 밖의 새로운 해결책을 탐색하는 능력을 저하시킵니다.
- 피드백 활용 부족: 환경이 제공하는 풍부한 구조화된 피드백 (어디가 왜 틀렸는지) 을 단순한 성공/실패 신호로만 축소하여, 에이전트가 실패 경로를 어떻게 수정해야 하는지에 대한 구체적인 학습 신호를 놓칩니다.
- 결과: 장기적 상호작용 (Long-horizon) 환경에서 모델의 실제 능력 범위 (Pass@k, 특히 k 가 큰 경우) 가 확장되지 않으며, 테스트 시 과도한 샘플링 (재시도, 트리 검색 등) 에 의존해야 하는 비효율성이 발생합니다.

2. 제안 방법: LEAFE (Methodology)

저자들은 LEAFE (Learning Feedback-Grounded Agency from Reflective Experience) 라는 2 단계 프레임워크를 제안합니다. 이는 환경 피드백을 기반으로 한 복구 능력을 모델 내부에 내재화 (Internalize) 하는 것을 목표로 합니다.

Stage 1: 롤백을 통한 트리 기반 경험 생성 (Tree-Based Experience Generation with Rollback)

반성적 탐색 (Reflective Exploration): 에이전트가 환경과 상호작용하는 동안 주기적으로 (또는 실패 시) 반성 (Reflection) 을 수행합니다.
롤백 (Rollback): 모델은 현재 경로가 잘못된 시점 (τ) 을 식별하고, 해당 시점으로 상태를 되돌립니다.
경험 요약 및 분기 (Experience Summary & Branching):
- 환경 피드백을 바탕으로 "왜 실패했는지"와 "어떻게 고칠지"에 대한 실행 가능한 경험 요약 (e) 을 생성합니다.
- 이 경험 (e) 을 컨텍스트로 활용하여, 원래의 잘못된 행동 대신 수정된 행동 (a') 을 생성하고 새로운 트리를 분기 (Branching) 시킵니다.
- 이를 통해 실패 → 롤백 → 수정 → 성공으로 이어지는 고품질 학습 데이터를 생성합니다.

Stage 2: 경험에서 정책으로의 증류 (Experience-to-Policy Distillation)

목표: 테스트 시 명시적인 반성 단계나 경험 요약 없이도 모델이 스스로 오류를 수정할 수 있도록 모델 가중치에 이 능력을 내재화합니다.
학습 데이터 구성:
1. 행동 리허설 (Behavior Rehearsal, $L_{reh}$ ): 성공한 경로 (분기 포함) 에서의 상태 - 행동 쌍을 학습하여 기본 능력을 유지하고 망각을 방지합니다.
2. 반사실 증류 (Counterfactual Distillation, $L_{cf}$ ): 핵심 단계로, 경험 요약 (e) 이 포함된 컨텍스트에서 생성된 '수정된 행동'을, 경험 요약이 없는 원래의 컨텍스트에서 학습하도록 합니다. 즉, 모델이 외부 힌트 없이도 스스로 오류를 인지하고 수정하는 능력을 학습하게 합니다.
최종 목적 함수: $L(\theta') = L_{cf}(\theta') + \beta L_{reh}(\theta')$

3. 주요 기여 (Key Contributions)

구조화된 탐색 (Structured Exploration): 단순한 결과 보상이 아닌, 피드백을 경험으로 변환하여 롤백 및 수정 분기를 유도함으로써 모델의 기존 지배적 모드 (Dominant Modes) 를 벗어난 표적 탐색을 가능하게 합니다.
스칼라 보상보다 풍부한 감독 신호: 각 트레일을 독립적인 샘플로 처리하는 대신, 실패 지점과 수정 방법을 명시적으로 지정하는 '결정 수준 (Decision-level)'의 반성 - 수정 감독 신호를 제공합니다.
내재화된 복구 능력 향상: 롤백 후의 수정 행동을 학습함으로써 모델 가중치에 피드백 기반 복구 능력을 내재화했습니다. 이는 테스트 시 추가적인 샘플링 없이도 Pass@k (특히 k 가 큰 경우) 성능을 획기적으로 개선합니다.

4. 실험 결과 (Results)

평가 벤치마크: WebShop, ALFWorld, ScienceWorld, Sokoban, CodeContests 등 다양한 장기 상호작용 및 오류 복구 작업.
주요 성과:
- Pass@128 성능: LEAFE 는 GRPO(기존 RLVR) 및 EarlyExp 등 기존 방법론보다 Pass@128에서 일관되게 우위를 점했습니다. 특히 CodeContests 에서 Base 모델 대비 Pass@128 을 최대 14% 향상시켰습니다.
- 샘플 효율성: 동일한 샘플 수 (k) 에서 더 높은 성공률을 달성하거나, 동일한 정확도 도달에 더 적은 샘플이 필요함을 보였습니다.
- 모델 크기 확장성: Qwen2.5(7B~~72B) 및 Llama3(8B~~70B) 등 다양한 모델 아키텍처에서 일관된 성능 향상을 보였습니다.
- OOD 일반화: CodeContests 로 학습된 모델을 MBPP(다른 데이터셋) 에 적용했을 때, GRPO 는 성능이 급격히 하락한 반면 LEAFE 는 Base 모델 수준을 유지하거나 오히려 향상시켜 과적합을 줄이고 근본적인 에이전트 능력을 학습했음을 입증했습니다.
- Ablation Study: 반사실 증류 ( $L_{cf}$ ) 가 Pass@128 향상의 핵심 요소임을 확인했습니다.

5. 의의 및 결론 (Significance)

패러다임 전환: 단순한 결과 최적화 (Outcome-driven) 에서 피드백 기반 에이전트성 내재화 (Feedback-grounded Agency Internalization) 로의 전환을 제시합니다.
실용적 가치: 테스트 시 무거운 계산 비용 (다중 시도, 트리 검색 등) 없이도 모델이 스스로 오류를 복구할 수 있는 능력을 갖추게 하여, 배포 효율성과 신뢰성을 높입니다.
장기적 상호작용: 복잡한 환경에서 에이전트가 실패를 학습의 기회로 삼고 행동 범위를 확장하는 능력을 키워, 진정한 자율 에이전트 개발의 중요한 디딤돌이 됩니다.

요약하자면, LEAFE 는 에이전트가 실패 경험을 반성하고 이를 모델 내부의 능력으로 변환하는 메커니즘을 통해, 기존 강화 학습 방법론이 가지지 못한 장기적 문제 해결 능력과 확장성을 입증한 연구입니다.