Benefits and Pitfalls of Reinforcement Learning for Language Model Planning: A Theoretical Perspective

Each language version is independently generated for its own context, not a direct translation.

🎬 핵심 비유: "미로 찾기 게임"

생각해 보세요. 언어 모델이 미로 (그래프) 를 찾아서 출구에 도달해야 한다고 칩시다.

시작점 (Source): 미로 입구
도착점 (Target): 미로 출구
목표: 가장 짧은 길이나 올바른 길을 찾아내는 것.

이제 이 미로 찾기를 가르치는 세 가지 방법을 비교해 보겠습니다.

1. 기존 방법: "지도 외우기" (SFT - 지도 학습)

기존의 언어 모델은 **SFT(Supervised Fine-Tuning)**라는 방식으로 훈련됩니다.

방식: 선생님 (데이터) 이 "A 에서 B 로 가려면 C 를 거쳐라"라고 정답을 알려주면, 학생 (모델) 이 그 정답을 외웁니다.
문제점 (허상): 학생은 "A 와 C 가 자주 같이 나오니까 A→C 가 정답이야!"라고 무조건적인 연관성만 기억합니다.
- 비유: "내가 매일 아침에 커피를 마시고 출근하니까, 커피가 출근의 원인인 줄 알아요." (실제로는 커피와 출근은 그냥 같이 나타날 뿐, 인과관계가 아닐 수 있습니다.)
- 결과: 새로운 미로 (학습 데이터에 없던 경로) 가 나오면, 외운 패턴만 믿다가 엉뚱한 길로 빠집니다. 진짜 미로 찾기 능력 (계획 능력) 이 부족합니다.

2. 강화 학습 A: "실수하며 배우기" (Policy Gradient - PG)

이제 모델에게 정답을 알려주지 않고, 스스로 길을 찾게 합니다.

방식: 모델을 미로에 넣고, 출구에 성공하면 "좋아!" (보상), 실패하면 "아쉽다" (패널티) 를 줍니다. 모델은 **스스로 다양한 길을 시도 (탐험)**해 봅니다.
장점: SFT 가 외운 패턴을 넘어서, 진짜 미로의 구조를 이해하게 됩니다. 새로운 미로도 잘 찾습니다.
치명적인 단점 (다양성 붕괴):
- 비유: 모델이 출구를 찾은 "단 하나의 길"을 발견하면, "이 길이 최고야!"라고 생각해서 다른 모든 길은 무시하게 됩니다.
- 시간이 지날수록 모델은 정답은 100% 맞추지만, 그 정답을 내는 방식이 매우 딱딱하고 다양성이 사라집니다. 마치 "무조건 오른쪽으로만 돌아라"라고 외우게 되는 거죠.
- 해결책: "너무 한쪽으로 치우치지 마" (KL 정규화) 라고 말해주면 다양성은 유지되지만, 정답을 맞추는 속도가 느려지는 트레이드오프가 발생합니다.

3. 강화 학습 B: "전략가" (Q-Learning)

이 방법은 게임에서 많이 쓰이지만, 언어 모델에는 드뭅니다.

방식: "지금 이 상태에서 어떤 행동을 하면 나중에 가장 큰 보상을 받을까?"를 미리 계산합니다.
장점 1 (다양성 유지): PG 와 달리, 정답을 찾으면서도 여러 가지 올바른 길을 기억하고 유지합니다. "이 길도 좋고, 저 길도 좋네"라고 유연하게 대처합니다.
장점 2 (오프-폴리시 학습): 다른 사람이 (또는 이전 버전의 모델이) 만든 데이터를 보고도 배울 수 있습니다. (실제 세상에서는 우리가 직접 모든 것을 경험할 수 없으므로 매우 중요합니다.)
주의할 점 (보상 설계):
- 만약 "출구에 도달했을 때만 점수"를 준다면 (결과 보상), 모델은 헷갈려서 엉뚱한 값을 계산합니다.
- 하지만 **"올바른 길로 한 걸음 뛸 때마다 점수"**를 주면 (과정 보상), 모델은 미로의 구조를 완벽하게 이해하게 됩니다.

📝 이 논문이 우리에게 주는 교훈 (한 줄 요약)

기존 방식 (SFT) 은 "암기"에 가깝습니다. 새로운 상황에 대처하기엔 부족해요.
강화 학습 (RL) 은 "탐험"을 통해 진짜 능력을 키웁니다. 하지만 무작정 강화 학습을 쓰면 모델이 너무 단조로워져서 (다양성 붕괴) 창의성을 잃을 수 있습니다.
Q-Learning 이 더 나은 대안이 될 수 있습니다.
- **과정 보상 (Process Reward)**을 잘 설계하면, 모델은 정확하면서도 다양한 해결책을 찾아낼 수 있습니다.
- 이는 우리가 AI 에게 복잡한 계획 (수학 증명, 로봇 제어, 복잡한 도구 사용 등) 을 시킬 때, 단순히 정답만 맞추는 게 아니라 유연하게 사고할 수 있게 만드는 열쇠가 됩니다.

🚀 결론

이 연구는 **"AI 가 미로를 찾을 때, 단순히 정답을 외우게 하면 안 되고, 스스로 탐험하게 해야 하며, 특히 'Q-Learning'과 '과정 보상'을 잘 섞으면 AI 가 더 똑똑하고 유연해질 수 있다"**는 이론적 근거를 제시했습니다.

앞으로 우리가 사용하는 AI 가 더 똑똑한 '계획가'가 되기 위해서는, 어떻게 보상 (Reward) 을 줄지를 신중하게 설계해야 한다는 중요한 메시지를 줍니다.

Each language version is independently generated for its own context, not a direct translation.

1. 문제 정의 (Problem)

최근 대규모 언어 모델 (LLM) 의 계획 (Planning) 능력 향상을 위해 강화학습 (RL) 이 광범위하게 적용되고 있습니다 (예: o1 모델, 도구 사용, 게임 등). 그러나 RL 이 왜 Supervised Fine-Tuning (SFT) 보다 계획 작업에서 더 효과적인지에 대한 이론적 근거와 현재 RL 방법론의 한계는 여전히 불명확한 상태입니다.

핵심 질문: SFT 와 RL (Policy Gradient, Q-learning) 은 계획 작업에서 어떻게 다른 학습 역학을 보이며, 각각의 이론적 장단점은 무엇인가?
연구 접근: 복잡한 자연어 작업을 추상화하여 유도 그래프 (Directed Graph) 상의 경로 찾기 문제로 모델링하고, 이를 통해 학습 역학을 수학적으로 분석합니다.

2. 방법론 (Methodology)

저자들은 계획 작업을 그래프 $G=(V, E)$ 상의 경로 찾기 문제로 추상화했습니다.

데이터 생성 모델: 노드 (상태) 와 엣지 (전환) 로 구성된 그래프에서 소스 $s$ 에서 타겟 $t$ 까지의 유효한 경로를 생성하는 과정을 시뮬레이션합니다. (예: Blocksworld 벤치마크)
비교 대상:
1. SFT (Supervised Fine-Tuning): 기존 데이터셋의 경로만 학습.
2. Policy Gradient (PG): PPO/GRPO 등 현재 LLM 에 널리 쓰이는 온-폴리시 (On-policy) RL 알고리즘.
3. Q-Learning: 게임 분야에서 잘 알려져 있으나 LLM 에는 드물게 적용되는 오프-폴리시 (Off-policy) 알고리즘.
이론적 분석 도구:
- 학습 역학의 안정점 (Stable Point) 분석.
- 그래디언트 동역학 (Gradient Dynamics) 을 통한 수렴 특성 규명.
- 다양한 보상 설계 (Outcome Reward vs. Process Reward) 의 영향 분석.

3. 주요 기여 및 발견 (Key Contributions & Findings)

A. SFT 의 한계: 우연적 상관관계 (Spurious Solutions)

이론적 발견 (Theorem 3.1): SFT 는 훈련 데이터셋에서 관찰된 공발생 (Co-occurrence) 관계를 단순히 암기합니다.
결과: SFT 는 그래프의 전이성 (Transitivity) 을 학습하지 못해, 훈련 데이터에 없는 새로운 경로 연결을 추론하지 못합니다. 즉, "SFT 는 암기 (Memorization) 한다"는 현상을 이론적으로 증명했습니다.

B. Policy Gradient (PG) 의 특징과 함정

SFT 대비 우위 (Takeaway 2): PG 는 훈련 중 모델이 스스로 새로운 경로를 탐색 (Exploration) 하여 데이터를 생성하므로, 고정된 SFT 데이터셋보다 더 넓은 그래프 구조를 학습할 수 있습니다.
다양성 붕괴 (Diversity Collapse, Takeaway 3):
- PG 는 훈련 정확도가 100% 에 도달한 후에도 출력 다양성이 지속적으로 감소하는 현상을 보입니다.
- KL 정규화 (KL Regularization) 가 없을 경우, 모델은 하나의 정답 경로만 출력하도록 수렴하여 일반화 능력을 떨어뜨립니다.
KL 정규화의 양면성 (Takeaway 4): KL 정규화는 다양성을 유지시켜 일반화를 돕지만, 기본 모델 (Base Model) 이 약할 경우 학습을 방해하고 훈련 정확도를 희생시킵니다.

C. Q-Learning 의 이론적 우위

보상 설계의 중요성 (Takeaway 5):
- Outcome Reward (결과 보상) 만 사용 시: Q-value 편향 (Bias) 이 발생하여 모든 로짓 (Logits) 이 동일한 상수로 수렴하는 실패를 겪습니다.
- Process Reward (과정 보상) 사용 시: 각 단계의 인접성 (Adjacency) 과 타겟 도달 여부를 보상하므로, 그래프 구조를 올바르게 학습하고 Q-value 편향을 제거할 수 있습니다.
이론적 장점 (Takeaway 6):
1. 다양성 보존: 최적의 정확도에 도달하더라도 출력 다양성을 유지하며 수렴합니다.
2. 오프-폴리시 학습 (Off-policy Learning): PG 와 달리 과거의 데이터나 다른 정책으로 생성된 데이터로도 학습이 가능하므로, 양자화 모델이나 대량 배치 학습과 같은 실제 환경에 더 적합합니다.

4. 실험 결과 (Results)

Blocksworld 및 Erdős-Rényi 그래프 실험:
- SFT: 훈련 데이터의 빈도수에 비례하여 엣지 가중치를 학습하지만, 저빈도 엣지는 제대로 학습하지 못함 (그림 1).
- PG: KL 정규화 없이 훈련하면 훈련 정확도는 100% 가 되지만, 테스트 정확도는 다양성 감소로 인해 하락 (그림 2).
- Q-Learning (Process Reward): SFT 와 PG 보다 높은 테스트 정확도를 달성하며, 출력 다양성 (Diversity) 을 유지함 (그림 3).
- Off-policy 검증: Q-Learning 은 온-폴리시와 유사한 성능을 보이며 오프-폴리시 학습이 가능함을 확인 (그림 3a).

5. 의의 및 결론 (Significance)

이 논문은 LLM 계획 작업에서 RL 의 성공 원인과 실패 요인을 학습 역학 (Learning Dynamics) 관점에서 체계적으로 규명했습니다.

이론적 기반 확립: "SFT 는 암기하고 RL 은 일반화한다"는 경험적 관찰에 대한 수학적 증명을 제공했습니다.
알고리즘 선택 가이드:
- PG 는 탐색을 통한 데이터 증강 효과가 있지만, 다양성 붕괴와 KL 정규화의 트레이드오프에 주의해야 함.
- Q-Learning은 과정 보상 (Process Reward) 과 결합할 때 다양성과 정확도를 동시에 달성하며, 오프-폴리시 학습이 가능하여 확장성 면에서 더 유리함을 제시.
미래 방향: RL 기반 LLM 의 계획 능력을 향상시키기 위해 Q-Learning 기반 접근법과 정교한 보상 설계의 중요성을 강조하며, 향후 연구의 방향성을 제시합니다.

요약하자면, 이 연구는 단순히 RL 이 SFT 보다 낫다는 것을 넘어, 어떤 RL 알고리즘이 왜, 어떻게 작동하며 어떤 함정 (Pitfall) 을 가지고 있는지에 대한 깊은 이론적 통찰을 제공합니다.