Each language version is independently generated for its own context, not a direct translation.
🎬 핵심 비유: "미로 찾기 게임"
생각해 보세요. 언어 모델이 미로 (그래프) 를 찾아서 출구에 도달해야 한다고 칩시다.
- 시작점 (Source): 미로 입구
- 도착점 (Target): 미로 출구
- 목표: 가장 짧은 길이나 올바른 길을 찾아내는 것.
이제 이 미로 찾기를 가르치는 세 가지 방법을 비교해 보겠습니다.
1. 기존 방법: "지도 외우기" (SFT - 지도 학습)
기존의 언어 모델은 **SFT(Supervised Fine-Tuning)**라는 방식으로 훈련됩니다.
- 방식: 선생님 (데이터) 이 "A 에서 B 로 가려면 C 를 거쳐라"라고 정답을 알려주면, 학생 (모델) 이 그 정답을 외웁니다.
- 문제점 (허상): 학생은 "A 와 C 가 자주 같이 나오니까 A→C 가 정답이야!"라고 무조건적인 연관성만 기억합니다.
- 비유: "내가 매일 아침에 커피를 마시고 출근하니까, 커피가 출근의 원인인 줄 알아요." (실제로는 커피와 출근은 그냥 같이 나타날 뿐, 인과관계가 아닐 수 있습니다.)
- 결과: 새로운 미로 (학습 데이터에 없던 경로) 가 나오면, 외운 패턴만 믿다가 엉뚱한 길로 빠집니다. 진짜 미로 찾기 능력 (계획 능력) 이 부족합니다.
2. 강화 학습 A: "실수하며 배우기" (Policy Gradient - PG)
이제 모델에게 정답을 알려주지 않고, 스스로 길을 찾게 합니다.
- 방식: 모델을 미로에 넣고, 출구에 성공하면 "좋아!" (보상), 실패하면 "아쉽다" (패널티) 를 줍니다. 모델은 **스스로 다양한 길을 시도 (탐험)**해 봅니다.
- 장점: SFT 가 외운 패턴을 넘어서, 진짜 미로의 구조를 이해하게 됩니다. 새로운 미로도 잘 찾습니다.
- 치명적인 단점 (다양성 붕괴):
- 비유: 모델이 출구를 찾은 "단 하나의 길"을 발견하면, "이 길이 최고야!"라고 생각해서 다른 모든 길은 무시하게 됩니다.
- 시간이 지날수록 모델은 정답은 100% 맞추지만, 그 정답을 내는 방식이 매우 딱딱하고 다양성이 사라집니다. 마치 "무조건 오른쪽으로만 돌아라"라고 외우게 되는 거죠.
- 해결책: "너무 한쪽으로 치우치지 마" (KL 정규화) 라고 말해주면 다양성은 유지되지만, 정답을 맞추는 속도가 느려지는 트레이드오프가 발생합니다.
3. 강화 학습 B: "전략가" (Q-Learning)
이 방법은 게임에서 많이 쓰이지만, 언어 모델에는 드뭅니다.
- 방식: "지금 이 상태에서 어떤 행동을 하면 나중에 가장 큰 보상을 받을까?"를 미리 계산합니다.
- 장점 1 (다양성 유지): PG 와 달리, 정답을 찾으면서도 여러 가지 올바른 길을 기억하고 유지합니다. "이 길도 좋고, 저 길도 좋네"라고 유연하게 대처합니다.
- 장점 2 (오프-폴리시 학습): 다른 사람이 (또는 이전 버전의 모델이) 만든 데이터를 보고도 배울 수 있습니다. (실제 세상에서는 우리가 직접 모든 것을 경험할 수 없으므로 매우 중요합니다.)
- 주의할 점 (보상 설계):
- 만약 "출구에 도달했을 때만 점수"를 준다면 (결과 보상), 모델은 헷갈려서 엉뚱한 값을 계산합니다.
- 하지만 **"올바른 길로 한 걸음 뛸 때마다 점수"**를 주면 (과정 보상), 모델은 미로의 구조를 완벽하게 이해하게 됩니다.
📝 이 논문이 우리에게 주는 교훈 (한 줄 요약)
- 기존 방식 (SFT) 은 "암기"에 가깝습니다. 새로운 상황에 대처하기엔 부족해요.
- 강화 학습 (RL) 은 "탐험"을 통해 진짜 능력을 키웁니다. 하지만 무작정 강화 학습을 쓰면 모델이 너무 단조로워져서 (다양성 붕괴) 창의성을 잃을 수 있습니다.
- Q-Learning 이 더 나은 대안이 될 수 있습니다.
- **과정 보상 (Process Reward)**을 잘 설계하면, 모델은 정확하면서도 다양한 해결책을 찾아낼 수 있습니다.
- 이는 우리가 AI 에게 복잡한 계획 (수학 증명, 로봇 제어, 복잡한 도구 사용 등) 을 시킬 때, 단순히 정답만 맞추는 게 아니라 유연하게 사고할 수 있게 만드는 열쇠가 됩니다.
🚀 결론
이 연구는 **"AI 가 미로를 찾을 때, 단순히 정답을 외우게 하면 안 되고, 스스로 탐험하게 해야 하며, 특히 'Q-Learning'과 '과정 보상'을 잘 섞으면 AI 가 더 똑똑하고 유연해질 수 있다"**는 이론적 근거를 제시했습니다.
앞으로 우리가 사용하는 AI 가 더 똑똑한 '계획가'가 되기 위해서는, 어떻게 보상 (Reward) 을 줄지를 신중하게 설계해야 한다는 중요한 메시지를 줍니다.