Supervised Reinforcement Learning: From Expert Trajectories to Step-wise Reasoning

Each language version is independently generated for its own context, not a direct translation.

이 논문은 **"작은 인공지능 (AI) 이 어려운 문제를 해결하는 법을 배우는 새로운 방법"**에 대한 이야기입니다.

기존의 AI 학습 방식에는 두 가지 큰 문제가 있었습니다. 이 논문의 저자들은 이를 해결하기 위해 **'감독된 강화 학습 (Supervised Reinforcement Learning, SRL)'**이라는 새로운 방식을 제안했습니다.

이 복잡한 내용을 일상적인 비유로 쉽게 설명해 드릴게요.

🧩 1. 기존 방식의 문제: "무작위 시행착오" vs "눈가리고 따라하기"

작은 AI 모델이 수학 문제나 코딩 같은 어려운 일을 배울 때, 기존에 쓰이던 두 가지 방법은 각각 한계가 있었습니다.

방법 A: 강화 학습 (RL) - "무작위 시행착오"
- 비유: 마치 복권을 사는 것과 같습니다. AI 가 정답을 맞출 때까지 무작위로 수천 번을 시도해 봅니다.
- 문제점: 문제가 너무 어렵다면, AI 가 아무리 많이 시도해도 정답을 한 번도 못 맞출 수 있습니다. 정답을 못 찾으면 "정답이 없다"고 생각해서 학습을 멈추거나, 오히려 엉뚱한 방향으로 학습하게 됩니다. (정답을 찾을 확률이 0% 에 가까울 때 무용지물이 됩니다.)
방법 B: 지도 학습 (SFT) - "눈가리고 따라하기"
- 비유: 유치원생이 어른의 긴 글을 그대로 외우는 것과 같습니다. 전문가가 쓴 해설을 보고 "이 단어, 저 단어"를 하나하나 따라 쓰게 합니다.
- 문제점: AI 는 글자 하나하나를 기계적으로 외우기만 할 뿐, 왜 그렇게 풀어야 하는지 이해하지 못합니다. 그래서 조금만 문제가 바뀌면 당황해서 틀리게 됩니다. (과적합, Overfitting)

🚀 2. 새로운 해결책: SRL (감독된 강화 학습)

저자들은 이 두 방법의 장점을 섞어서 "스스로 생각하며, 전문가의 발걸음을 따라가는" 방식을 만들었습니다.

🎭 핵심 비유: "연극 연습"

이제 AI 는 단순히 정답을 맞추거나 글을 외우는 게 아니라, 연극 배우가 됩니다.

전문가의 대본 (Expert Trajectories) 을 쪼개기:
- 전문가가 푼 긴 해설을 통째로 외우는 게 아니라, 중요한 장면 (Step) 들로 쪼개서 봅니다.
- 예: "1. 문제를 분석한다" -> "2. 공식을 적용한다" -> "3. 계산한다".
내면의 독백 (Inner Monologue):
- AI 는 다음 장면을 연기하기 전에, 스스로에게 속삭입니다 (Thinking Process).
- "음, 이제 이 문제를 풀려면 먼저 이 공식을 써야겠네..."라고 생각한 다음에, 실제 행동 (Action) 을 취합니다.
단계별 칭찬 (Step-wise Reward):
- 여기서 가장 중요한 건 **보상 (Reward)**입니다.
- 기존 방식은 "전체 연극이 끝난 후 정답이 맞으면 점수 100 점"이었지만, SRL 은 매 장면마다 전문가의 행동과 비교합니다.
- "오! 네가 '공식 적용'을 위해 이렇게 생각한 건 전문가와 비슷하네! 점수 80 점!"이라고 단계별로 칭찬해 줍니다.
- 효과: 정답을 못 맞췄더라도, "생각하는 과정"이 비슷하면 점수를 줍니다. 그래서 AI 는 실패하더라도 "어디서부터 잘했는지"를 배우게 됩니다.

🌟 3. 왜 이것이 특별한가요?

이 방식은 작은 AI 모델에게 기적을 일으켰습니다.

유연한 사고: AI 는 단순히 글자를 복사하는 게 아니라, 전문가의 **논리적 흐름 (Action)**을 따라하면서 스스로 생각할 줄 알게 됩니다.
어려운 문제도 가능: 정답을 한 번도 못 맞춘 아주 어려운 문제라도, "생각하는 과정"이 전문가와 비슷하면 학습이 계속됩니다.
최고의 조합: SRL 로 먼저 기초를 다진 뒤, 다시 강화 학습 (RL) 을 섞으면 가장 강력한 AI가 됩니다. (마치 기초 체력을 기른 뒤 고강도 훈련을 받는 것과 같습니다.)

📊 4. 실제 성과 (수학과 코딩)

이론만 좋은 게 아닙니다. 실험 결과:

수학 문제 (AMC, AIME 등): 기존 방법들보다 훨씬 높은 점수를 받았습니다. 특히 어려운 문제에서 큰 차이를 보였습니다.
소프트웨어 엔지니어링 (코딩): 복잡한 버그를 고치는 작업에서도 기존 AI 들보다 훨씬 잘 해결했습니다.

💡 한 줄 요약

**"작은 AI 가 어려운 문제를 풀 때, 정답을 맞추기 위해 무작정 시도하거나 글자를 외우는 대신, 전문가의 '생각하는 과정'을 단계별로 따라하며 스스로 배우게 하는 새로운 훈련법"**입니다.

이 방법은 AI 가 단순히 답을 외우는 로봇이 아니라, 문제를 해결하는 사고력을 가진 지능으로 성장하게 해줍니다.

Each language version is independently generated for its own context, not a direct translation.

1. 연구 배경 및 문제 정의 (Problem)

대규모 언어 모델 (LLM) 은 복잡한 다단계 추론 (Multi-step Reasoning) 문제에서 여전히 어려움을 겪고 있습니다. 특히 소규모 오픈소스 모델의 경우, 기존 학습 방식인 SFT(지도 미세조정) 와 RLVR(검증 가능한 보상을 통한 강화학습) 모두 한계가 명확합니다.

SFT 의 한계: 전문가의 전체 해답을 토큰 단위로 모방하도록 학습시키는 SFT 는 긴 시퀀스에 대해 과도하게 적합 (Overfitting) 되어, 모델이 훈련 데이터 밖으로 일반화하지 못하거나 얕은 추론 행동을 보일 수 있습니다.
RLVR 의 한계: 최종 정답의 정확도만을 보상으로 주는 RLVR 은 모델이 올바른 해답을 생성할 확률 (Pass@k) 이 거의 0 인 어려운 문제 (D_hard) 에서 실패합니다. 이 경우 긍정적 보상 신호가 부족하여 학습이 불가능해지거나, 잘못된 출력에 대한 부정적 보상이 학습 불안정을 초래합니다.

이러한 공백을 메우기 위해, 작은 모델이 SFT 나 RLVR 로는 학습하기 어려운 난이도 높은 추론 문제를 해결할 수 있는 새로운 프레임워크가 필요합니다.

2. 제안 방법: Supervised Reinforcement Learning (SRL)

저자들은 문제를 해결하기 위해 Supervised Reinforcement Learning (SRL) 을 제안합니다. 이는 문제 해결을 일련의 논리적 "행동 (Action)" 시퀀스 생성 문제로 재정의하며, 전문가의 궤적 (Trajectory) 을 단계별로 분해하여 학습합니다.

핵심 메커니즘

행동 기반 문제 정의 (Action-based Formulation):
- 전문가의 전체 해답을 논리적 단위로 분해하여 일련의 튜플 (Step 1, Step 2, ...) 로 만듭니다. 각 단계는 구체적인 논리적 행동 (예: 수학 문제의 대수적 조작, 소프트웨어 에이전트의 코드 실행) 을 의미합니다.
단계별 학습 데이터 구성:
- 하나의 완전한 전문가 해답을 $N$ 개의 단계로 나눕니다. $k$ 번째 단계에서 모델은 이전 단계들까지의 컨텍스트를 바탕으로 다음 단계의 행동을 예측하도록 학습됩니다.
내부 독백과 행동 분리:
- 모델은 각 단계에서 먼저 <thought> 태그로 자신의 추론 과정 (내부 독백) 을 생성한 후, 실제 행동 (Action) 을 출력합니다.
- 중요: 보상은 모델의 내부 독백이 아닌, 전문가의 행동과 유사한 '논리적 행동'의 품질에 기반하여 계산됩니다. 이를 통해 모델은 유연한 추론 스타일을 개발하면서도 전문가의 전략에 부합하는 행동을 학습할 수 있습니다.
밀집된 유사도 보상 (Dense Sequence Similarity Reward):
- 최종 정답의 정확도 대신, 모델이 생성한 행동과 전문가의 행동 간의 시퀀스 유사도 (Sequence Similarity, 예: difflib.SequenceMatcher) 를 보상으로 사용합니다.
- 이 보상은 $[0, 1]$ 범위의 밀집된 (Dense) 신호를 제공하므로, 모델이 완전히 틀린 해답을 내놓더라도 부분적으로 맞는 행동을 했다면 학습 신호를 얻을 수 있습니다.
동적 샘플링 (Dynamic Sampling):
- RLVR 에서와 마찬가지로, 보상의 분산이 거의 0 인 샘플 (학습 신호가 약한 경우) 을 필터링하여 배치에 포함되지 않도록 하여 학습 효율성을 높입니다.

3. 주요 기여 (Key Contributions)

새로운 프레임워크 제안: SFT 와 RLVR 모두 실패하는 어려운 추론 작업에서, 전문가 행동과 유사한 밀집된 보상을 통해 효과적으로 학습할 수 있는 SRL을 제안했습니다.
광범위한 실험 검증: 수학 추론 (AMC, AIME, Minerva) 과 소프트웨어 엔지니어링 에이전트 (SWE-Bench) 벤치마크에서 강력한 성능을 입증했습니다.
세밀한 가이드의 중요성 규명: 단순한 전체 시퀀스 유사도 보상이 아닌, 단계별 (Step-wise) 분해가 모델의 유연하고 정교한 추론 패턴 (계획, 조정, 검증의 교차) 을 유도하여 성능을 극대화한다는 것을 분석을 통해 증명했습니다.

4. 실험 결과 (Results)

A. 수학 추론 벤치마크 (Math Reasoning)

데이터셋: s1K-1.1 (1,000 개의 난이도 높은 수학 문제, DeepSeek-R1 해답 포함).
베이스라인 비교:
- SFT: 같은 데이터셋으로 SFT 를 수행한 모델은 베이스 모델보다 성능이 저하되었습니다 (과적합).
- RLVR: 일반화 능력은 유지했으나 개선 폭이 미미했습니다.
- SRL: 베이스 모델 대비 평균 3.0% 향상, RLVR 대비 3.7% 향상.
- SRL → RLVR: SRL 로 초기화한 후 RLVR 로 세밀 조정 (Fine-tuning) 한 파이프라인이 가장 높은 성능을 기록했습니다 (예: AIME24 Greedy 기준 20.0% 달성).
소규모 모델 적용: Qwen2.5-3B 와 같은 작은 모델에서도 SRL 적용 시 평균 3.1% 의 성능 향상을 보였습니다.

B. 소프트웨어 엔지니어링 에이전트 (Agentic Software Engineering)

태스크: SWE-Bench-Verified 에서 실제 코드 버그 수정 및 패치 생성.
결과:
- Oracle File Edit: SRL 모델은 14.8% 의 해결률을 기록하여, 기존 SFT 기반 모델 (SWE-Gym-7B, 8.4%) 대비 74% 상대적 향상을 보였습니다.
- End-to-End: 8.6% 의 해결률로 SWE-Gym-7B(4.2%) 대비 약 2 배의 성능 향상을 달성했습니다.

5. 의의 및 결론 (Significance)

학습 패러다임의 전환: 단순한 모방 (SFT) 이나 결과 중심의 강화학습 (RLVR) 사이의 간극을 메우는 하이브리드 학습 프레임워크를 제시했습니다.
난제 해결 능력: 모델이 처음부터 정답을 찾지 못하는 매우 어려운 문제에서도, 단계별 행동 유사도를 통해 학습 신호를 확보하여 추론 능력을 배양할 수 있음을 증명했습니다.
범용성: 수학 문제뿐만 아니라 복잡한 에이전트 작업 (소프트웨어 엔지니어링) 으로도 확장 가능하여, 추론 중심 LLM 및 에이전트 훈련을 위한 강력하고 범용적인 프레임워크로 자리 잡았습니다.

결론적으로, SRL 은 전문가의 궤적을 단계별로 분해하고 밀집된 유사도 보상을 활용함으로써, 소규모 모델이 복잡한 다단계 추론 문제를 효과적으로 학습할 수 있는 길을 열었습니다.