Self-Distilled Reasoner: On-Policy Self-Distillation for Large Language Models

Each language version is independently generated for its own context, not a direct translation.

🧠 핵심 아이디어: "스스로를 가르치는 천재 학생"

기존의 인공지능 학습 방식은 보통 **'선생님 (큰 모델)'**과 **'학생 (작은 모델)'**이 따로 존재합니다. 선생님이 문제를 풀고 학생이 그걸 따라 배우는 거죠. 하지만 이 논문은 **"이미 똑똑한 모델이 있다면, 왜 다른 선생님이 필요하지? 그 모델이 스스로를 가르치면 안 되나?"**라고 질문합니다.

그리고 **"스스로를 가르치는 방법 (OPSD)"**을 제안합니다.

🍳 비유: "요리사 김치찌개 만들기"

가장 이해하기 쉬운 비유를 들어볼까요?

기존 방식 (기존 지식 증류):
- 상황: 요리 실력이 부족한 학생이 '김치찌개'를 만들고 싶지만, 어떻게 해야 할지 모릅니다.
- 해결: 거장 요리사 (선생님) 가 김치찌개를 만들어주는 과정을 다 보여줍니다. 학생은 그걸 보고 따라 합니다.
- 문제: 거장 요리사를 따로 고용해야 하고, 학생이 직접 요리할 때 실수하면 거장이 바로바로 알려주지 못해 (오프-폴리시), 나중에 실제 요리할 때 엉망이 될 수 있습니다.
기존 강화학습 (GRPO 등):
- 상황: 학생이 김치찌개를 100 번이나 만들어봅니다.
- 해결: 100 번 다 만들고 나서 "이번 건 맛없었다 (0 점), 다음 건 맛있다 (1 점)"라고 점수만 줍니다.
- 문제: 100 번이나 만들어야 하니까 시간과 비용이 너무 많이 듭니다. 그리고 "어떤 재료가 부족해서 맛이 없었는지"는 알려주지 않아서, 학생은 계속 같은 실수를 반복합니다.
이 논문의 방식 (OPSD):
- 상황: 똑똑한 요리사 (모델) 가 있습니다. 이 요리사는 두 가지 역할을 합니다.
  - 학생 역할: "김치찌개 만들어줘!"라는 주문만 듣고 직접 요리를 시작합니다.
  - 선생님 역할: 학생이 요리를 시작할 때, 정답 레시피 (정답) 를 미리 보고 있는 상태로 학생의 행동을 지켜봅니다.
- 과정:
  1. 학생이 "김치를 먼저 넣을까?"라고 생각하며 첫 재료를 넣습니다.
  2. **선생님 (정답을 아는 버전)**은 "아니야, 정답 레시피를 보면 고기를 먼저 넣어야 해!"라고 학생의 선택을 바로잡아 줍니다.
  3. 학생은 "아, 내가 잘못했구나. 고기를 먼저 넣어야 하는구나!"라고 실시간으로 배웁니다.
- 결과: 정답 레시피를 미리 알고 있는 '나'가, 정답을 모르는 '나'를 가르치는 것입니다.

🚀 이 방법이 왜 대단할까요?

이 논문은 이 방식이 기존 방법보다 압도적으로 효율적이라고 말합니다.

비용 절감 (돈과 시간 아끼기):
- 기존 강화학습 (GRPO) 은 같은 문제를 8 번이나 10 번이나 만들어보며 점수를 매겨야 했습니다. (비싼 GPU 비용 발생)
- OPSD 는 한 번만 만들어도 됩니다. 하지만 그 한 번을 만들 때, 정답을 아는 '나'가 실시간으로 "여기서 이렇게 해!"라고 알려주니까 훨씬 빨리 배웁니다.
- 비유: 10 번 실패하며 배우는 것보다, 1 번 실패하고 바로 "여기서 실수했어"라고 알려주면 10 배 더 빨리 실력이 늡니다.
정밀한 피드백 (미세한 교정):
- 기존 방식은 "김치찌개 전체가 맛없었다"라고만 말합니다.
- OPSD 는 "첫 번째 재료를 넣을 때 실수했어", "두 번째 재료를 넣을 때 너무 많이 넣었어"라고 하나하나의 단계 (토큰) 마다 정확하게 알려줍니다.
스스로 성장:
- 외부의 거대한 선생님 모델을 따로 필요로 하지 않습니다. 이미 똑똑한 모델이 스스로의 '정답을 아는 버전'과 '모르는 버전'을 만들어서 서로 가르치고 배우는 것입니다.

📊 실험 결과: "작은 모델은 힘들지만, 큰 모델은 대박"

연구진은 이 방법을 수학 문제를 푸는 모델에 적용해봤습니다.

작은 모델 (17 억 파라미터): 스스로를 가르치기엔 너무 어리숙해서, 오히려 혼란스러워졌습니다. (선생님 역할을 할 만큼 충분히 똑똑하지 못했기 때문)
중간/큰 모델 (40 억, 80 억 파라미터): 스스로를 가르치는 데 성공했습니다. 기존 방식보다 8~12 배 더 적은 계산량으로 같은 실력을 얻었습니다.

💡 결론

이 논문은 **"인공지능이 스스로를 가르치는 새로운 시대를 열었다"**고 말합니다.

마치 스스로를 성찰하며 성장하는 인간처럼, 인공지능도 "내가 이 문제를 풀 때, 정답을 알고 있다면 어떻게 풀었을까?"라고 스스로에게 질문하고, 그 답을 통해 더 똑똑해지는 것입니다. 이는 인공지능 개발 비용을 획기적으로 줄이고, 더 똑똑한 AI 를 만드는 데 큰 도움이 될 것입니다.

한 줄 요약:

"이미 똑똑한 AI 가 정답을 미리 보고 있으면서, 스스로의 실수를 바로잡아 주는 방식으로 배우게 했더니, 기존보다 훨씬 싸고 빠르게 똑똑해졌다!"

Each language version is independently generated for its own context, not a direct translation.

1. 문제 정의 (Problem Definition)

대형 언어 모델 (LLM) 의 추론 능력을 향상시키기 위해 현재 주로 사용되는 세 가지 방법 (강화 학습, 지도 미세 조정, 지식 증류) 은 각각 고유한 한계를 가지고 있습니다.

강화 학습 (RLVR, 예: GRPO): 검증 가능한 보상 (정답 여부) 을 기반으로 학습하지만, 보상 신호가 희소 (sparse) 하여 시퀀스 전체에 동일한 보상을 부여합니다. 또한, 모든 샘플이 틀리거나 맞을 경우 경사 신호가 소실되거나, 다수의 샘플을 생성해야 하므로 계산 비용이 매우 높습니다.
지도 미세 조정 (SFT): 고품질 데이터로 학습하지만, 추론 시 발생하는 분포 불일치 (distribution mismatch) 와 노출 편향 (exposure bias) 으로 인해 일반화 성능이 떨어질 수 있습니다.
기존 온-폴리시 증류 (On-Policy Distillation): 학생 모델이 생성한 경로에 대해 교사 모델이 토큰 수준의 밀집된 피드백을 제공하여 분포 불일치를 해결합니다. 하지만 이 방법은 별도의 (보통 더 큰) 교사 모델이 필요하며, 추론 데이터셋에 존재하는 정답 (Ground Truth) 을 직접 활용하지 못합니다.

핵심 질문: 별도의 외부 교사 모델 없이, 하나의 모델이 정답 정보를 '특권 정보 (privileged information)'로 활용하여 스스로를 가르칠 수 있는가?

2. 방법론 (Methodology: OPSD)

저자는 **온-폴리시 자기 증류 (On-Policy Self-Distillation, OPSD)**라는 새로운 프레임워크를 제안합니다. 이는 단일 모델이 '교사'와 '학생'의 역할을 동시에 수행하도록 설계되었습니다.

2.1. 기본 아이디어

학습 동기: 인간이 문제를 풀다가 틀렸을 때, 정답을 보고 그 논리를 재해석 (rationale) 하며 실수를 교정하는 과정과 유사합니다. LLM 도 정답이 주어지면 이를 이해하고 자신의 추론을 교정할 수 있는 능력이 있습니다.
정책 구성: 동일한 모델 파라미터 ( $\theta$ $θ$ ) 를 기반으로 두 가지 조건부 분포를 정의합니다.
- 학생 정책 ( $p_S$ ): 문제 ( $x$ ) 만 입력받습니다. (실제 추론 시나리오와 동일)
- 교사 정책 ( $p_T$ ): 문제 ( $x$ ) 와 정답/참고 추론 ( $y^\star$ ) 을 모두 입력받습니다. (특권 정보 활용)
- 주의: 교사는 실제로 토큰을 생성하지 않으며, 정답 정보를 미리 채워 넣음 (prefilling) 으로써 학생의 생성 경로를 평가하는 '평가자' 역할을 합니다.

2.2. 학습 과정

온-폴리시 샘플링: 학생 정책 $p_S$ 가 문제 $x$ 에 대해 응답 $\hat{y}$ 를 생성합니다.
밀집된 피드백: 생성된 각 토큰 단계 $n$ $n$ 에서, 학생과 교사는 동일한 이전 문맥 ( $\hat{y}_{<n}$ $\overset{y}{^}_{< n}$ ) 을 기반으로 다음 토큰 분포를 예측합니다.
- 학생: $p_S(\cdot | x, \hat{y}_{<n})$
- 교사: $p_T(\cdot | x, y^\star, \hat{y}_{<n})$
손실 함수 (Loss Function): 학생의 생성 경로 전체에 걸쳐 학생과 교사의 토큰 분포 간의 발산 (Divergence, 예: JSD) 을 최소화합니다.
$L_{OPSD} = \mathbb{E}_{(x, y^\star)} \left[ \mathbb{E}_{\hat{y} \sim p_S} \left[ \sum_{n} D(p_T(\cdot | x, y^\star, \hat{y}_{<n}) \parallel p_S(\cdot | x, \hat{y}_{<n})) \right] \right]$
- 중요: 그래디언트는 오직 학생 정책 ( $p_S$ ) 을 통해서만 역전파되며, 교사 정책은 고정된 타겟으로 작용합니다.

2.3. 목표 함수 변형

전체 어휘 분산 (Full-vocabulary divergence): 모든 토큰에 대해 전체 어휘 공간의 분포를 매칭합니다. (밀집된 정보 제공)
샘플링된 토큰 정책 경사 (Sampled-token policy gradient): 실제 생성된 토큰에 대해서만 로그 확률 차이를 '어드밴티지 (advantage)'로 간주하여 정책 경사법을 적용합니다.

3. 주요 기여 (Key Contributions)

OPSD 프레임워크 도입: 별도의 외부 교사 모델이나 보상 모델 (Reward Model) 없이, 정답 정보를 특권 정보로 활용하여 단일 모델이 스스로를 증류하는 새로운 온-폴리시 학습 방식을 제안했습니다.
성능 및 효율성 입증: 수학 추론 벤치마크 (AIME, HMMT 등) 에서 기존 오프-폴리시 증류 (SFT) 보다 우수한 성능을 보였으며, 강화 학습 (GRPO) 과 유사하거나 더 나은 성능을 달성했습니다.
압도적인 토큰 효율성: GRPO 는 정답 확률을 높이기 위해 많은 샘플 (예: 8 개) 과 긴 생성 길이가 필요하지만, OPSD 는 1 개의 샘플과 짧은 생성 길이로도 동등한 성능을 내어 8~12 배의 토큰 효율성을 달성했습니다.
모델 스케일 분석: 자기 증류는 모델의 추론 능력 (모델 크기) 에 비례하여 효과적이었으며, 1.7B 와 같은 작은 모델에서는 효과가 제한적이거나 불안정할 수 있음을 발견했습니다.

4. 실험 결과 (Results)

벤치마크: Qwen3 모델 (1.7B, 4B, 8B) 을 사용하여 AIME 2024/2025, HMMT 2025, Amo-Bench 등에서 평가했습니다.
성능 비교:
- 8B/4B 모델: OPSD 는 GRPO 와 동등하거나 더 높은 정확도를 기록했습니다.
- 1.7B 모델: OPSD 는 일부 벤치마크에서 성능이 하락하거나 GRPO 보다 낮았으며, 이는 자기 증류에 충분한 모델 용량이 필요함을 시사합니다.
효율성:
- 그림 3: 동일한 배치 크기와 학습 스텝 수에서 OPSD 는 GRPO 보다 훨씬 적은 생성 토큰 수 (1024 토큰 vs 16384 토큰) 로 더 빠른 수렴과 높은 정확도를 보였습니다.
- 생성 길이: 생성 길이가 길어질수록 (1024 -> 4096) 교사로부터 받는 피드백이 많아져 성능이 향상되었습니다.
손실 함수 비교: 전체 어휘 분포를 매칭하는 방식이 샘플링된 토큰만 사용하는 방식보다 더 나은 성능을 보였습니다.

5. 의의 및 결론 (Significance & Conclusion)

계산 비용 절감: 별도의 교사 모델 학습이나 강화 학습을 위한 다중 샘플링, 보상 모델 학습 없이도 고품질 추론 능력을 획득할 수 있어 연산 비용을 획기적으로 줄였습니다.
밀집된 피드백의 가치: 정답을 가진 '교사'가 학생의 각 토큰 생성 단계에 대해 밀집된 (dense) 확률 분포 피드백을 제공함으로써, 희소 보상에 의존하는 강화 학습의 단점을 극복했습니다.
미래 방향: 모델의 크기가 커질수록 자기 증류의 효과가 증가하므로, 초대규모 모델 (70B 이상) 로의 확장성과 문제 난이도에 따른 커리큘럼 학습 전략이 중요한 향후 연구 과제로 제시되었습니다.

이 논문은 LLM 의 자기 학습 (Self-learning) 패러다임을 한 단계 발전시켜, 정답 정보가 있는 데이터셋을 활용할 때 외부 리소스 없이도 효율적으로 추론 능력을 증폭시킬 수 있음을 증명했습니다.