Revisiting On-Policy Distillation: Empirical Failure Modes and Simple Fixes

이 논문은 온-폴리시 증류 (OPD) 의 표본화된 토큰 방식이 가진 세 가지 실패 요인을 분석하고, 교사 모델의 로컬 지원 매칭을 기반으로 한 단순한 수정 기법을 제안하여 장기적 할당 환경에서 더 안정적인 최적화와 향상된 성능을 달성함을 보여줍니다.

Yuqian Fu, Haohuan Huang, Kaiwen Jiang, Yuanheng Zhu, Dongbin Zhao

게시일 2026-03-27
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

이 논문은 거대한 언어 모델 (LLM) 을 더 똑똑하게 만드는 '지식 전수 (Distillation)' 과정에서 발생한 흥미로운 문제와 그 해결책을 다룹니다.

비유하자면, 이 논문은 **"어린 학생 (Student) 이 스승 (Teacher) 의 가르침을 받으며 스스로 문제를 풀 때, 왜 가끔 엉뚱한 방향으로 헤매게 되는가?"**를 분석하고, **"더 안정적인 학습 방법"**을 제안합니다.

핵심 내용을 일상적인 언어와 비유로 설명해 드릴게요.


1. 배경: 왜 '온 - 정책 (On-Policy)' 학습이 필요한가?

과거에는 AI 를 가르칠 때, **스승이 미리 정해둔 정답지 (고정된 데이터)**만 보여주며 학습시켰습니다. 하지만 요즘처럼 복잡한 문제 (수학 추론, 에이전트 작업 등) 를 풀 때는 상황이 다릅니다.

  • 상황: 학생이 문제를 풀다 보면, 스승이 경험해 본 적 없는 완전히 새로운 길로 가게 됩니다.
  • 문제: 이때 스승이 "이건 틀렸어"라고만 말해주면, 학생은 길을 잃고 망설이게 됩니다.
  • 해법 (OPD): 그래서 학생이 **스스로 만들어낸 답안 (Rollout)**을 스승에게 보여주고, 그 순간순간의 피드백을 받아 학습하는 '온 - 정책 (On-Policy)' 방식이 주목받게 되었습니다.

2. 문제점: "단 하나의 단어"에 모든 것을 걸다

기존의 온 - 정책 학습 방식은 아주 단순하고 효율적이었습니다. 하지만 세 가지 치명적인 약점이 있었습니다.

① 편향된 신호 (Imbalanced Signal)

  • 비유: 시험지를 채점할 때, 스승이 "정답인 단어 하나만" 보고 점수를 매기는 것과 같습니다.
  • 현실: 학생이 쓴 문장 100 개 중 99 개는 평범하고, 1 개만 스승이 좋아하는 단어가 나왔다면, 그 1 개 때문에 전체 학습 방향이 크게 흔들립니다. 마치 "한 번의 칭찬에 취해서, 나머지 99 개의 실수를 무시하고 그 단어만 반복하는 학생"과 같습니다.

② 스승의 눈이 멀다 (Unreliable Guidance)

  • 비유: 학생이 스승이 가본 적 없는 낯선 길로 들어섰을 때, 스승은 "아, 이 길은 내가 잘 모르는 길이니까 그냥 '괜찮아'라고 말해줄 뿐"입니다.
  • 현실: 학생이 엉뚱한 방향으로 (예: 같은 문장을 반복하거나, 의미 없는 말을 늘어놓는 것) 가도, 스승은 그 순간의 단어만 보고 "좋아, 이 단어는 내가 좋아해"라고 점수를 줍니다. 결과적으로 학생은 **엉뚱한 반복 (Repetition Loop)**이나 **의미 없는 말 (Gibberish)**을 계속하게 됩니다.

③ 언어 장벽 (Tokenizer Mismatch)

  • 비유: 스승과 학생이 단어를 쪼개는 방식이 다릅니다.
    • 학생: "사과"를 "사", "과"로 쪼갭니다.
    • 스승: "사과"를 "사과" 하나로 쪼갭니다.
  • 현실: 학생이 "사"라고 말했을 때, 스승은 "아, 내가 원하는 '사과'의 일부가 아니야"라고 오해해서 점수를 깎아줍니다. 실제로는 같은 뜻인데, **단어 쪼개기 방식 (토크나이저)**이 달라서 불필요한 오해를 사는 것입니다.

3. 해결책: "스승이 좋아하는 단어 10 개"를 함께 보자

저자들은 이 문제를 해결하기 위해 **"스승이 가장 좋아할 만한 상위 K 개 단어 (Top-K)"**를 함께 고려하는 새로운 방식을 제안했습니다.

  • 기존 방식: 학생이 쓴 단 하나의 단어만 보고 "좋다/나쁘다"를 판단.
  • 새로운 방식 (Local Support Matching):
    1. 학생이 문장을 이어갈 때, 스승이 "이런 단어들을 쓸 수도 있겠다"라고 생각할 만한 상위 K 개 후보군을 먼저 뽑습니다.
    2. 학생이 그 후보군 안에 있는 단어를 썼다면, 단 하나의 단어에 매달리지 않고 그 후보군 전체의 확률 분포를 비교합니다.
    3. 결과: 학생이 엉뚱한 길로 빠지지 않도록, 스승이 "이쪽 방향은 괜찮아"라고 알려주는 여러 개의 안전지대를 만들어주는 것입니다.

4. 실험 결과: 더 안정적이고 똑똑해졌다

이 방식을 적용했을 때 두 가지 큰 변화가 있었습니다.

  1. 학습이 더 안정적: 학생이 엉뚱한 길 (반복, 의미 없는 말) 로 빠지지 않고, 스승의 지도를 더 정확하게 따라갑니다.
  2. 실제 성능 향상: 수학 문제 풀이와 복잡한 에이전트 작업 (예: 로봇이 집안일 하기) 에서 기존 방식보다 훨씬 좋은 점수를 받았습니다.

5. 한 줄 요약

"기존 방식은 학생이 쓴 '단 하나의 단어'만 보고 점수를 매겨서 엉뚱한 방향으로 헤매게 했지만, 새로운 방식은 '스승이 좋아할 만한 여러 후보'를 함께 보며 더 넓은 시야로 지도해줘서, 학생이 더 안정적이고 똑똑하게 성장하게 했다."

이 논문은 거대 AI 가 스스로 학습할 때 발생하는 **'오해'와 '불안정성'**을 해결하여, 더 똑똑하고 신뢰할 수 있는 AI 를 만드는 데 중요한 디딤돌이 된 연구입니다.

연구 분야의 논문에 파묻히고 계신가요?

연구 키워드에 맞는 최신 논문의 일일 다이제스트를 받아보세요 — 기술 요약 포함, 당신의 언어로.

Digest 사용해 보기 →