Scaling Reasoning Efficiently via Relaxed On-Policy Distillation

이 논문은 온-정책 증류의 불안정성을 해결하고 샘플 효율성과 추론 속도를 극대화하기 위해, 교사의 보상을 유연하게 활용하는 'REOPOLD'라는 새로운 증류 프레임워크를 제안하고 수학, 시각, 도구 사용 추론 작업에서 기존 방법들을 능가하는 성능을 입증했습니다.

Jongwoo Ko, Sara Abdali, Young Jin Kim, Tianyi Chen, Pashmina Cameron

게시일 2026-03-13
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

🎓 핵심 비유: "무조건 따라 하기 vs. 똑똑한 멘토링"

1. 문제: "무조건 따라 하는 학생" (기존 방식)

예전에는 작은 AI(학생) 가 큰 AI(선생님) 의 답변을 그대로 복사하듯 배우는 '온-폴리시 증류 (On-Policy Distillation)' 방식을 썼습니다.

  • 상황: 선생님 (32B 모델) 이 "이 문제는 이렇게 풀어야 해!"라고 말하면, 학생 (7B 모델) 은 그 말 한마디 한마디를 절대적인 진리로 여겨 무조건 따라 합니다.
  • 문제점:
    • 혼란: 선생님이 실수했거나, 학생이 아직 이해할 수 없는 어려운 부분을 가르치면 학생은 당황해서 망가집니다 (부정적 전이).
    • 공포: "내가 틀린 걸까?"라는 생각이 들면 학생은 스스로 생각할 기회를 잃고, 선생님의 말만 반복하다가 창의성이 사라집니다 (엔트로피 붕괴).
    • 비효율: 선생님이 "물론 1+1=2 지"라고 말한 부분까지 학생이 열심히 공부하면 시간만 낭비합니다.

2. 해결책: REOPOLD (Relaxed On-Policy Distillation)

이 논문은 **"완벽한 복제가 아니라, 유연한 학습"**을 제안합니다. 이를 REOPOLD라고 부릅니다.

🌟 REOPOLD 의 3 가지 비결 (비유 포함):

① "무서운 선생님도 때로는 웃어주는 법" (Reward Clipping)

  • 상황: 선생님이 학생의 답을 보고 "너 이거 완전 틀렸어! (부정적 점수 -∞)"라고 너무 극단적으로 비난하면 학생은 겁에 질려 아무것도 못 합니다.
  • 해결: REOPOLD 는 "너 이거 틀렸지만, 너무 무서워하지 마. 적당히 점수 깎아줄게."라고 부정적인 점수에도 상한선을 둡니다.
  • 효과: 학생이 실수해도 멘탈이 무너지지 않고, 다시 일어설 수 있는 용기를 줍니다.

② "중요한 부분만 집중하기" (Entropy-Guided Sampling)

  • 상황: 선생님이 "1+1=2"라고 말했을 때와 "이 복잡한 수학 문제의 미묘한 뉘앙스"를 설명했을 때, 학생은 둘 다 똑같이 열심히 들어야 할까요?
  • 해결: REOPOLD 는 **"학생이 가장 헷갈려하고, 선생님과 생각이 다른 부분 (높은 엔트로피)"**만 골라 집중하게 합니다. 이미 아는 쉬운 부분은 건너뛰고, 진짜 고민해야 할 부분만 집중합니다.
  • 효과: 공부 시간을 아껴서 진짜 어려운 문제 해결 능력을 키웁니다.

③ "탐험과 정리의 두 단계 학습" (Exploration-to-Refinement)

  • 상황: 처음부터 정답만 외우면 창의성이 죽습니다.
  • 해결:
    • 1 단계 (탐험): "일단 여러 가지 답을 시도해 봐! 틀려도 괜찮아!"라고鼓励学生 (SFT 방식).
    • 2 단계 (정리): "자, 이제 우리가 찾은 여러 답 중에서 가장 논리적인 것만 골라 다듬자." (RL 방식).
  • 효과: 처음에는 자유롭게 사고하다가, 나중에는 그 사고를 정교하게 다듬어 완벽한 지능을 만듭니다.

🚀 실제 성과: "작은 AI 가 거인보다 빠르고 똑똑해지다"

이 방법을 적용한 결과, 놀라운 일들이 일어났습니다.

  1. 학습 효율성 폭증: 같은 지식을 배우는 데 걸리는 데이터 양이 6.7 배~12 배나 줄었습니다. (예: 100 시간 걸리던 공부를 10 시간 만에 끝냄)
  2. 작은 모델의 대박: 320 억 개의 파라미터를 가진 거대 AI(선생님) 와 맞먹는 성능을, **70 억 개 파라미터의 작은 AI(학생)**가 냈습니다.
  3. 속도 향상: 작은 AI 는 크기가 작아서 계산이 빠릅니다. 그래서 거대 AI 와 똑같은 성능을 내면서도 3 배 이상 빠르게 답을 내놓습니다.

💡 한 줄 요약

"작은 AI 가 거대 AI 의 지식을 배울 때, 무조건 따라 하는 '복제'가 아니라, 실수는 용납하고 중요한 부분만 골라 배우는 '유연한 멘토링'을 통해, 더 빠르고 더 똑똑하게 성장할 수 있다."

이 논문은 AI 가 더 작고 저렴하면서도, 거대 모델 못지않은 추론 능력을 갖출 수 있는 새로운 길을 열었습니다.