Self-Distilled Reasoner: On-Policy Self-Distillation for Large Language Models

이 논문은 외부의 정답이나 검증된 추론 경로를 '권위 정보'로 활용하여 단일 모델이 스스로 교사와 학생 역할을 수행하며 온-정책 자기 증류 (OPSD) 를 통해 기존 온-정책 증류의 한계를 극복하고 강화학습 대비 효율성과 성능을 동시에 향상시킨 새로운 프레임워크를 제안합니다.

Siyan Zhao, Zhihui Xie, Mengchen Liu, Jing Huang, Guan Pang, Feiyu Chen, Aditya Grover

게시일 2026-03-06
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

🧠 핵심 아이디어: "스스로를 가르치는 천재 학생"

기존의 인공지능 학습 방식은 보통 **'선생님 (큰 모델)'**과 **'학생 (작은 모델)'**이 따로 존재합니다. 선생님이 문제를 풀고 학생이 그걸 따라 배우는 거죠. 하지만 이 논문은 **"이미 똑똑한 모델이 있다면, 왜 다른 선생님이 필요하지? 그 모델이 스스로를 가르치면 안 되나?"**라고 질문합니다.

그리고 **"스스로를 가르치는 방법 (OPSD)"**을 제안합니다.

🍳 비유: "요리사 김치찌개 만들기"

가장 이해하기 쉬운 비유를 들어볼까요?

  1. 기존 방식 (기존 지식 증류):

    • 상황: 요리 실력이 부족한 학생이 '김치찌개'를 만들고 싶지만, 어떻게 해야 할지 모릅니다.
    • 해결: 거장 요리사 (선생님) 가 김치찌개를 만들어주는 과정을 다 보여줍니다. 학생은 그걸 보고 따라 합니다.
    • 문제: 거장 요리사를 따로 고용해야 하고, 학생이 직접 요리할 때 실수하면 거장이 바로바로 알려주지 못해 (오프-폴리시), 나중에 실제 요리할 때 엉망이 될 수 있습니다.
  2. 기존 강화학습 (GRPO 등):

    • 상황: 학생이 김치찌개를 100 번이나 만들어봅니다.
    • 해결: 100 번 다 만들고 나서 "이번 건 맛없었다 (0 점), 다음 건 맛있다 (1 점)"라고 점수만 줍니다.
    • 문제: 100 번이나 만들어야 하니까 시간과 비용이 너무 많이 듭니다. 그리고 "어떤 재료가 부족해서 맛이 없었는지"는 알려주지 않아서, 학생은 계속 같은 실수를 반복합니다.
  3. 이 논문의 방식 (OPSD):

    • 상황: 똑똑한 요리사 (모델) 가 있습니다. 이 요리사는 두 가지 역할을 합니다.
      • 학생 역할: "김치찌개 만들어줘!"라는 주문만 듣고 직접 요리를 시작합니다.
      • 선생님 역할: 학생이 요리를 시작할 때, 정답 레시피 (정답) 를 미리 보고 있는 상태로 학생의 행동을 지켜봅니다.
    • 과정:
      1. 학생이 "김치를 먼저 넣을까?"라고 생각하며 첫 재료를 넣습니다.
      2. **선생님 (정답을 아는 버전)**은 "아니야, 정답 레시피를 보면 고기를 먼저 넣어야 해!"라고 학생의 선택을 바로잡아 줍니다.
      3. 학생은 "아, 내가 잘못했구나. 고기를 먼저 넣어야 하는구나!"라고 실시간으로 배웁니다.
    • 결과: 정답 레시피를 미리 알고 있는 '나'가, 정답을 모르는 '나'를 가르치는 것입니다.

🚀 이 방법이 왜 대단할까요?

이 논문은 이 방식이 기존 방법보다 압도적으로 효율적이라고 말합니다.

  1. 비용 절감 (돈과 시간 아끼기):

    • 기존 강화학습 (GRPO) 은 같은 문제를 8 번이나 10 번이나 만들어보며 점수를 매겨야 했습니다. (비싼 GPU 비용 발생)
    • OPSD 는 한 번만 만들어도 됩니다. 하지만 그 한 번을 만들 때, 정답을 아는 '나'가 실시간으로 "여기서 이렇게 해!"라고 알려주니까 훨씬 빨리 배웁니다.
    • 비유: 10 번 실패하며 배우는 것보다, 1 번 실패하고 바로 "여기서 실수했어"라고 알려주면 10 배 더 빨리 실력이 늡니다.
  2. 정밀한 피드백 (미세한 교정):

    • 기존 방식은 "김치찌개 전체가 맛없었다"라고만 말합니다.
    • OPSD 는 "첫 번째 재료를 넣을 때 실수했어", "두 번째 재료를 넣을 때 너무 많이 넣었어"라고 하나하나의 단계 (토큰) 마다 정확하게 알려줍니다.
  3. 스스로 성장:

    • 외부의 거대한 선생님 모델을 따로 필요로 하지 않습니다. 이미 똑똑한 모델이 스스로의 '정답을 아는 버전'과 '모르는 버전'을 만들어서 서로 가르치고 배우는 것입니다.

📊 실험 결과: "작은 모델은 힘들지만, 큰 모델은 대박"

연구진은 이 방법을 수학 문제를 푸는 모델에 적용해봤습니다.

  • 작은 모델 (17 억 파라미터): 스스로를 가르치기엔 너무 어리숙해서, 오히려 혼란스러워졌습니다. (선생님 역할을 할 만큼 충분히 똑똑하지 못했기 때문)
  • 중간/큰 모델 (40 억, 80 억 파라미터): 스스로를 가르치는 데 성공했습니다. 기존 방식보다 8~12 배 더 적은 계산량으로 같은 실력을 얻었습니다.

💡 결론

이 논문은 **"인공지능이 스스로를 가르치는 새로운 시대를 열었다"**고 말합니다.

마치 스스로를 성찰하며 성장하는 인간처럼, 인공지능도 "내가 이 문제를 풀 때, 정답을 알고 있다면 어떻게 풀었을까?"라고 스스로에게 질문하고, 그 답을 통해 더 똑똑해지는 것입니다. 이는 인공지능 개발 비용을 획기적으로 줄이고, 더 똑똑한 AI 를 만드는 데 큰 도움이 될 것입니다.

한 줄 요약:

"이미 똑똑한 AI 가 정답을 미리 보고 있으면서, 스스로의 실수를 바로잡아 주는 방식으로 배우게 했더니, 기존보다 훨씬 싸고 빠르게 똑똑해졌다!"