Entropy-Aware On-Policy Distillation of Language Models

이 논문은 고엔트로피 상태의 교사 모델 예측 시 역 KL 발산을 보완하기 위해 순 KL 발산을 결합한 '엔트로피 인식 온-정책 증류 (Entropy-Aware On-Policy Distillation)'를 제안하여, 생성 다양성을 유지하면서 수학 추론 성능을 크게 향상시켰음을 보여줍니다.

Woogyeol Jin, Taywon Min, Yongjin Yang, Swanand Ravindra Kadhe, Yi Zhou, Dennis Wei, Nathalie Baracaldo, Kimin Lee

게시일 2026-03-10
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

🎓 1. 상황 설정: "선생님의 답을 그대로 외우는 학생"

가상의 상황을 상상해 보세요.

  • 선생님 (Teacher): 수학 천재입니다. 문제를 풀 때 확실히 정답인 경우엔 "정답은 5 입니다!"라고 아주 단호하게 말합니다. 하지만 어려운 문제나 여러 가지 풀이가 가능한 상황에서는 "음... 5 일 수도 있고, 6 일 수도 있고, 7 일 수도 있겠네..."라며 여러 가능성을 열어두고 고민합니다.
  • 학생 (Student): 이 선생님의 말을 듣고 똑같이 문제를 풀려고 노력합니다.

⚠️ 2. 기존 방식의 문제: "무조건 확신만 믿는 학생"

기존의 AI 학습 방식 (Reverse KL) 은 학생에게 **"선생님이 가장 확신하는 답만 골라라"**라고 가르쳤습니다.

  • 상황: 선생님이 "5 일 수도 있고 6 일 수도 있어"라고 고민할 때 (불확실성이 높은 상황), 학생은 "아, 선생님이 5 라고 했으니 5 가 정답이겠지!"라고 무조건 5 로 고정해 버립니다.
  • 결과:
    1. 다양성 상실: 학생은 6 이나 7 이라는 다른 가능성도 잊어버리고, 오직 5 만 고집하게 됩니다.
    2. 혼란: 선생님이 진짜로 고민하고 있을 때 (여러 답이 공존할 때), 학생은 그 고민의 '흐름'을 이해하지 못하고 엉뚱한 방향으로 쏠리게 되어 학습이 불안정해집니다.
    3. 비유: 마치 요리 실습에서, 선생님이 "이 요리는 소금 1 티스푼도 좋고 1.5 티스푼도 좋네"라고 말했을 때, 학생이 "선생님이 1 티스푼을 먼저 말했으니 1 티스푼만 넣어야지!"라고 딱딱하게만 따라 하는 것과 같습니다. 결국 창의적인 요리 (다양한 풀이) 가 사라지고 실패할 확률이 높아집니다.

✨ 3. 이 논문의 해결책: "상황에 맞춰 가르치는 '지각 있는' 선생님"

이 논문은 **"지각 있는 온-정책 증류 (Entropy-Aware On-Policy Distillation, EOPD)"**라는 새로운 방법을 제안합니다. 핵심은 **"선생님이 확신할 때는 확실히 배우고, 고민할 때는 고민하는 법까지 배우라"**는 것입니다.

🧠 핵심 아이디어: 두 가지 학습 모드

이 방법은 학생이 문제를 풀 때, 선생님의 '고민 정도 (엔트로피)'를 보고 두 가지 방식을 상황에 맞게 섞어 사용합니다.

  1. 선생님이 확신할 때 (낮은 엔트로피):

    • 상황: "정답은 5 입니다!"라고 단호할 때.
    • 학습법: "선생님이 말하는 5 를 정확히 따라 해라." (기존 방식 유지)
    • 효과: 효율적이고 빠르게 핵심을 배웁니다.
  2. 선생님이 고민할 때 (높은 엔트로피):

    • 상황: "5 일 수도 있고 6 일 수도 있어..."라고 여러 가능성을 제시할 때.
    • 학습법: "선생님이 고민하는 그 **모든 가능성 (5, 6, 7)**을 다 기억해 둬라. 5 만 고집하지 말고, 선생님이 가진 '의심'과 '다양성'까지 그대로 받아라." (새로운 방식 적용)
    • 효과: 학생이 다양한 해결책을 탐색할 수 있게 되어, 나중에 비슷한 어려운 문제를 만나도 더 유연하게 대처할 수 있습니다.

🎨 비유: "등산 가이드"

  • 기존 방식: 가이드가 "저기 길이 하나만 있어"라고 말하면 그 길만 가고, "여러 길이 있을 수 있어"라고 말하면 학생은 당황해서 아무 길도 못 가거나 엉뚱한 길로만 갑니다.
  • 새로운 방식 (EOPD): 가이드가 "여기 길이 여러 개 있어"라고 말하면, 학생은 "아, 저기에도 길이 있고, 저기에도 있구나"라고 모든 길을 훑어보며 지도에 그려 넣습니다. 나중에 그 지역을 다시 갈 때, 어떤 길이든 찾아낼 수 있게 됩니다.

📈 4. 실제 성과: "수학 시험에서 더 높은 점수"

이 새로운 방법으로 훈련된 학생들은 실제로 수학 문제 풀이 능력에서 큰 발전을 보였습니다.

  • 다양성 유지: 학생이 문제를 풀 때, 다양한 풀이 경로를 시도할 수 있게 되어 (다양한 답을 낼 수 있게 되어) 실수할 확률이 줄어듭니다.
  • 성적 향상: 복잡한 수학 문제 (AIME, MATH 등) 를 풀 때, 기존 방식보다 **정답률 (Pass@8)**이 크게 향상되었습니다. 특히 40 억 개 파라미터 (4B) 모델의 경우 정답률이 5% 이상이나 높아졌습니다.

💡 5. 결론: 왜 이 기술이 중요한가요?

이 논문은 **"AI 가 무조건 확신하는 것만 배우는 게 아니라, '모르는 것'이나 '고민하는 것'도 배우게 해야 진짜 똑똑해진다"**는 사실을 증명했습니다.

  • 기존: "정답만 외워라." (다양성 파괴)
  • 새로운 방식: "선생님이 고민하는 부분까지 함께 고민해라." (다양성 보존 + 효율성 유지)

이 기술은 거대한 AI 모델을 작은 모델로 옮길 때, 작은 모델이 큰 모델의 '지혜'와 '유연함'까지 모두 가져갈 수 있게 해줍니다. 이는 더 작고 빠르면서도 똑똑한 AI 를 만드는 데 중요한 열쇠가 될 것입니다.