On-Policy Self-Distillation for Reasoning Compression

이 논문은 정답이나 예산 제약 없이 모델이 스스로의 간결한 추론을 학습하도록 유도하는 'OPSDC' 방법을 제안하여, 불필요한 토큰을 줄이면서도 어려운 문제 해결 능력을 향상시키고 정확도를 크게 높인다고 설명합니다.

Hejian Sang, Yuanda Xu, Zhengze Zhou, Ran He, Zhipeng Wang, Jiachen Sun

게시일 2026-03-06
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

🧠 핵심 아이디어: "말을 줄이면 생각이 더 똑똑해진다"

지금까지의 AI(특히 수학이나 논리 문제를 푸는 AI) 는 문제를 풀 때 **"생각하는 과정 (Reasoning)"**을 입 밖으로 내뱉으며 해결했습니다. 마치 시험을 볼 때 풀이 과정을 종이에 빽빽이 적어내는 것처럼요.

하지만 연구진은 깨달았습니다. "AI 가 말하는 그 많은 생각 중 90% 는 쓸데없는 잡담이거나, 스스로를 혼란스럽게 만드는 소음이다."

  • 기존 AI: "음... 2+2 는 4 일까? 아니면 5 일까? 아니, 2+2 는 4 가 맞지. 근데 혹시 내가 착각했나? 다시 한번 계산해 볼까? 2 더하기 2... 아, 4 가 맞네. 하지만 정말 4 맞나? 확인해 보자..." (이렇게 500 마디를 말하며 정답을 4 라고 함)
  • 문제점: 말이 너무 길어지면, AI 는 중간에 길을 잃거나, 잘못된 가정 위에서 계속 논리를 펼치다가 실수를 범하게 됩니다.

🛠️ 해결책: "스스로에게 '간결하게 말해'라고 시키고, 그 모습을 배워라"

이 논문이 제안한 OPSDC 방법은 아주 간단하면서도 기발합니다.

  1. 선생님 (Teacher) 만들기: 똑같은 AI 모델에게 **"이제부터는 문제를 아주 간결하게, 불필요한 말 없이만 풀어줘"**라고 지시합니다. (예: "2+2 는 4 다. 끝.")
  2. 학생 (Student) 만들기: 원래의 AI 모델은 아무 지시 없이 문제를 풉니다. (여전히 길게 말합니다.)
  3. 자기 교습 (Self-Distillation): 학생이 길게 말한 내용을 바탕으로, **선생님 (간결하게 말한 AI)**이 어떻게 짧게 답했는지 비교합니다. 그리고 학생에게 "너는 이렇게 길게 말했는데, 선생님은 이렇게 짧게 말했잖아. 너도 그렇게 하라"라고 가르칩니다.

핵심은? 정답을 알려주지 않아도 됩니다. AI 가 스스로 "어? 내가 이렇게 짧게 말해도 답이 나오네?"라고 깨닫고 배우는 것입니다.

🎯 왜 이렇게 하면 더 똑똑해질까? (비유)

1. "잡담이 실수를 부른다"

  • 비유: 시험장에서 문제를 풀 때, "이게 맞나? 저게 맞나? 아, 내 펜이 고장 났나?"라고 10 분 동안 중얼거리면, 정답을 쓸 시간이 부족해지거나 집중이 깨져서 틀리게 됩니다.
  • OPSDC 의 효과: 불필요한 잡담 (노이즈) 을 잘라내니, AI 는 핵심 논리만에 집중하게 됩니다. 그 결과, 단순히 말이 짧아진 게 아니라, 정답을 맞힐 확률도 높아졌습니다.

2. "어려운 문제는 길게, 쉬운 문제는 짧게"

  • 비유: 요리할 때, "라면 끓이는 법"은 "물 끓여라 -> 면 넣으라 -> 3 분 기다려라"라고 3 단어로 충분합니다. 하지만 "스페인 요리 레시피"는 재료 준비부터 불 조절까지 자세히 설명해야 합니다.
  • OPSDC 의 효과: 이 방법은 AI 가 스스로 판단하게 합니다. 쉬운 문제는 "라면 끓이기"처럼 짧게, 어려운 문제는 "스페인 요리"처럼 필요한 만큼만 길게 생각합니다. 어려운 문제를 무작정 짧게 줄이면 실수하지만, OPSDC 는 자동으로 그 균형을 맞춥니다.

📊 실제 성과: "말 줄이고 점수 올리기"

이 방법을 적용한 결과 (Qwen3-8B, 14B 모델 기준) 는 정말 놀라웠습니다.

  • MATH-500 (수학 문제):

    • 생각한 말 (토큰 수): 57% 줄어듦 (약 절반 이상 줄음)
    • 정답률: 70% → **86%**로 급상승! (16 점이나 올랐습니다)
    • 해석: 말이 반으로 줄었는데, 오히려 훨씬 더 똑똑해졌습니다.
  • AIME 2024 (고난도 수학 경시대회):

    • 생각한 말: 41% 줄어듦
    • 정답률: 65% → **76%**로 상승

💡 결론: "말이 많다고 지혜로운 게 아니다"

이 논문의 가장 큰 교훈은 **"AI 가 많이 생각한다고 (말한다고) 해서 똑똑한 게 아니다"**라는 점입니다. 오히려 불필요한 생각 (잡담) 이 쌓이면 오류가 누적되어 실수를 부릅니다.

OPSDC는 AI 에게 "너는 이미 간결하게 생각할 수 있는 능력을 가지고 있어. 그냥 그걸 꺼내서 써봐"라고 권한을 줌으로써, 더 짧고, 더 빠르고, 더 정확한 AI를 만들어냈습니다.

한 줄 요약:

"AI 에게 '말을 줄여라'라고 가르치니, 오히려 '생각'이 더 명쾌해져서 문제를 더 잘 풀게 되었다."

이런 논문을 받은편지함으로 받아보세요

관심사에 맞는 일간 또는 주간 다이제스트. Gist 또는 기술 요약을 당신의 언어로.

Digest 사용해 보기 →