Self-Distillation for Multi-Token Prediction

이 논문은 다중 토큰 예측 (MTP) 의 추론 효율성을 높이기 위해 제안된 자기 증류 기법 (MTP-D) 과 루프 확장 전략을 통해 MTP 헤드의 수용률을 크게 향상시키고 추론 속도를 획기적으로 개선하는 방법을 제시합니다.

Guoliang Zhao, Ruobing Xie, An Wang, Shuaipeng Li, Huaibing Xie, Xingwu Sun

게시일 2026-03-26
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

🚀 문제: "한 번에 한 마디만 하는 게 너무 느려!"

지금까지의 거대 언어 모델 (LLM) 은 매우 똑똑하지만, 말을 할 때 '한 번에 한 글자 (또는 단어) 만' 내뱉는 방식을 썼습니다.

  • 비유: 친구가 "안녕하세요, 오늘 날씨가 정말 좋네요"라고 말하려고 할 때, "안" -> "녕" -> "하" -> "세" -> "요" 순서로 한 글자씩 끊어서 말하는 것과 같습니다.
  • 문제점: 글이 길어질수록 이 과정이 너무 오래 걸려서, 실제로 쓸 때 답답합니다.

💡 기존 해결책: "여러 명이서 미리 예측해 보기 (MTP)"

연구자들은 "그럼 한 번에 여러 글자를 미리 예측해서 동시에 말해보자!"라고 생각했습니다. 이를 **다중 토큰 예측 (MTP)**이라고 합니다.

  • 비유: 친구가 "안녕하세요"를 말할 때, "안녕"을 말한 순간에 "하세요"까지 미리 입에 담고 있는 것처럼, 한 번에 4~5 글자씩 미리 내뱉는 것입니다.
  • 하지만: 이 방식에는 큰 문제가 있었습니다.
    1. 예측이 잘 안 맞음: 미리 내뱉은 글자가 틀릴 확률이 높아서, 매번 "아, 틀렸네" 하고 다시 처음부터 확인해야 했습니다. (수용률 낮음)
    2. 훈련이 어려움: 본인이 (메인 두뇌) 는 잘하는데, 미리 예측하는 부대신들 (MTP 헤드) 은 너무 서툴러서 함께 훈련시키기 힘들었습니다.

✨ 이 논문의 해결책: "MTP-D (스스로 가르치는 속기왕)"

이 논문은 두 가지 핵심 아이디어로 이 문제를 해결했습니다.

1. "스스로를 스승으로 삼아 가르치기 (자기 증류)"

기존 방식은 부대신들이 혼자서 헛다리를 짚는 경우가 많았습니다. 그래서 본인 (메인 두뇌) 이 부대신들에게 "내가 생각한 가장 유력한 답 10,000 가지만 골라봐"라고 가르쳐 준 것입니다.

  • 비유:
    • 기존: 부하 직원들이 "아마 이거겠지?"라고 막연히 추측하다가 자주 틀림.
    • 이 방법: 상사 (메인 두뇌) 가 "이 10,000 개 중에 정답이 있을 거야"라고 핵심 힌트만 줌. 부하 직원들은 그 힌트만 보고 집중해서 훈련함.
    • 결과: 부하 직원들이 훨씬 똑똑해져서, 상사의 말을 거의 그대로 따라갈 수 있게 됨 (수용률 7.5% 상승).

2. "레고 블록처럼 반복해서 늘리기 (루프 확장)"

부하 직원들이 4 명만 있는 게 아쉽다면, 이미 훈련된 4 명을 복사해서 8 명, 16 명으로 늘리는 방법을 제안했습니다.

  • 비유:
    • 처음에 4 명을 훈련시켰다면, 그 4 명의 능력을 그대로 복사해서 새로운 4 명을 데려와서 "너희는 이 능력을 바탕으로 더 발전해"라고 계속 훈련시킴.
    • 결과: 훈련 비용은 거의 들지 않으면서, 한 번에 내뱉을 수 있는 글자 수를 4 개에서 16 개까지 늘릴 수 있게 됨.

🏆 성과: "속도가 2 배 이상 빨라졌다!"

이 방법을 적용한 결과:

  • 정확도 유지: 본래의 똑똑함 (메인 두뇌) 은 그대로 유지하면서, 부하 직원들의 실력이 대폭 향상됨.
  • 속도 향상:
    • 부하 직원이 4 명일 때: 약 23% 더 빠름.
    • 부하 직원을 16 명까지 늘렸을 때: 약 220% 더 빠름 (기존보다 3 배 이상).
    • 즉, 같은 작업을 하더라도 3 배 빨리 끝낼 수 있게 된 것입니다.

📝 한 줄 요약

**"거대 AI 가 말을 할 때, 한 번에 한 글자씩 끄집어내는 대신, 가장 유력한 답만 골라 미리 16 개씩 내뱉도록 훈련시켜 속도를 3 배로 높인 방법"**을 개발했습니다.

이 기술은 앞으로 우리가 AI 와 대화할 때, 기다림 없이 훨씬 더 빠르게 답변을 받을 수 있게 해줄 것입니다.

연구 분야의 논문에 파묻히고 계신가요?

연구 키워드에 맞는 최신 논문의 일일 다이제스트를 받아보세요 — 기술 요약 포함, 당신의 언어로.

Digest 사용해 보기 →