LK Losses: Direct Acceptance Rate Optimization for Speculative Decoding

이 논문은 KL 발산 대신 직접적인 수용률 최적화를 목표로 하는 'LK 손실'을 제안하여, 다양한 크기의 모델과 도메인에서 스펙큘레이티브 디코딩의 수용 길이를 8~10%까지 향상시키고 구현의 용이성과 추가 비용 부재를 입증했습니다.

Alexander Samarin, Sergei Krutikov, Anton Shevtsov, Sergei Skvortsov, Filipp Fisin, Alexander Golubev

게시일 2026-03-02
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

🚀 1. 배경: 왜 '예측'이 필요할까요?

대형 인공지능이 글을 쓸 때는 한 글자씩 순서대로 써야 합니다. 마치 한 번에 한 칸만 움직이는 말처럼요. 이 방식은 메모리 대역폭이라는 병목 현상 때문에 속도가 느립니다.

**'Speculative Decoding(예측적 디코딩)'**은 이 문제를 해결하기 위해 두 명의 작가를 고용합니다.

  1. 주작가 (Target Model): 거대하고 똑똑하지만 느립니다. (예: 685B 파라미터 모델)
  2. 보조 작가 (Draft Model): 작고 빠르지만, 실수는 좀 합니다. (예: 8B~70B 모델)

작동 원리:
보조 작가가 "주작가, 다음 글자는 A, B, C, D, E, F, G 순서로 올 거예요!"라고 7 개를 한 번에 예측합니다.
그리고 주작가는 이 7 개를 한 번에 확인합니다.

  • "아, A 는 맞네! B 는 맞네! C 는 틀렸네!"
  • 틀린 글자 (C) 이후의 글자는 모두 버리고, A 와 B 만 받아서 다음 단계를 진행합니다.

핵심: 보조 작가가 얼마나 많이 맞히느냐 (Acceptance Rate) 에 따라 속도가 결정됩니다. 7 개를 다 맞히면 속도가 7 배 빨라지지만, 1 개만 맞혀도 속도는 barely 느려집니다.


🎯 2. 문제점: "완벽한 모방"은 속도를 보장하지 않습니다.

기존에는 보조 작가를 훈련시킬 때 **"주작가의 말투를 완벽하게 따라해라"**라고 가르쳤습니다. 수학적으로는 **KL 발산 (KL Divergence)**이라는 지표를 최소화하는 방식입니다.

  • 비유: 주작가가 "오늘 날씨가 좋네요"라고 했을 때, 보조 작가도 "오늘 날씨가 좋네요"라고 완벽하게 똑같이 말하도록 훈련하는 것입니다.

하지만 여기서 함정이 있습니다.
보조 작가는 주작가보다 훨씬 작고 능력치가 낮습니다. (주작가가 100 점짜리라면 보조 작가는 10 점짜리입니다.)
작은 능력으로 거대한 주작가의 말투를 완벽하게 따라가는 것은 불가능합니다. 그래서 보조 작가는 "완벽한 모방"을 하려다 보니, 실제로는 주작가가 가장 많이 고를 만한 글자를 찍는 데 실패하고, 엉뚱한 곳에 에너지를 쏟게 됩니다.

  • 결과: "말투는 비슷해졌는데 (KL 이 줄어듦), 정작 주작가가 고를 글자를 맞추는 확률 (Acceptance Rate) 은 여전히 낮다."

💡 3. 해결책: LK Loss (직접적인 목표 달성)

이 논문은 **"말투를 비슷하게 만드는 게 아니라, 주작가가 고르는 글자를 맞추는 것 자체를 훈련 목표"**로 바꾸자고 제안합니다. 이를 LK Loss라고 부릅니다.

🏋️‍♂️ 비유: 마라톤 선수의 훈련

  • 기존 방식 (KL Loss): "주작가 (마라토너) 의 발걸음 리듬을 100% 똑같이 따라해."
    • 작은 보조 작가는 리듬을 완벽히 따라 하려다 지쳐버리고, 실제 달리기 (예측) 는 느려집니다.
  • 새로운 방식 (LK Loss): "주작가가 어디로 갈지 정확히 맞춰봐. 리듬은 나중에 맞춰도 돼."
    • 보조 작가는 주작가가 가장 확실히 갈 길을 먼저 예측하는 데 집중합니다.

🧩 두 가지 새로운 훈련법

저자들은 이 목표를 달성하기 위해 두 가지 방법을 썼습니다.

  1. 직접적인 확률 최적화 (Likelihood-based):

    • "네가 예측한 글자가 주작가에 의해 받아들여질 확률을 최대화해."
    • 마치 도박에서 "어떤 숫자가 나올 확률이 가장 높은지"만 계산하는 것과 같습니다.
  2. 혼합 훈련 (Hybrid Objective - Adaptive Blending):

    • 초반: 보조 작가가 아직 서툴 때 (주작가와 많이 다름) 는 "리듬을 비슷하게 잡아라 (KL)"라고 가르칩니다. 그래야 방향을 잃지 않고 훈련이 시작됩니다.
    • 후반: 어느 정도 비슷해지면, "리듬은 그만, 정답을 맞춰라 (TV Distance)"로 목표를 바꿉니다.
    • 비유: 처음에는 "주작가처럼 걷는 법"을 배우다가, 실력이 늘면 "주작가가 가는 길을 정확히 예측하는 법"으로 훈련을 전환하는 것입니다.

📈 4. 결과: 얼마나 빨라졌나요?

이 논문은 다양한 크기의 인공지능 (8 억 개 파라미터부터 6850 억 개까지) 과 다양한 작업 (일반 대화, 코딩, 수학) 에서 실험했습니다.

  • 성공: 기존 방식보다 평균적으로 8~10% 더 많은 글자를 한 번에 맞췄습니다.
  • 특징: 보조 작가가 작을수록 (능력이 부족할수록) 이新方法의 효과가 더 컸습니다. 작은 보조 작가일수록 "완벽한 모방"보다는 "핵심 예측"이 중요하기 때문입니다.
  • 장점: 훈련 속도를 늦추지 않고, 기존 시스템에 바로 적용할 수 있습니다.

📝 한 줄 요약

"작은 보조 AI 가 거대한 주 AI 를 완벽하게 흉내 내려고 애쓰지 말고, 주 AI 가 다음에 무엇을 고를지 맞추는 데만 집중하게 훈련시키면, AI 가 글을 쓰는 속도가 훨씬 빨라진다!"

이 논문은 AI 의 속도를 높이기 위해, **무엇을 훈련시킬지 (목표 함수)**를 단순히 '모방'에서 '성공'으로 바꾼 획기적인 아이디어를 제시했습니다.