LK Losses: Direct Acceptance Rate Optimization for Speculative Decoding

Die vorgestellte Arbeit führt LK-Losses ein, eine Trainingsmethode, die die Akzeptanzrate beim spekulativen Decodieren von Large Language Models direkt optimiert und damit im Vergleich zur herkömmlichen KL-Divergenz-Minimierung signifikant schnellere Inferenz bei geringem Implementierungsaufwand ermöglicht.

Alexander Samarin, Sergei Krutikov, Anton Shevtsov, Sergei Skvortsov, Filipp Fisin, Alexander Golubev

Veröffentlicht 2026-03-02
📖 5 Min. Lesezeit🧠 Tiefgang

Each language version is independently generated for its own context, not a direct translation.

Das große Problem: Der langsame Text-Generator

Stell dir vor, du hast einen riesigen, extrem intelligenten Chef (das Zielmodell oder Target Model), der Texte schreibt. Er ist brillant, aber er ist auch sehr langsam und vorsichtig. Er denkt sich jeden einzelnen Buchstaben oder jedes Wort genau aus, bevor er es aufschreibt. Das kostet viel Zeit und Rechenleistung.

Um das zu beschleunigen, haben die Forscher eine Idee gehabt: Sie stellen einen schnellen, flinken Praktikanten (das Draft-Modell oder Entwurfsmaschine) an die Seite des Chefs.

  • Der Praktikant schaut sich an, was der Chef gerade geschrieben hat, und vermutet sofort die nächsten 5 Wörter.
  • Der Chef schaut sich diese Vorschläge dann parallel an und sagt: „Ja, das ist gut" oder „Nein, das war falsch".
  • Wenn der Chef „Ja" sagt, sparen wir uns das langsame Nachdenken für diese Wörter. Das ist wie ein Turbo-Boost für die Texterstellung.

Das Problem: Damit dieser Turbo funktioniert, muss der Praktikant sehr gut raten können. Je öfter der Chef „Ja" sagt, desto schneller geht es.

Der alte Ansatz: „Sei so ähnlich wie der Chef"

Bisher haben die Forscher den Praktikanten trainiert, indem sie ihm gesagt haben: „Versuche, deine Wahrscheinlichkeiten für die nächsten Wörter genau so zu verteilen wie der Chef."

In der Mathematik nennt man das „KL-Divergenz". Stell dir vor, der Chef ist ein perfekter Koch. Der Praktikant soll lernen, genau denselben Geschmack zu treffen.

  • Das Problem: Der Praktikant ist klein und hat ein begrenztes Gehirn (wenige Parameter). Er kann den Chef nicht perfekt kopieren.
  • Die Falle: Wenn der Praktikant versucht, den Chef so genau wie möglich zu kopieren, landet er oft in einer Sackgasse. Er wird zwar „ähnlich" wie der Chef, aber nicht unbedingt besser darin, die richtigen Wörter zu erraten, damit der Chef zustimmt. Es ist wie wenn ein Schüler versucht, die Hausaufgaben des Professors zu kopieren, aber dabei die Logik nicht versteht. Er sieht ähnlich aus, aber wenn der Professor ihn prüft, fällt er durch.

Die neue Lösung: „Lass uns direkt raten!" (LK Losses)

Die Autoren dieses Papiers sagen: „Halt! Warum versuchen wir, den Praktikanten zu einem perfachen Kopisten zu machen? Wir sollten ihn stattdessen direkt trainieren, so viele Ratschläge wie möglich zu bekommen."

Sie nennen ihre neue Methode LK-Losses.

Stell dir das Training wie ein Videospiel vor:

  1. Der alte Weg (KL): Der Trainer schreit: „Mach genau so, wie der Chef es tun würde!" (Aber der Chef ist zu komplex, um ihn perfekt zu imitieren).
  2. Der neue Weg (LK): Der Trainer schreit: „Versuche, so viele Punkte wie möglich zu sammeln! Wenn der Chef zustimmt, gibt es Punkte!"

Wie funktioniert das genau? (Die zwei Tricks)

Die Forscher haben zwei Arten von LK-Losses entwickelt, die wie ein cleverer Trainer funktionieren:

1. Der „Vertrauens-Trainingsplan" (Hybrid-Ansatz)
Stell dir vor, der Praktikant ist am Anfang noch sehr grün hinter den Ohren.

  • Am Anfang: Der Trainer sagt: „Okay, du bist noch unsicher. Versuche erst mal, dem Chef grob zu folgen (KL-Teil), damit du nicht völlig daneben liegst."
  • Wenn er besser wird: Sobald der Praktikant anfängt, mehr richtige Ratschläge zu machen, sagt der Trainer: „Gut! Jetzt hör auf, nur zu kopieren. Konzentriere dich jetzt voll darauf, die Zustimmung des Chefs zu maximieren (TV-Teil)."
  • Der Trick: Der Trainer passt die Anweisungen automatisch an. Je besser der Praktikant wird, desto mehr fokussiert er sich auf das eigentliche Ziel (Zustimmung) statt auf die perfekte Kopie.

2. Der „Wahrscheinlichkeits-Retter" (Likelihood-Ansatz)
Dieser Ansatz ist noch direkter. Er ignoriert die komplexe Mathematik der „Kopie" und fragt einfach: „Wie hoch ist die Wahrscheinlichkeit, dass der Chef zustimmt?" und versucht, diese Zahl direkt zu maximieren. Es ist wie beim Glücksspiel: Man versucht nicht, den Dealer zu verstehen, sondern einfach nur, so oft wie möglich zu gewinnen.

Warum ist das so gut?

Die Forscher haben das an riesigen Modellen getestet (von kleinen 8-Milliarden-Parametern bis zu riesigen 685-Milliarden-Parametern).

  • Das Ergebnis: Der Praktikant wurde deutlich besser darin, vom Chef „Ja" zu bekommen.
  • Der Gewinn: Die Texterstellung wurde um 8–10 % schneller. Das klingt wenig, aber bei großen Texten spart das enorm viel Zeit und Energie.
  • Besonders gut bei kleinen Praktikanten: Je kleiner und dümmer der Praktikant ist, desto mehr profitiert er von dieser Methode. Denn ein kleiner Praktikant kann den Chef ohnehin nicht perfekt kopieren, aber er kann lernen, genau die richtigen Dinge zu raten, die der Chef mag.

Zusammenfassung in einem Satz

Statt einen kleinen Praktikanten zu zwingen, einen riesigen Chef perfekt zu kopieren (was er eh nicht kann), haben die Forscher ihn trainiert, einfach nur so viele Zustimmungswörter wie möglich zu erraten – und das hat die Geschwindigkeit massiv erhöht, ohne dass er mehr arbeiten muss.

Die Metapher:

  • Alt: „Versuche, meine Handschrift perfekt zu imitieren." (Schwierig für einen Anfänger).
  • Neu (LK): „Versuche, meine Unterschrift so oft wie möglich zu erraten, damit ich sie unterschreiben kann." (Das ist das eigentliche Ziel!).

Erhalten Sie solche Paper in Ihrem Posteingang

Personalisierte tägliche oder wöchentliche Digests passend zu Ihren Interessen. Gists oder technische Zusammenfassungen, in Ihrer Sprache.

Digest testen →