LK Losses: Direct Acceptance Rate Optimization for Speculative Decoding

Il paper propone le "LK Losses", un obiettivo di addestramento che ottimizza direttamente il tasso di accettazione per lo speculative decoding, superando i limiti delle funzioni di perdita basate sulla divergenza KL e migliorando significativamente le prestazioni di inferenza dei modelli linguistici di grandi dimensioni.

Alexander Samarin, Sergei Krutikov, Anton Shevtsov, Sergei Skvortsov, Filipp Fisin, Alexander Golubev

Pubblicato 2026-03-02
📖 4 min di lettura☕ Lettura da pausa caffè

Each language version is independently generated for its own context, not a direct translation.

Immagina di avere un genio della lampada (il modello linguistico grande, o "Target Model") che può rispondere a qualsiasi domanda, ma è molto lento perché deve pensare a ogni singola parola prima di scriverla. Per velocizzare le cose, hai un assistente veloce (il modello "Draft") che prova a indovinare le prossime parole.

Il problema è: se l'assistente sbaglia, il genio deve correggere tutto, perdendo tempo. Se l'assistente indovina bene, il genio accetta le sue proposte e il lavoro va a razzo.

La cosa fondamentale qui è il tasso di accettazione: quante volte il genio dice "Sì, bravo assistente, questa parola è giusta!" rispetto a quante volte dice "No, riprova".

Il problema del vecchio metodo (KL Divergence)

Fino a oggi, per addestrare l'assistente, gli si diceva: "Cerca di essere il più simile possibile al genio". In termini tecnici, si minimizzava una differenza statistica chiamata "Divergenza KL".
È come dire a un apprendista cuoco: "Cerca di imitare esattamente il sapore del piatto del maestro".

Il problema? L'apprendista (il modello piccolo) ha pochi ingredienti e poca esperienza. Se cerca solo di "imitare il sapore generale", finisce per fare un piatto che sembra simile, ma non è perfetto nei dettagli. Quando il maestro assaggia, dice: "No, non è esattamente quello che volevo". L'assistente impara a fare un piatto "medio", ma non riesce a indovinare le parole specifiche che il maestro vorrebbe in quel preciso momento.

La soluzione: Le "LK Losses"

Gli autori di questo paper hanno detto: "Basta con l'imitazione generica! Addestriamo l'assistente direttamente sull'obiettivo finale: far sì che il maestro dica SÌ".

Hanno creato nuovi metodi di allenamento chiamati LK Losses. Ecco come funzionano con due analogie semplici:

1. L'approccio "Ibrido" (Il viaggio con mappa e bussola)

Immagina di dover guidare un'auto da un punto A a un punto B (l'obiettivo è far dire "Sì" al maestro).

  • All'inizio del viaggio (quando l'assistente è ancora inesperto), usi una mappa dettagliata (la vecchia Divergenza KL). Ti dice come muoverti in modo sicuro e fluido per non uscire dalla strada.
  • Man mano che ti avvicini alla destinazione, la mappa diventa meno utile perché devi fare manovre precise. Qui passi a usare una bussola diretta (la Divergenza TV, che misura direttamente la probabilità di accettazione). La bussola ti dice esattamente dove puntare per vincere, anche se la strada è scoscesa.

Le LK Losses cambiano automaticamente da "mappa" a "bussola" mentre l'assistente impara. Non ti fermano se sbagli all'inizio, ma ti spingono con forza verso la vittoria quando sei vicino.

2. L'approccio "Probabilità di Vittoria" (Il giocatore d'azzardo)

C'è un secondo metodo che è ancora più diretto. Invece di guardare il sapore del piatto, si chiede all'assistente: "Qual è la probabilità che il maestro accetti questa parola?".
L'obiettivo diventa massimizzare direttamente questa probabilità. È come se l'assistente non studiasse la ricetta, ma imparasse a leggere il pensiero del maestro per indovinare esattamente cosa dirà.

Perché è una rivoluzione?

  • Funziona con tutti: L'hanno provato con assistenti piccoli e genii giganteschi (fino a 685 miliardi di parametri, come DeepSeek o Qwen).
  • Risultati migliori: In media, l'assistente indovina 8-10 parole in più prima di sbagliare. Immagina di scrivere un testo e il computer che completa intere frasi invece di una parola alla volta.
  • Nessun costo extra: Non serve più computer potente per addestrare l'assistente. È come cambiare la strategia di allenamento senza comprare nuovi attrezzi.

In sintesi

Prima, insegnavamo agli assistenti a copiare il maestro. Ora, con le LK Losses, insegniamo loro a indovinare cosa il maestro vuole dire, puntando dritto al successo. È un cambio di strategia che rende l'intelligenza artificiale molto più veloce, permettendole di scrivere, programmare e ragionare a velocità record.

Ricevi articoli come questo nella tua casella di posta

Digest giornalieri o settimanali personalizzati in base ai tuoi interessi. Riassunti Gist o tecnici, nella tua lingua.

Prova Digest →