Not all tokens are needed(NAT): token efficient reinforcement learning

Il paper introduce NAT (Not All Tokens Are Needed), un framework di apprendimento per rinforzo che ottimizza l'efficienza computazionale aggiornando la politica solo su un sottoinsieme di token tramite una stima del gradiente non distorta, riducendo significativamente costi e memoria senza compromettere le prestazioni su compiti di ragionamento matematico.

Hejian Sang, Yuanda Xu, Zhengze Zhou, Ran He, Zhipeng Wang

Pubblicato 2026-03-10
📖 4 min di lettura☕ Lettura da pausa caffè

Each language version is independently generated for its own context, not a direct translation.

Immagina di dover insegnare a un robot a risolvere problemi di matematica molto complessi. Per farlo, gli dai un compito e lui prova a risolverlo scrivendo una lunghissima spiegazione passo dopo passo (una "catena di pensiero").

Il problema è che, per imparare, il robot deve rileggere ogni singola parola di quella spiegazione, dalla prima all'ultima, per capire cosa ha fatto bene o male. Se la spiegazione è di 10.000 parole, il robot deve fare un enorme sforzo mentale (e consumare molta energia e memoria) per analizzare tutte quelle parole, anche se molte di esse sono solo "riempitivo" o passaggi meccanici ovvi.

Ecco la storia della ricerca che hai condiviso, spiegata in modo semplice:

Il Problema: La Tassa Nascosta sui Token

Fino a poco tempo fa, si pensava che per insegnare bene a un'intelligenza artificiale (AI) a ragionare, fosse necessario analizzare ogni singolo token (parola o parte di parola) generato durante l'addestramento.
Immagina di essere un professore che corregge un tema di 50 pagine. Il vecchio metodo diceva: "Devo leggere e correggere ogni singola riga, anche le parti in cui lo studente ha solo copiato la domanda o scritto 'quindi...' per riempire lo spazio". Questo rendeva l'addestramento lentissimo, costoso e spesso bloccava i computer per mancanza di memoria.

La Soluzione: NAT ("Non tutti i token servono")

Gli autori di questo studio hanno avuto un'intuizione geniale: Non serve rileggere tutto per imparare.
Hanno creato un nuovo metodo chiamato NAT (Not All Tokens are Needed).

L'idea è come se il professore, invece di correggere tutto il tema, decidesse di:

  1. Leggere tutto il tema per dare un voto finale (la ricompensa).
  2. Correggere solo una parte casuale del testo per insegnare al ragazzo a migliorare.

Ma c'è un trucco: se correggi solo una parte, devi essere sicuro che non stai "imbrogliando" o imparando cose sbagliate. Se correggi solo le prime 10 righe, potresti non vedere mai gli errori che il ragazzo fa alla fine.

I Due Metodi Proposti

Gli autori hanno testato due modi per scegliere quali parti correggere:

  1. Il Metodo "Lancio della Moneta" (URS):
    Immagina di prendere il tema e lanciare una moneta per ogni singola parola. Se esce "testa", la correggi; se esce "croce", la salti.

    • Problema: Anche se salti la parola, il computer deve comunque "pensare" a tutte le parole precedenti per capire il contesto. Quindi, risparmi un po' di tempo, ma non molto. È come se leggessi a caso, ma dovessi comunque tenere il libro aperto per intero.
  2. Il Metodo "Taglio Casuale" (RPC - La vera innovazione):
    Questo è il metodo vincente. Immagina di prendere il tema e dire: "Oggi correggerò solo la prima metà del testo, ma deciderò casualmente dove finisce quella metà".
    A volte correggi il 30%, a volte il 70%, ma sempre dall'inizio fino a un certo punto.

    • Perché funziona: I computer moderni leggono i testi in ordine. Se decidi di fermarti a metà, il computer non deve nemmeno "pensare" alla seconda metà. Risparmi tempo di lettura (calcolo) e spazio in memoria.
    • Il trucco matematico: Usano una formula statistica (chiamata Horvitz-Thompson) che dice: "Se ho saltato una parte, devo dare più peso a quello che ho letto". È come se, correggendo solo metà del tema, dessi a quelle poche righe un'importanza doppia per compensare il fatto che non hai letto il resto. In questo modo, l'apprendimento rimane corretto e onesto.

I Risultati: Più Veloci, Stessa Intelligenza

Hanno provato questo metodo su modelli di intelligenza artificiale molto potenti (come Qwen) con problemi di matematica difficili.

  • Risultato: Il robot imparava esattamente allo stesso livello di chi leggeva tutto il testo.
  • Vantaggio: Hanno risparmiato circa il 50% del tempo e il 18-20% di memoria del computer.
  • Analogia: È come se un atleta si allenasse saltando metà delle ripetizioni, ma con un'intensità maggiore su quelle che fa, ottenendo lo stesso risultato muscolare in metà tempo.

In Sintesi

Questo studio ci dice che per insegnare alle intelligenze artificiali a ragionare in modo complesso, non dobbiamo per forza analizzare ogni singolo dettaglio di ogni loro pensiero. Possiamo essere più intelligenti: leggere tutto per dare il voto, ma correggere solo una parte casuale (ma ben calibrata) per l'allenamento.

È un modo per rendere l'AI più veloce, meno costosa e capace di risolvere problemi ancora più lunghi senza far esplodere i computer per la memoria.