Pretraining with Token-Level Adaptive Latent Chain-of-Thought

Each language version is independently generated for its own context, not a direct translation.

Immagina di avere un cervello digitale (un'intelligenza artificiale) che deve scrivere una storia o rispondere a una domanda. Fino a poco tempo fa, per renderlo più intelligente, gli scienziati facevano due cose: gli davano più "neuroni" (più parametri) o gli facevano leggere più libri (più dati). Ma ora c'è un problema: i libri di alta qualità stanno finendo e aggiungere troppi neuroni rende il cervello troppo costoso e lento da far funzionare.

Questo paper, scritto dal LUMIA Lab, propone una soluzione geniale: invece di ingrandire il cervello, insegniamogli a pensare di più prima di parlare, ma solo quando serve.

Ecco come funziona, spiegato con un'analogia semplice:

1. Il Problema: Il "Pensatore" Frettoloso

Immagina che il tuo modello linguistico sia un studente molto veloce che deve rispondere a un test.

Se la domanda è facile ("Qual è il colore del cielo?"), lo studente risponde subito: "Blu".
Se la domanda è difficile ("Calcola la traiettoria di un razzo verso Marte considerando la gravità lunare"), lo studente dovrebbe fermarsi a pensare.

Il problema dei modelli attuali è che trattano tutte le domande allo stesso modo: o pensano troppo per tutto il tempo (spreco di energia) o non pensano abbastanza per le domande difficili (errori).

2. La Soluzione: Il "Pensiero Latente" Adattivo

Gli autori hanno inventato un metodo chiamato "Catena di Pensiero Latente Adattiva". È un po' come dare allo studente un foglio di appunti invisibile (spazio "latente") dove può fare bozze, calcoli e ragionamenti prima di scrivere la risposta finale.

La magia sta in due cose:

A. Pensare "Nascosto" (Latente)

Invece di scrivere tutto il ragionamento ad alta voce (che occuperebbe spazio e tempo), lo studente lo fa nella sua testa (nello spazio nascosto del computer). Questo è il "pensiero latente".

B. Decidere Quanto Pensare (Adattivo)

Qui sta l'innovazione principale. Il modello impara a decidere da solo quanto tempo dedicare a ogni singola parola che sta per scrivere.

Parola facile? (es. "Il", "e", "ma"): Il modello pensa per un attimo (o zero attimi) e scrive subito. Risparmia energia.
Parola difficile? (es. un nome proprio complesso, un numero, un concetto astratto): Il modello si ferma, gira nel suo "foglio di appunti invisibile" per più passaggi, rivede i calcoli e poi scrive.

È come se un chef cucinasse: per un'insalata semplice (facile) mescola velocemente gli ingredienti. Per un soufflé (difficile) controlla il forno, prova la consistenza e aspetta, passo dopo passo, prima di servire.

3. Come fanno a non impazzire? (La Tecnica Segreta)

Di solito, far pensare un modello più volte rallenta tutto. Se devi aspettare che il modello pensi 5 volte per ogni parola, il computer diventa lentissimo.

Gli autori hanno risolto questo con un trucco chiamato "Mascheramento Parallelo".
Immagina una classe di 30 studenti. Invece di farli pensare uno alla volta in fila indiana (uno pensa, poi l'altro...), il maestro dice: "Tutti pensate al vostro primo passo contemporaneamente! Poi, chi ha bisogno di un secondo passo, lo fa mentre gli altri finiscono il primo".
Grazie a questo metodo, il computer può processare molti "passi di pensiero" in parallelo, rendendo il tutto veloce quanto un modello normale, ma molto più intelligente.

4. Il Risultato: Più Intelligente, Più Veloce, Più Economico

Hanno testato questo metodo su modelli della famiglia Llama (i più famosi al mondo).

Risultato: Il modello ha fatto errori molto meno frequenti (perplexity più bassa) e ha risposto meglio ai test di logica.
Il colpo di genio: Ha ottenuto questi risultati usando meno energia rispetto ai modelli che pensano sempre allo stesso modo o che sono semplicemente più grandi.

In Sintesi

Questo paper ci dice che non serve costruire un "super-cervello" gigante per essere intelligenti. Basta insegnare al cervello a sfruttare meglio il tempo: pensare intensamente quando la situazione è complessa e correre quando è semplice. È come avere un assistente che sa esattamente quando concentrarsi e quando rilassarsi, rendendo l'intelligenza artificiale più umana, efficiente ed economica.

Each language version is independently generated for its own context, not a direct translation.

Titolo: Pretraining with Token-Level Adaptive Latent Chain-of-Thought

Autori: Boyi Zeng, Yiqin Hao, He Li, et al. (LUMIA Lab, Shanghai Jiao Tong University, ecc.)
Data: Febbraio 2026 (preprint)

1. Il Problema

L'attuale paradigma di scalabilità dei Large Language Models (LLM) si basa sull'aumento dei parametri e dei dati di addestramento. Tuttavia, questo approccio sta incontrando limiti critici:

Esaurimento dei dati: La disponibilità di corpora di alta qualità è limitata.
Costi di comunicazione: Scalare le dimensioni del modello comporta costi di comunicazione e infrastruttura proibitivi.
Inefficienza computazionale: Le metodologie esistenti per aumentare la capacità computazionale per token (come il recurrent parameter sharing o le Chain-of-Thought esplicite) soffrono di instabilità nell'addestramento, richiedono supervisione multi-stage, o allocano risorse computazionali in modo uniforme a tutti i token, ignorando la natura adattiva del ragionamento umano (dove concetti semplici richiedono meno "pensiero" rispetto a quelli complessi).

L'obiettivo è migliorare le capacità del modello mantenendo un budget fisso di parametri e dati, ma scalando la computazione per token in modo adattivo e interno allo spazio latente.

2. Metodologia: Adaptive Latent CoT

Gli autori propongono un framework di pre-addestramento in una sola fase che internalizza una "Catena di Pensiero" (CoT) latente. Il modello genera una traiettoria variabile di passi latenti prima di emettere ogni token osservato, allocando più passi ai token difficili e meno (o zero) a quelli facili.

I tre componenti chiave della metodologia sono:

A. Parallel Masking (Superamento del collo di bottiglia sequenziale)

Nei framework CoT latenti standard, esiste una dipendenza sequenziale stretta sia sulla lunghezza della sequenza ( $L$ ) che sulla profondità latente ( $K$ ), rendendo l'addestramento $O(L \times K)$ e computazionalmente proibitivo.

Soluzione: Gli autori estendono l'attenzione a una causalità 2D definita dagli indici (posizione del token $t$ , passo latente $k$ ).
Meccanismo: Viene applicata una Parallel Attention Mask che permette di calcolare tutti i token di una sequenza in parallelo per ogni singolo passo latente $k$ , riducendo la complessità sequenziale a $O(K)$ . Questo sfrutta il massiccio parallelismo delle GPU sulla dimensione della sequenza.

B. Meccanismo di Arresto Probabilistico (Probabilistic Halting)

Per evitare di eseguire passi latenti inutili per token già facili, viene introdotto un Router leggero.

Logica: A ogni passo latente $k$ , il Router calcola la probabilità di continuare ( $g_t^{(k)}$ ) o fermarsi.
Pruning: Se la probabilità di raggiungere il passo successivo scende sotto una soglia $\tau$ , il token viene "potato" (rimosso dal batch per i passi successivi), risparmiando FLOP sia in addestramento che in inferenza.
Mixing: La rappresentazione finale del token è una media pesata degli stati latenti eseguiti, dove i pesi sono le probabilità di arresto ( $p_{exit}$ ), garantendo che la massa di probabilità sia conservata.

C. Loss Adattiva Consapevole della Correttezza (Correctness-Aware Adaptive Loss)

Per guidare il Router a fermarsi quando il calcolo aggiuntivo non è necessario, viene introdotta una funzione di perdita aggiuntiva.

Principio: Se il modello assegna già un'alta probabilità al token target corretto ( $p_{target}$ ), ulteriori passi latenti offrono guadagni marginali o dannosi.
Implementazione: La loss penalizza la continuazione ( $g_t$ ) proporzionalmente alla probabilità del token target. Questo incoraggia l'arresto precoce per token facili e permette il calcolo aggiuntivo solo per quelli incerti.
Obiettivo Totale: $L = L_{CE} + L_{adaptive}$ .

3. Contributi Chiave

Pre-addestramento End-to-End: A differenza di metodi precedenti che richiedono fasi di addestramento separate o supervisione esplicita (CoT annotati), questo metodo impara la strategia adattiva direttamente durante il pre-addestramento su testo generale.
Efficienza Computazionale: Riduce i FLOP sia in addestramento che in inferenza grazie al pruning dinamico, superando i limiti dei metodi ricorrenti che richiedono iterazioni Jacobi costose.
Spazio Latente Continuo: Sposta il ragionamento dallo spazio discreto del vocabolario (token espliciti) a uno spazio latente continuo, aumentando la flessibilità e l'espressività del ragionamento interno.
Adattività Token-Level: Il modello impara a distribuire la computazione in modo non uniforme, imitando il processo cognitivo umano (poco sforzo per concetti semplici, molto per quelli complessi).

4. Risultati Sperimentali

Gli esperimenti sono stati condotti su architetture LLaMA (410M e 1.4B parametri) addestrate da zero su The Pile.

Perplexity (PPL): Il metodo ottiene sistematicamente la perplexità più bassa su tutti i dataset di valutazione (The Pile, WikiText, LAMBADA) utilizzando meno FLOP di addestramento rispetto ai baselines più forti (es. PonderLM2).
- Esempio: Il modello LLaMA-1.4B con CoT latente adattivo supera PonderLM-2 (il baseline più forte) utilizzando meno della metà della potenza di calcolo (7.47 vs 17.47 $\times 10^{20}$ FLOP).
Task Downstream: In termini di accuratezza su task a zero-shot e five-shot (ARC, HellaSwag, RACE, ecc.), il metodo ottiene le migliori prestazioni medie.
- Nota significativa: Un modello LLaMA-410M con CoT adattivo supera un modello LLaMA-1.4B "vanilla" (scalato in parametri) a parità di budget computazionale, dimostrando che l'aumento della computazione per token è più efficace del semplice aumento dei parametri.
Analisi dell'Adattività:
- I token facili (alta $p_{target}$ , bassa cross-entropy) eseguono in media 0-1 passi latenti.
- I token difficili (bassa $p_{target}$ , alta cross-entropy) attivano catene latenti più lunghe, avvicinandosi al limite massimo ( $\ell_{max}$ ).
- I casi studio mostrano che il modello assegna più "pensiero" a entità, numeri e parole chiave, e meno a parole funzionali prevedibili.

5. Significato e Impatto

Questo lavoro rappresenta un passo avanti fondamentale verso l'efficienza dei LLM. Dimostra che è possibile migliorare le capacità di ragionamento e la qualità del linguaggio senza espandere i parametri o i dati, ma ottimizzando come e quanto il modello "pensa" per ogni singolo token.
La capacità di ridurre i costi computazionali sia in fase di training che di inference, mantenendo o migliorando le prestazioni, offre una via sostenibile per il futuro sviluppo di modelli intelligenti in un'era di dati limitati e costi energetici crescenti. Il metodo risolve il dilemma tra stabilità dell'addestramento e profondità computazionale, rendendo il ragionamento latente adattivo una componente nativa e scalabile dei modelli di linguaggio.