The Long Delay to Arithmetic Generalization: When Learned Representations Outrun Behavior

Each language version is independently generated for its own context, not a direct translation.

Il Titolo: "L'Attesa Lunghissima per Imparare l'Aritmetica"

Immagina di avere un genio nascosto (l'Encoder) e un parlante timido (il Decoder) che lavorano insieme in una squadra. Il loro compito è risolvere un indovinello matematico chiamato "Collatz" (un gioco di numeri che dice: se il numero è pari, dividilo per 2; se è dispari, moltiplicalo per 3 e aggiungi 1).

Il paper scopre una cosa sorprendente: il genio capisce la soluzione molto prima che il parlante riesca a dirlo ad alta voce.

1. Il Fenomeno "Grokking": Quando l'Intelligenza Dorme

Di solito, quando un'intelligenza artificiale impara qualcosa, la sua precisione sale piano piano. Ma qui succede qualcosa di strano:

Per trentamila passi (come se avesse studiato per anni), il modello sembra stupido. Risponde a caso, con un'accuratezza vicina allo zero.
Improvvisamente, dopo un lungo periodo di stallo, fa un salto mortale e diventa perfetto all'istante.

Questo fenomeno si chiama Grokking (un termine che significa "capire a fondo"). La domanda era: Perché ci vuole così tanto tempo? Il modello non sta imparando nulla durante quei lunghi anni di silenzio?

2. La Scoperta: Il Genio è sveglio, il Parlante è bloccato

Gli autori hanno fatto un esperimento curioso: hanno separato il "genio" (l'Encoder, che legge i numeri) dal "parlante" (il Decoder, che scrive la risposta).

Hanno scoperto che il genio ha già capito tutto dopo pochissimo tempo. Se chiediamo al genio "questo numero è pari o dispari?", risponde correttamente al 99% dei casi dopo solo 2.000 passi.
Il problema è il parlante. Anche se il genio gli sussurra la risposta perfetta, il parlante non riesce a tradurla in parole corrette per molto tempo.

L'analogia della cucina:
Immagina un Chef (Encoder) che sa esattamente come cucinare un piatto delizioso. Sa già gli ingredienti, le temperature e i tempi.
Poi c'è il Cameriere (Decoder) che deve portare il piatto al tavolo.
Per mesi, il Cameriere inciampa, lascia cadere i piatti e serve cose sbagliate. Il cliente pensa che lo Chef non sappia cucinare.
In realtà, lo Chef sta già cucinando perfettamente da settimane! Il problema è solo che il Cameriere è goffo e impiega mesi per imparare a camminare senza cadere.

3. La Soluzione: Sostituire il Cameriere

Per provare questa teoria, gli scienziati hanno fatto due cose:

Trapianto dell'Encoder: Hanno preso un modello "vecchio" (dove lo Chef sa già tutto) e gli hanno messo accanto un nuovo Cameriere (Decoder fresco di stampo).
- Risultato: Il nuovo Cameriere ha imparato a servire il piatto perfetto 2,75 volte più velocemente. Non c'era più bisogno di aspettare!
Trapianto del Decoder: Hanno preso un modello vecchio e gli hanno messo un nuovo Chef (Encoder fresco).
- Risultato: È stato un disastro. Il nuovo Chef non sapeva ancora cucinare, e il vecchio Cameriere non ha aiutato.

Conclusione: Il ritardo non è dovuto alla mancanza di conoscenza, ma alla difficoltà di esprimere quella conoscenza.

4. Il Linguaggio dei Numeri: Perché la "Lingua" conta

Un'altra scoperta affascinante riguarda come i numeri sono scritti. Immagina di dover spiegare un concetto matematico:

Se lo scrivi in base 2 (solo 0 e 1, come i computer), il modello fallisce completamente. È come se il Cameriere avesse le mani legate. I numeri in base 2 sono così "stretti" che il Cameriere non riesce a vedere i pattern locali e crolla.
Se lo scrivi in base 24 o base 6, il modello diventa un genio quasi istantaneamente. È come se il Cameriere avesse ricevuto un set di attrezzi perfetto.

L'analogia del codice:
Alcuni codici (come la base 24) sono come una mappa chiara che mostra subito dove andare. Altri (come la base 2) sono come un labirinto buio dove ogni passo richiede di guardare tutto il percorso. La scelta della "base" (il modo in cui scriviamo i numeri) agisce come un bias induttivo: decide quanto è facile per il parlante capire cosa sta succedendo.

5. Il Messaggio Finale

Questo studio ci insegna una lezione importante sull'Intelligenza Artificiale:
Non giudicare un modello solo da ciò che dice.
Spesso, dentro la "testa" del modello (l'Encoder), la conoscenza è già lì, solida e perfetta. Ma il "corpo" del modello (il Decoder) fatica a tradurla in azioni visibili.

È come avere un musicista geniale che suona la melodia perfetta nella sua testa, ma che impiega anni a imparare a suonare lo strumento senza sbagliare una nota. La musica c'è già, serve solo tempo per farla uscire.

In sintesi estrema:

Il problema: L'IA sembra stupida per molto tempo prima di diventare geniale.
La causa: Non è che non sa la risposta; è che fatica a dirlo.
La prova: Se dai la "conoscenza" già pronta a un nuovo "parlante", impara subito.
Il consiglio: Scegliere il modo giusto di scrivere i numeri (la base) può rendere l'apprendimento facilissimo o impossibile.

Each language version is independently generated for its own context, not a direct translation.

1. Il Problema: Il "Grokking" e il Ritardo nella Generalizzazione

Il paper affronta il fenomeno del grokking nei modelli Transformer addestrati su compiti algoritmici. Il grokking è caratterizzato da un lungo periodo di plateau durante l'addestramento, in cui il modello sembra non migliorare (o memorizza i dati), seguito da un'improvvisa e rapida generalizzazione su dati mai visti.
Sebbene sia stato osservato in precedenza, la fonte di questo ritardo rimane poco chiara. La domanda centrale è: il ritardo è causato dalla mancata acquisizione di strutture aritmetiche utili all'interno del modello, o piuttosto dalla mancata capacità di accedere a strutture che sono già state apprese ma non ancora utilizzate per produrre output corretti?
Il lavoro si concentra su modelli encoder-decoder eseguiti sul compito di previsione di un singolo passo della sequenza di Collatz, un problema che combina ramificazioni (pari/dispari), informazioni sui residui e trasformazioni a livello di cifre.

2. Metodologia

Gli autori utilizzano un approccio controllato e sistematico per isolare le cause del ritardo:

Compito: Previsione di $T(n)$ dove $T(n) = n/2$ se $n$ è pari, e $T(n) = 3n+1$ se $n$ è dispari.
Rappresentazione: Gli input e gli output sono sequenze di cifre in diverse basi numeriche ( $b$ ). Questo permette di manipolare la struttura locale delle cifre e la lunghezza delle sequenze.
Analisi delle Rappresentazioni (Probing): Vengono utilizzati "probe" lineari sulle rappresentazioni nascoste dell'encoder per verificare quali informazioni aritmetiche (es. parità, residui modulo 2, 4, 8, 16) sono decodificabili linearmente prima che la precisione del modello migliori.
Interventi Causali:
- Trapianto (Transplant): Congelare un encoder addestrato e addestrare un decoder fresco (e viceversa).
- Rewind del Decoder: Congelare un encoder convergente, resettare il decoder a uno stato iniziale (early checkpoint) e ri-addestrare solo il decoder.
- Cancellazione della Parità (Parity Erasure): Rimuovere proiettivamente la direzione lineare della parità dagli stati dell'encoder durante l'inferenza per misurare l'impatto sulla precisione.
Sweep delle Basi: Addestramento su 15 diverse basi numeriche (potenze di 2, 3, multipli di 6, ecc.) per studiare come la rappresentazione numerica influenzi l'apprendibilità del decoder.

3. Risultati Chiave

A. L'Encoder Apprende Molto Prima del Decoder

I risultati mostrano un divario significativo tra la conoscenza interna e il comportamento osservabile:

Gap di Conoscenza: In base 8, un probe lineare sulla parità ( $n \mod 2$ ) raggiunge il 99.7% di accuratezza entro 2.000 step di addestramento, mentre l'accuratezza della sequenza completa è ancora al 38%.
Struttura Modulare: Anche strutture residue più fini (mod 4, 8, 16) diventano decodificabili linearmente nell'encoder molto prima che il modello riesca a generare la sequenza corretta.
Conclusione: Il plateau non indica assenza di apprendimento, ma un "bottleneck" nell'accesso alle informazioni già presenti.

B. Il Decoder è il Collo di Bottiglia Dominante

Gli esperimenti causali confermano che il ritardo è dovuto alla lettura (readout) del decoder, non alla formazione della struttura nell'encoder:

Trapianto dell'Encoder: Utilizzare un encoder addestrato con un decoder fresco accelera il grokking di 2.75 volte rispetto all'addestramento da zero.
Rewind del Decoder: Congelando un encoder convergente e ri-addestrando un decoder resettato, il plateau scompare quasi completamente. Il modello raggiunge il 97.6% di accuratezza (vs 86.1% per l'addestramento congiunto) senza il lungo periodo di stallo.
Cancellazione della Parità: Rimuovere la parità dall'encoder impatta fortemente le prestazioni durante il plateau (fino a -8.2 punti percentuali), ma l'effetto diventa trascurabile una volta avvenuta la generalizzazione, suggerendo che inizialmente il decoder si affida a segnali lineari semplici.

C. L'Induzione della Base Numerica

La scelta della base numerica agisce come un bias induttivo critico per la difficoltà del decoder:

Basi Allineate: Basi che si allineano con l'aritmetica del compito (es. base 24, divisibile per 2 e 3) raggiungono quasi il 100% di accuratezza.
Il Caso Binario (Base 2): Il modello fallisce completamente. Dopo una breve fase di memorizzazione, l'accuratezza crolla a zero e non si riprende. Questo è accompagnato da un collasso rappresentazionale (la dimensionalità effettiva dell'encoder scende a 1.0). In base 2, la struttura locale delle cifre per il ramo dispari ( $3n+1$ ) è insufficiente per il decoder per generalizzare.
Asimmetria Pari/Dispari: In basi pari (es. 8, 16), il ramo pari ( $n/2$ ) è localmente computabile con un solo lookahead, mentre il ramo dispari richiede propagazione di riporti (carry) su più cifre, rendendolo molto più difficile.

D. Trasferimento Inter-Task

Il trasferimento tra compiti diversi (Collatz e Massimo Comun Divisore - GCD) è scarso in entrambe le direzioni. Questo suggerisce che le rappresentazioni apprese sono fortemente legate al formato di input specifico del compito e non costituiscono primitive aritmetiche riutilizzabili in questo contesto.

4. Contributi Principali

Decomposizione del Grokking: Dimostrazione che in modelli encoder-decoder, il ritardo nella generalizzazione è primariamente un problema di lettura (readout) del decoder, non di formazione della rappresentazione nell'encoder.
Evidenza di "Oltrepassamento" (Outrunning): Fornisce prove empiriche che le rappresentazioni interne utili possono esistere e essere decodificabili linearmente molto prima che il modello mostri competenza comportamentale.
Ruolo della Rappresentazione Numerica: Identifica la base numerica come un fattore determinante per la difficoltà di apprendimento, mostrando come la struttura locale delle cifre possa facilitare o impedire la generalizzazione (specialmente nel caso del fallimento in base 2).
Metodologia Causale: L'uso combinato di trapianti, rewind e cancellazione di feature fornisce un framework robusto per diagnosticare i colli di bottiglia nell'addestramento dei Transformer.

5. Significato e Implicazioni

Questo lavoro cambia la prospettiva sul "grokking": non è necessariamente un processo lento di scoperta di nuove regole, ma spesso un processo di ottimizzazione della "via di uscita" (decoder) per sfruttare conoscenze già acquisite.
Le implicazioni sono profonde per la progettazione di modelli aritmetici e per la comprensione dell'apprendimento profondo:

Diagnostica: Se un modello è bloccato in un plateau, potrebbe non aver bisogno di più capacità di rappresentazione, ma di un decoder più adatto o di una migliore inizializzazione.
Bias Induttivo: La scelta della rappresentazione dei dati (es. base numerica, tokenizzazione) non è solo una questione di formato, ma definisce quali regolarità computazionali sono localmente accessibili al modello, influenzando drasticamente la possibilità di generalizzazione.
Interpretabilità: Suggerisce che le tecniche di probing possono rivelare competenze "nascoste" (shadow knowledge) che precedono le prestazioni esterne, offrendo strumenti per monitorare l'apprendimento prima che si manifesti nel comportamento.

In sintesi, il paper conclude che la generalizzazione ritardata è un problema di accesso alle informazioni piuttosto che di conoscenza delle stesse.