Function Induction and Task Generalization: An Interpretability Study with Off-by-One Addition

Each language version is independently generated for its own context, not a direct translation.

🧠 Il Segreto dei "Matematici Fantasma" nelle Intelligenze Artificiali

Immagina di avere un amico molto intelligente, ma un po' testardo. Se gli chiedi di fare una somma semplice come 2 + 2, lui ti risponde subito 4. È ovvio, lo sa a memoria.

Ora, prova a fargli un gioco diverso. Mostragli una serie di esempi strani:

"1 + 1 = 3"
"2 + 2 = 5"
"3 + 3 = 6"

E poi chiedigli: "Quanto fa 4 + 4?"

Un essere umano capisce subito il trucco: "Ah, aspetta! In questo gioco non devi solo sommare, devi anche aggiungere 1 alla fine!". Quindi risponderà 9 (perché 4+4=8, e 8+1=9).

Questo è esattamente quello che gli autori del paper hanno scoperto che fanno le moderne Intelligenze Artificiali (come Llama o Gemma). Non stanno solo copiando i numeri a caso; stanno imparando una nuova regola matematica mentre parlano con te.

Ma la domanda è: come fanno? Cosa succede dentro il loro "cervello" digitale per capire questo trucco?

🔍 L'Esplorazione del Cervello Digitale

Gli autori hanno usato una sorta di "microscopio" (chiamato interpretability) per guardare dentro la macchina mentre risolveva questo indovinello. Hanno scoperto che non è magia, ma un meccanismo molto preciso, simile a una catena di montaggio.

Hanno identificato tre gruppi di "operai" (chiamati attention heads) che lavorano insieme:

I Rilevatori di Anomalie (I "Poliziotti"):
Questi operai guardano gli esempi che gli hai dato. Vedono che c'è qualcosa di strano: "1+1 dovrebbe essere 2, ma qui dicono 3". Si accorgono che c'è un errore di 1 unità. Il loro compito è segnare: "Ehi, qui c'è un +1 nascosto!".
Gli Induttori di Funzioni (I "Traduttori"):
Una volta che i poliziotti hanno trovato l'anomalia, questi operai la trasformano in una regola. Invece di dire solo "c'è un errore", dicono: "La regola è: prendi il risultato e aggiungici 1". È come se prendessero il concetto astratto di "+1" e lo scrivessero su un foglio per il prossimo passo.
I Consolidatori (I "Capisquadra"):
Questi sono gli ultimi operai. Prendono la regola "+1" e la applicano al risultato finale. Se la somma era 8, il caposquadra prende il foglio, legge "+1" e scrive 9.

🧩 L'Analogia della Catena di Montaggio

Immagina una catena di montaggio in una fabbrica di giocattoli:

Normalmente, la macchina assembla un'auto (somma i numeri).
Ma oggi, il cliente (tu) ha detto: "Voglio che ogni auto abbia un adesivo extra".
I Rilevatori vedono che il cliente ha portato un adesivo.
I Traduttori capiscono che l'ordine è "aggiungi adesivo".
I Capisquadra attaccano l'adesivo all'auto finita.

La cosa incredibile è che questa catena di montaggio non serve solo per gli adesivi (o per il "+1"). Gli autori hanno scoperto che questa stessa catena viene riutilizzata per compiti completamente diversi!

🌍 Dove viene usata questa magia?

Gli autori hanno provato a usare questo meccanismo su altri giochi:

Codici Segreti (Cifrario di Cesare): Invece di sommare, si sposta ogni lettera dell'alfabeto di un posto (A diventa B). La macchina usa lo stesso meccanismo per capire che deve "spostare" la lettera.
Domande a Risposta Multipla: Se la risposta corretta è la "A", ma il gioco vuole che tu scelga la "B", la macchina usa lo stesso trucco per spostare la scelta.
Matematica in Base 8: Anche quando si fanno calcoli con numeri strani (come in base 8 invece di base 10), la macchina usa questa capacità di "aggiustare" il risultato.

💡 Perché è importante?

Prima pensavamo che le Intelligenze Artificiali fossero come grandi biblioteche: memorizzavano tutto quello che leggevano e lo riproducevano.

Questo paper ci dice che non è così. Le AI stanno imparando a capire le regole e a creare nuovi strumenti mentre lavorano. Sono come bambini che, guardando un nuovo gioco, capiscono la logica dietro le mosse e la applicano a situazioni mai viste prima.

In sintesi:
Gli autori hanno scoperto che le AI hanno un "meccanismo di induzione delle funzioni". È come se avessero un piccolo laboratorio interno dove, quando vedono un nuovo compito, costruiscono rapidamente un "ponte" per collegare quello che sanno già (la somma normale) a quello che devono fare (aggiungere 1). E la cosa più bella? Una volta costruito quel ponte, lo usano per attraversare molti altri fiumi diversi!

È una prova che le macchine non stanno solo "recitando", ma stanno davvero ragionando e adattandosi, proprio come faremmo noi umani.

Each language version is independently generated for its own context, not a direct translation.

1. Problema e Contesto

I grandi modelli linguistici (LLM) dimostrano una notevole capacità di eseguire compiti non visti durante l'addestramento tramite l'apprendimento in contesto (In-Context Learning, ICL). Tuttavia, i meccanismi interni che guidano questa generalizzazione a livello di compito rimangono poco chiari.
La maggior parte degli studi precedenti si è concentrata su:

Teste di induzione (Induction Heads): Meccanismi che copiano pattern di token (es. [A][B]...[A] → [B]).
Vettori di funzione (Function Vectors): Rappresentazioni che mappano input a output in compiti di tipo "mappatura" (es. Francia: Parigi).

Il gap di conoscenza riguarda scenari di generalizzazione più complessi che coinvolgono ragionamento multi-step e la definizione di nuovi concetti. Questo studio indaga come i modelli gestiscono compiti controfattuali che richiedono un passaggio logico aggiuntivo rispetto alle regole standard.

2. Task di Studio: Addizione "Off-by-One"

Gli autori scelgono un compito sintetico e controfattuale chiamato Addizione Off-by-One:

Compito Base: Addizione standard (es. $1+1=2$).
Compito Contrasto: Addizione con un incremento di +1 sul risultato (es. $1+1=3 $,$ 2+2=5$).
Obiettivo: Determinare se il modello può imparare la funzione $f(x) = x + 1$ applicata al risultato di un'addizione standard ( $g(x) = a+b$ ), e comprendere il meccanismo neurale sottostante.

I risultati preliminari mostrano che modelli moderni (Llama-3, Phi-4, Gemma-2, ecc.) riescono a generalizzare questo compito con alta accuratezza man mano che aumentano gli esempi in contesto (shot), passando da una logica aritmetica standard a quella modificata.

3. Metodologia

Lo studio utilizza tecniche di interpretabilità meccanicistica, in particolare il Path Patching (una variante dell'activation patching e della causal mediation).

Approccio: Il modello viene trattato come un grafo computazionale. Gli autori confrontano le attivazioni tra un prompt "base" (addizione standard) e un prompt "contrasto" (addizione off-by-one).
Procedura: Sostituiscono le attivazioni di specifici nodi (testine di attenzione) nel grafo computazionale del prompt contrasto con quelle del prompt base. Se questa sostituzione fa sì che il modello torni a produrre il risultato standard (es. $3+3=6 $invece di$ 7 $), quel nodo è considerato cruciale per l'induzione della funzione$ +1$.
Modelli Analizzati: L'analisi principale è condotta su Gemma-2 (9B), con validazione su Llama-2 (7B), Llama-3 (8B) e Mistral-v0.1 (7B).

4. Scoperte Chiave e Contributi

A. Identificazione del Meccanismo di "Function Induction"

Gli autori identificano un circuito specifico composto da tre gruppi di testine di attenzione che collaborano per indurre la funzione $f(x) = x + 1$ . Questo meccanismo è una generalizzazione a livello di funzione delle classiche "Induction Heads":

Testine PT (Previous Token): Situato in livelli intermedi, rileva la discrepanza tra il risultato atteso (standard) e quello fornito nel contesto (es. nota che $1+1 $è seguito da$ 3 $invece di$ 2$).
Testine FI (Function Induction): Situato in livelli tardivi, recupera l'informazione registrata dalle testine PT e scrive la funzione di spostamento (+1) nel residual stream.
Testine di Consolidamento: Situato negli ultimi livelli, aggrega le informazioni e finalizza l'output del token successivo.

B. Natura Composita e Distribuita

A differenza dei vettori di funzione che trasportano un singolo vettore, la funzione $+1$ in questo contesto è distribuita.

L'analisi mostra che la funzione è trasmessa lungo molteplici percorsi paralleli.
Ogni testina FI contribuisce con una "frazione" distinta della funzione (es. alcune promuovono $x+1$ , altre sopprimono $x-1$ , altre ancora sopprimono $x$ ).
La somma aggregata di questi contributi implementa la funzione completa $f(x) = x+1$ .

C. Generalizzazione e Riutilizzo del Circuito

Il meccanismo di "Function Induction" non è limitato all'addizione off-by-one. Gli autori dimostrano che lo stesso circuito viene riutilizzato (o adattato) in compiti sinteticamente diversi ma strutturalmente simili:

Addizione Off-by-k: Variazioni con offset diversi ( $k = \pm 1, \pm 2$ ).
Shifted MMLU: Domande a scelta multipla dove la lettera della risposta viene spostata di uno (es. A $\to$ B).
Cifrario di Cesare: Spostamento delle lettere dell'alfabeto.
Addizione in Base-8: Il modello utilizza il meccanismo per correggere i risultati dell'addizione decimale quando si passa alla base 8 (gestendo i riporti).

5. Risultati Sperimentali

Validazione tramite Ablazione: Rimuovendo (ablazione) le 6 testine FI identificate, l'accuratezza del modello sul compito contrasto crolla a 0%, mentre l'accuratezza sul compito base (addizione standard) torna al 100%. Questo conferma la causalità diretta di queste testine.
Universalità: Il meccanismo è stato trovato in tutti i modelli testati (Llama-2, Llama-3, Mistral, Gemma), sebbene con lievi variazioni nelle testine specifiche coinvolte.
Distinzione dai Function Vectors: Le testine FI identificate si trovano negli strati tardivi del modello (es. layer 29-31), mentre le "Function Vector Heads" descritte in lavori precedenti si trovano negli strati iniziali/medi. Questo suggerisce che le FI heads sono un'istanza specifica per compiti multi-step che richiedono ragionamento tardivo.
Limiti di Generalizzazione: Nel caso dell'addizione in base-8, il modello mostra errori di "under-generalization" (non applica la correzione quando necessario) o "over-generalization" (applica la correzione quando non necessaria), indicando che il meccanismo fatica a gestire condizioni complesse a più livelli.

6. Significato e Implicazioni

Questo lavoro offre intuizioni fondamentali su come i LLM gestiscono la novità e il ragionamento:

Struttura Composita: Dimostra che i modelli non memorizzano solo risposte, ma costruiscono meccanismi riutilizzabili e composibili per eseguire funzioni astratte.
Ragionamento Latente Multi-step: Il modello esegue implicitamente un ragionamento a due passi (calcolo standard $\to$ applicazione della funzione di shift) all'interno del suo grafo computazionale.
Implicazioni per la Sicurezza e l'Allineamento: Gli autori ipotizzano che meccanismi simili possano essere alla base di comportamenti problematici come la "sycophancy" (il modello che cambia opinione per compiacere l'utente), dove il modello induce una funzione di "modifica della credenza" dal contesto.
Sviluppo di Modelli: Suggerisce che l'addestramento su compiti multi-step potrebbe beneficiare di curricula che introducano prima compiti a passo singolo, per favorire l'emergere di circuiti di induzione funzionale.

In sintesi, il paper sposta la comprensione dell'ICL dal semplice "copiamento di pattern" all'induzione di funzioni matematiche e logiche astratte attraverso circuiti neurali specifici e riutilizzabili.