Represented Is Not Computed: A Causal Test of Candidate… — Spiegazione divulgativa

Immagina di avere uno chef robot molto intelligente, ma misterioso. Gli dai un cartoncino con una ricetta contenente tre ingredienti: un numero grande ( $N$ ), un numero base ( $B$ ) e un numero "slot" specifico ( $D$ ). Il compito dello chef è determinare una cifra specifica del numero grande, ma solo dopo averlo convertito nella "lingua" della base.

Ad esempio, se il numero grande è 255, la base è 16 e chiedi lo slot 0, lo chef deve fare dei calcoli matematici per dirti la risposta.

I ricercatori di questo articolo volevano dare un'occhiata dentro il cervello dello chef per vedere come risolveva questo rompicapo. Avevano una teoria molto specifica su come lo chef dovesse pensare e volevano verificare se fosse effettivamente quello ciò che stava accadendo.

Ecco la storia di ciò che hanno scoperto, suddivisa in passaggi semplici:

1. Lo Chef è un Genio nel Compito

Per prima cosa, hanno verificato se il robot fosse effettivamente in grado di svolgere il lavoro. L'hanno addestrato su migliaia di esempi e poi lo hanno testato su numeri nuovi e mai visti.

Il Risultato: Il robot era quasi perfetto (99,83% di accuratezza). Sapeva esattamente quale risposta dare. Quindi, sappiamo che può risolvere il problema.

2. La Teoria del "Progetto" (Cosa pensavamo stesse accadendo)

Il problema matematico ha una soluzione chiara e passo dopo passo (come un progetto). Per ottenere la risposta, teoricamente è necessario:

Calcolare un numero ausiliario ( $B^D$ ).
Dividere il numero grande per quel numero ausiliario.
Arrotondare per difetto.
Prendere il resto.

I ricercatori pensavano che il robot stesse probabilmente seguendo questo progetto. Hanno utilizzato uno strumento chiamato "Sonda Lineare" (immaginala come un metal detector) per scansionare il cervello del robot.

La Scoperta: Il metal detector ha suonato! Ha rilevato che il cervello del robot conteneva effettivamente questi numeri esatti. Il "numero ausiliario" e il "numero arrotondato per difetto" erano chiaramente visibili nei pensieri interni del robot.
La Trappola: Poiché hanno trovato questi numeri, hanno assunto che il robot li stesse utilizzando per risolvere il problema. Sembrava che il robot stesse seguendo il progetto perfettamente.

3. Il Controllo di Realtà (Il Test Causale)

È qui che l'articolo diventa interessante. Il fatto che il robot abbia i numeri nel suo cervello non significa che li stia usando per prendere la decisione.

Per scoprire cosa stava effettivamente usando il robot, i ricercatori hanno eseguito una "chirurgia" sul cervello del robot utilizzando due metodi:

Metodo A: Il Tasto Muto (Ablazione)
Hanno provato a "mutare" parti specifiche del cervello che erano supposte trasmettere i "numeri ausiliari" alla risposta finale.
- Il Risultato: Sorprendentemente, mutare le parti che contenevano la matematica complessa non ha danneggiato molto il robot. Ma quando hanno mutato la prima parte in assoluto in cui il robot guardava il "numero slot" ( $D$ ), il robot ha immediatamente dimenticato come rispondere. Non importava se la matematica complessa fosse presente o meno; il robot la ignorava.
Metodo B: Lo Scambio (Patching)
Hanno preso un robot "donatore" che aveva un diverso "numero slot" ( $D$ ) ma lo stesso numero grande e la stessa base. Hanno scambiato i segnali cerebrali del donatore nel robot originale.
- Il Risultato: Il robot originale ha improvvisamente dato la risposta del donatore. Ma questo è accaduto solo se il numero slot ( $D$ ) era diverso. Se scambiavano il numero grande ( $N$ ) o la base ( $B$ ), al robot non importava.
- La Conclusione: Il robot non stava usando la matematica complessa (il progetto) per decidere la risposta. Stava ascoltando direttamente solo il "numero slot" ( $D$ ).

4. La Scoperta del "Percorso Nascosto"

Infine, hanno mappato il percorso effettivo che le informazioni hanno seguito.

Cosa si aspettavano: Un'unica autostrada organizzata dove $N$ , $B$ e $D$ si incontrano tutti, vengono mescolati in una formula matematica complessa e poi producono la risposta.
Cosa hanno trovato: Il robot ha tre strade separate e piccole. Una strada trasporta il numero grande, una trasporta la base e una trasporta il numero slot. Queste strade rimangono separate per quasi tutto il viaggio. Si incontrano solo nell'ultimo secondo, proprio prima che la risposta venga scritta. Il robot non ha costruito i complessi "numeri ausiliari" e non li ha passati lungo il percorso; ha semplicemente mantenuto gli ingredienti separati fino alla fine.

La Grande Lezione: "Rappresentato" non è "Calcolato"

Il titolo principale dell'articolo dice tutto: "Rappresentato non è Calcolato".

Rappresentato: Il cervello del robot conteneva i numeri della matematica complessa. Se guardavi il cervello, potevi vederli chiaramente (come trovare una mappa nello zaino).
Calcolato: Il robot non ha usato quei numeri per guidare l'auto. Ha preso una scorciatoia.

L'Analogia:
Immagina di guidare verso una festa. Hai una mappa dettagliata e disegnata a mano nel cruscotto che mostra ogni svolta, semaforo e scorciatoia (la matematica "rappresentata").

La Sonda: Guardi nel cruscotto e dici: "Aha! Hai la mappa! Devi star usando la mappa per guidare!"
La Realtà: In realtà hai solo memorizzato il percorso e stai guidando per istinto. Se togli la mappa, arrivi comunque. Se scambi la mappa con quella di qualcun altro, non ti importa, perché non la stai guardando.

Sintesi:
Il robot ha risolto il problema matematico perfettamente e ha persino "pensato" ai passaggi matematici in un modo che sembrava seguire le regole. Ma quando hanno testato cosa ha effettivamente causato il robot a dare la risposta, hanno scoperto che ignorava i passaggi complessi e reagiva direttamente allo specifico "slot" per cui era stato interrogato.

L'articolo ci avverte: Solo perché possiamo trovare un pezzo di informazione all'interno di una rete neurale, non significa che la rete la stia effettivamente usando per prendere decisioni. Dobbiamo testare la causa, non guardare solo i contenuti.

Riepilogo Tecnico: Rappresentato Non è Calcolato

Enunciato del Problema
L'interpretabilità meccanicistica mira a comprendere come le reti neurali integrino componenti rilevanti per il compito per risolvere prompt strutturati. Nel linguaggio naturale e nella visione, le relazioni interne necessarie per questa integrazione sono raramente specificate con sufficiente precisione da definire un algoritmo interno candidato. Questo lavoro colma tale lacuna utilizzando l'aritmetica, in particolare l'estrazione di cifre in una data base, come un contesto più pulito in cui la funzione input-output è nota e gli algoritmi candidati possono essere definiti esplicitamente. Il compito consiste in un Transformer che riceve un numero decimale $N$ , una base $B$ e una posizione di cifra $D$ , e prevede il coefficiente di $B^D$ nello sviluppo in base- $B$ di $N$ . La soluzione in forma chiusa è $y = \lfloor N/B^D \rfloor \mod B$ .

La domanda centrale è se il modello implementi un'ipotesi algoritmica "a stadi" suggerita da questa soluzione in forma chiusa: calcolare $B^D$ , poi $N/B^D$ , prendere la parte intera e infine ridurre modulo $B$ . Nello specifico, gli autori investigano tre domande distinte spesso confuse nell'interpretabilità: (1) Il modello può risolvere il compito? (2) Le quantità derivanti dalla soluzione in forma chiusa sono rappresentate all'interno della rete? (3) Queste quantità sono gli intermedi causali utilizzati per produrre la risposta?

Metodologia
Gli autori hanno addestrato da zero Transformer decoder-only a 10 livelli sul compito di estrazione di cifre in una data base utilizzando tre diversi semi casuali. I dati di addestramento includevano $N \in \{0, \dots, 999\}$ , $B \in \{2, \dots, 30\}$ e varie posizioni di cifra $D$ . I modelli sono stati valutati in modo autoregressivo su intersezioni numero-base tenute da parte per garantire una generalizzazione robusta piuttosto che la memorizzazione.

Per analizzare i meccanismi interni, lo studio ha adottato un approccio multistadio:

Sondaggio Lineare: Sono stati addestrati letture lineari su attivazioni congelate per verificare se le quantità in forma chiusa ( $B^D$ , $N/B^D$ , $\lfloor N/B^D \rfloor$ e la risposta finale) fossero linearmente decodificabili dai flussi residui a vari livelli.
Ablazione dell'Attenzione: Gli autori hanno eseguito ablazioni mirate sui percorsi di attenzione dal flusso del token $D$ ( $D_{ones}$ ) ai flussi di output ( $O[0]$ e $O[1]$ ). Hanno misurato i cali di prestazioni quando si mascherava l'attenzione da livelli specifici (sia scansioni da livelli superficiali a profondi che viceversa) per identificare le dipendenze causali.
Patch delle Attivazioni: Per determinare quale informazione viene trasportata dai percorsi causali, gli autori hanno eseguito il patching di chiavi/valori. Hanno sostituito i vettori chiave/valore di $D_{ones}$ da un esempio "donatore" in un esempio "sorgente". Variando se il donatore differiva dalla sorgente in $N$ , $B$ o $D$ , hanno testato se il percorso trasportasse informazioni specifiche per la posizione della cifra o per gli intermedi aritmetici più ampi.
Ricerca di Circuiti Sparsi: È stata condotta una ricerca greedy da destra a sinistra per identificare un insieme minimo di percorsi di attenzione sufficienti per le prestazioni del compito, rivelando la struttura complessiva di instradamento del modello.

Risultati Chiave

Competenza nel Compito: I modelli hanno raggiunto prestazioni quasi perfette sui set di test tenuti da parte, con una media di accuratezza nella risposta esatta del 99,83% su tre semi. Ciò stabilisce che i modelli hanno appreso in modo affidabile la mappatura del compito.
Rappresentazione (Sondaggio): Le quantità in forma chiusa erano fortemente decodificabili linearmente dai flussi residui. Nello specifico, $B^D$ e quantità simili a un quoziente ( $N/B^D$ ) erano accessibili dal flusso $D_{ones}$ , con la quantità della risposta finale decodificabile dai flussi di output. Ciò rendeva l'ipotesi algoritmica a stadi plausibile dal punto di vista rappresentazionale. Va notato che parte di questa decodificabilità esisteva anche all'inizializzazione, suggerendo che è parzialmente un artefatto dell'architettura e della geometria dei dati piuttosto che un calcolo puramente appreso.
Uso Causale (Ablazione e Patching): Nonostante la forte rappresentazione degli intermedi a stadi, i test causali hanno rivelato un meccanismo diverso.
- Sensibilità Precoce: Il comportamento di output era più sensibile alla comunicazione $D_{ones} \to O$ precoce (in particolare i livelli 0–1). Mascherare questi livelli precoci causava un calo drastico delle prestazioni, mentre mascherare livelli successivi aveva un effetto minimo.
- Trasferimento Selettivo di Informazioni: Gli esperimenti di patching hanno mostrato che il percorso $D_{ones} \to O$ trasporta informazioni comportamentalmente efficaci che sono altamente selettive per $D$ . Quando il donatore differiva solo in $N$ o $B$ , l'output del modello patchato rimaneva invariato (corrispondendo alla sorgente). Quando il donatore differiva solo in $D$ , l'output cambiava per corrispondere al donatore.
- Instradamento Fattorizzato: La ricerca di circuiti sparsi ha rivelato che $N$ , $B$ e $D$ sono instradati attraverso scaffold locali per lo più separati che convergono tardivamente ai flussi di output. Non vi è alcuna evidenza di un singolo intermediario in forma chiusa unificato trasmesso dal lato del prompt all'output.

Contributi e Affermazioni Chiave
Il contributo principale del lavoro è un'osservazione dissociativa: il modello rappresenta le quantità che rendono plausibile la soluzione algoritmica a stadi (sono linearmente decodificabili), eppure il percorso causale identificato non trasmette queste quantità all'output.

Gli autori affermano che "rappresentato non è calcolato". In questo contesto, "calcolato" si riferisce agli intermedi causali effettivamente utilizzati per formare la risposta. Lo studio dimostra che:

I sondaggi possono divergere dalla realtà causale: I sondaggi lineari hanno identificato con successo la presenza di intermedi algoritmici, ma gli interventi causali (ablazione e patching) hanno dimostrato che questi intermedi non erano i principali driver dell'output.
Decodificabilità $\neq$ Uso Causale: Un'alta decodificabilità di una quantità non garantisce che sia un intermediario causale appreso; può riflettere l'accessibilità fornita dall'architettura o dalla tokenizzazione che viene successivamente scolpita dall'addestramento ma non utilizzata nel percorso causale specifico verso l'output.
Meccanismo di Estrazione di Cifre in Base: Il modello risolve il compito instradando $N$ , $B$ e $D$ attraverso percorsi separati e integrandoli tardivamente, affidandosi a una comunicazione precoce selettiva per $D$ piuttosto che a una trasmissione a stadi di valori simili a quozienti.

Significato
Il lavoro funge da avvertimento diretto e verificabile contro l'affidamento esclusivo ai sondaggi lineari per l'interpretazione meccanicistica. Anche in un contesto con un algoritmo esplicito e noto e prestazioni quasi perfette nel compito, il meccanismo causale interno può differire significativamente dall'ipotesi algoritmica intuitiva. Gli autori sostengono che la spiegazione meccanicistica richiede di dimostrare come le quantità sono utilizzate causalmente, non solo che sono presenti. Questo lavoro completa la ricerca esistente sui circuiti dei Transformer e sui meccanismi aritmetici mostrando che percorsi euristici o non algoritmici possono risolvere compiti in cui intermedi algoritmici puliti sono chiaramente rappresentabili ma non causalmente utilizzati.

Represented Is Not Computed: A Causal Test of Candidate Algorithmic Intermediates in a Transformer