Represented Is Not Computed: A Causal Test of Candidate Algorithmic Intermediates in a Transformer

Questo articolo dimostra che, sebbene le sonde lineari suggeriscano che un Transformer addestrato sull'estrazione di cifre di base calcoli intermedi aritmetici a stadi, i test causali rivelano che il percorso computazionale effettivo si basa su flussi di ingresso separati che si combinano tardivamente, evidenziando una significativa divergenza tra evidenza rappresentazionale e meccanismo causale.

Autori originali: Ishita Darade, Sushrut Thorat

Pubblicato 2026-05-22✓ Author reviewed
📖 5 min di lettura🧠 Approfondimento

Autori originali: Ishita Darade, Sushrut Thorat

Articolo originale sotto licenza CC BY 4.0 (http://creativecommons.org/licenses/by/4.0/). Questa è una spiegazione generata dall'IA dell'articolo qui sotto. Non è stata scritta dagli autori. Per precisione tecnica, consulta l'articolo originale. Leggi il disclaimer completo

Immagina di avere uno chef robot molto intelligente, ma misterioso. Gli dai un cartoncino con una ricetta contenente tre ingredienti: un numero grande (NN), un numero base (BB) e un numero "slot" specifico (DD). Il compito dello chef è determinare una cifra specifica del numero grande, ma solo dopo averlo convertito nella "lingua" della base.

Ad esempio, se il numero grande è 255, la base è 16 e chiedi lo slot 0, lo chef deve fare dei calcoli matematici per dirti la risposta.

I ricercatori di questo articolo volevano dare un'occhiata dentro il cervello dello chef per vedere come risolveva questo rompicapo. Avevano una teoria molto specifica su come lo chef dovesse pensare e volevano verificare se fosse effettivamente quello ciò che stava accadendo.

Ecco la storia di ciò che hanno scoperto, suddivisa in passaggi semplici:

1. Lo Chef è un Genio nel Compito

Per prima cosa, hanno verificato se il robot fosse effettivamente in grado di svolgere il lavoro. L'hanno addestrato su migliaia di esempi e poi lo hanno testato su numeri nuovi e mai visti.

  • Il Risultato: Il robot era quasi perfetto (99,83% di accuratezza). Sapeva esattamente quale risposta dare. Quindi, sappiamo che può risolvere il problema.

2. La Teoria del "Progetto" (Cosa pensavamo stesse accadendo)

Il problema matematico ha una soluzione chiara e passo dopo passo (come un progetto). Per ottenere la risposta, teoricamente è necessario:

  1. Calcolare un numero ausiliario (BDB^D).
  2. Dividere il numero grande per quel numero ausiliario.
  3. Arrotondare per difetto.
  4. Prendere il resto.

I ricercatori pensavano che il robot stesse probabilmente seguendo questo progetto. Hanno utilizzato uno strumento chiamato "Sonda Lineare" (immaginala come un metal detector) per scansionare il cervello del robot.

  • La Scoperta: Il metal detector ha suonato! Ha rilevato che il cervello del robot conteneva effettivamente questi numeri esatti. Il "numero ausiliario" e il "numero arrotondato per difetto" erano chiaramente visibili nei pensieri interni del robot.
  • La Trappola: Poiché hanno trovato questi numeri, hanno assunto che il robot li stesse utilizzando per risolvere il problema. Sembrava che il robot stesse seguendo il progetto perfettamente.

3. Il Controllo di Realtà (Il Test Causale)

È qui che l'articolo diventa interessante. Il fatto che il robot abbia i numeri nel suo cervello non significa che li stia usando per prendere la decisione.

Per scoprire cosa stava effettivamente usando il robot, i ricercatori hanno eseguito una "chirurgia" sul cervello del robot utilizzando due metodi:

  • Metodo A: Il Tasto Muto (Ablazione)
    Hanno provato a "mutare" parti specifiche del cervello che erano supposte trasmettere i "numeri ausiliari" alla risposta finale.

    • Il Risultato: Sorprendentemente, mutare le parti che contenevano la matematica complessa non ha danneggiato molto il robot. Ma quando hanno mutato la prima parte in assoluto in cui il robot guardava il "numero slot" (DD), il robot ha immediatamente dimenticato come rispondere. Non importava se la matematica complessa fosse presente o meno; il robot la ignorava.
  • Metodo B: Lo Scambio (Patching)
    Hanno preso un robot "donatore" che aveva un diverso "numero slot" (DD) ma lo stesso numero grande e la stessa base. Hanno scambiato i segnali cerebrali del donatore nel robot originale.

    • Il Risultato: Il robot originale ha improvvisamente dato la risposta del donatore. Ma questo è accaduto solo se il numero slot (DD) era diverso. Se scambiavano il numero grande (NN) o la base (BB), al robot non importava.
    • La Conclusione: Il robot non stava usando la matematica complessa (il progetto) per decidere la risposta. Stava ascoltando direttamente solo il "numero slot" (DD).

4. La Scoperta del "Percorso Nascosto"

Infine, hanno mappato il percorso effettivo che le informazioni hanno seguito.

  • Cosa si aspettavano: Un'unica autostrada organizzata dove NN, BB e DD si incontrano tutti, vengono mescolati in una formula matematica complessa e poi producono la risposta.
  • Cosa hanno trovato: Il robot ha tre strade separate e piccole. Una strada trasporta il numero grande, una trasporta la base e una trasporta il numero slot. Queste strade rimangono separate per quasi tutto il viaggio. Si incontrano solo nell'ultimo secondo, proprio prima che la risposta venga scritta. Il robot non ha costruito i complessi "numeri ausiliari" e non li ha passati lungo il percorso; ha semplicemente mantenuto gli ingredienti separati fino alla fine.

La Grande Lezione: "Rappresentato" non è "Calcolato"

Il titolo principale dell'articolo dice tutto: "Rappresentato non è Calcolato".

  • Rappresentato: Il cervello del robot conteneva i numeri della matematica complessa. Se guardavi il cervello, potevi vederli chiaramente (come trovare una mappa nello zaino).
  • Calcolato: Il robot non ha usato quei numeri per guidare l'auto. Ha preso una scorciatoia.

L'Analogia:
Immagina di guidare verso una festa. Hai una mappa dettagliata e disegnata a mano nel cruscotto che mostra ogni svolta, semaforo e scorciatoia (la matematica "rappresentata").

  • La Sonda: Guardi nel cruscotto e dici: "Aha! Hai la mappa! Devi star usando la mappa per guidare!"
  • La Realtà: In realtà hai solo memorizzato il percorso e stai guidando per istinto. Se togli la mappa, arrivi comunque. Se scambi la mappa con quella di qualcun altro, non ti importa, perché non la stai guardando.

Sintesi:
Il robot ha risolto il problema matematico perfettamente e ha persino "pensato" ai passaggi matematici in un modo che sembrava seguire le regole. Ma quando hanno testato cosa ha effettivamente causato il robot a dare la risposta, hanno scoperto che ignorava i passaggi complessi e reagiva direttamente allo specifico "slot" per cui era stato interrogato.

L'articolo ci avverte: Solo perché possiamo trovare un pezzo di informazione all'interno di una rete neurale, non significa che la rete la stia effettivamente usando per prendere decisioni. Dobbiamo testare la causa, non guardare solo i contenuti.

Sommerso dagli articoli nel tuo campo?

Ricevi digest giornalieri degli articoli più recenti corrispondenti alle tue parole chiave di ricerca — con riassunti tecnici, nella tua lingua.

Prova Digest →