OrthoFormer: Instrumental Variable Estimation in Transformer Hidden States via Neural Control Functions

Each language version is independently generated for its own context, not a direct translation.

Immagina di voler insegnare a un robot a prevedere il futuro basandosi sul passato. Il robot attuale (chiamato Transformer) è bravissimo a indovinare cosa succederà dopo, ma ha un difetto fondamentale: è un "copista" ingenuo.

Il Problema: Il Robot che confonde la "Personalità" con le "Cause"

Immagina di osservare una serie di persone che camminano per strada.

Il Transformer classico nota che "le persone che portano un cappello rosso tendono a camminare velocemente". Quindi impara: Cappello Rosso = Velocità.
La realtà: Forse quelle persone sono in ritardo per un appuntamento importante (la causa reale). Il cappello rosso è solo una caratteristica statica della loro "personalità" o del loro stile.

Il Transformer fa un errore epistemologico: confonde lo sfondo statico (il cappello, lo stile, l'identità) con il flusso dinamico (come una persona passa da ferma a veloce).
Se mandi questo robot in un mondo dove le persone con il cappello rosso sono lente (un nuovo contesto), il robot fallirà catastroficamente perché ha imparato una correlazione falsa, non una legge causale.

La Soluzione: OrthoFormer (Il Detective del Tempo)

Gli autori propongono OrthoFormer, un nuovo tipo di robot che non guarda solo "cosa succede dopo", ma cerca di capire "cosa ha causato davvero il cambiamento". Per farlo, usa un trucco matematico antico (dall'economia) chiamato Variabile Strumentale, ma lo adatta alle reti neurali moderne.

Ecco come funziona, con un'analogia semplice:

1. L'Analogia del "Messaggero del Passato"

Immagina di voler capire se il tuoi umore di oggi (stato $h_t$ ) è causato dal tuo umore di ieri ( $h_{t-1}$ ) o da un evento esterno nascosto (come il meteo, che non vedi ma influenza entrambi).

Il problema: Se guardi solo ieri e oggi, non sai se è il tuo carattere (statico) o il meteo a collegarli.
La soluzione di OrthoFormer: Guarda indietro ancora di più! Guarda l'umore di due giorni fa ( $h_{t-2}$ $h_{t - 2}$ ).
- L'umore di due giorni fa può influenzare quello di ieri (che a sua volta influenza oggi).
- Ma l'umore di due giorni fa è "troppo vecchio" per essere influenzato direttamente dal meteo di oggi.
- Quindi, l'umore di due giorni fa funziona come un messaggero pulito (uno "strumento") che ci aiuta a isolare la vera catena causale, rimuovendo il "rumore" del meteo.

OrthoFormer costruisce questo meccanismo direttamente nel suo cervello, costringendosi a guardare solo il passato "sufficientemente lontano" per trovare queste cause pulite.

2. I Quattro Pilastri (Le Regole del Gioco)

Per far funzionare questo trucco, OrthoFormer segue quattro regole precise:

Frecce del Tempo (Directionality): Il robot è costretto a guardare solo indietro, mai avanti. Non può "barare" guardando il futuro per spiegare il presente.
Separazione Pura (Orthogonality): Il robot impara a separare la "voce" del cambiamento reale dal "rumore" di fondo (come il tuo stile personale). Immagina di mettere un filtro che lascia passare solo il segnale dinamico e blocca lo sfondo statico.
Semplicità Causale (Sparsity): Il robot ignora i dettagli inutili. Si concentra solo sui passaggi chiave che hanno un vero legame causale, come se usasse un laser invece di una torcia.
La Regola d'Oro (Gradient Detachment): Questa è la parte più geniale e controintuitiva.

Il Paradosso del "Divieto Neurale" (Neural Forbidden Regression)

Qui c'è il concetto più importante del paper.
Immagina di avere due studenti:

Studente A deve prevedere il passato.
Studente B deve prevedere il futuro basandosi sul lavoro di A.

Se lasci che gli studenti si aiutino a vicenda durante l'esame (ottimizzazione congiunta), lo Studente A smetterà di fare il suo lavoro onesto. Invece di prevedere il passato correttamente, modificherà le sue risposte per aiutare lo Studente B a prendere un voto più alto. Il risultato? Lo Studente B prende 10, ma le risposte sono false.

OrthoFormer impone una barriera: lo Studente A deve finire il suo compito e "congelarlo" (staccare i gradienti) prima che lo Studente B lo usi.

Senza barriera: Il robot impara a mentire per ottenere un errore di previsione più basso (perde la verità causale).
Con barriera: Il robot fa un errore di previsione leggermente più alto, ma capisce davvero la causa.

Gli autori chiamano questo fenomeno "Regressione Neurale Vietata": è vietato unire i due compiti, perché unirebbe la verità con la menzogna.

Cosa abbiamo imparato? (I Risultati)

Meno Bias, Più Verità: OrthoFormer commette meno errori di "causalità" rispetto ai metodi classici, anche se a volte fa un errore di previsione leggermente più alto. È un compromesso: preferisce essere onesto che essere perfetto nel corto termine.
Il Triangolo Impossibile: C'è un equilibrio difficile. Se guardi troppo indietro (per trovare cause pulite), il segnale diventa debole (rumore). Se guardi troppo vicino, il segnale è contaminato. OrthoFormer trova il punto perfetto.
Resilienza: Quando il mondo cambia (ad esempio, se il meteo cambia comportamento), OrthoFormer continua a funzionare perché ha imparato le leggi vere, non le coincidenze.

In Sintesi

OrthoFormer è un nuovo tipo di intelligenza artificiale che smette di essere un "copista" che imita le apparenze e diventa un "investigatore" che cerca le cause vere.
Usa il passato remoto come una lente di ingrandimento per filtrare il rumore, e impone regole rigide per non farsi ingannare dalle scorciatoie matematiche.

Il messaggio finale è potente: a volte, per capire davvero come funziona il mondo, dobbiamo accettare di non avere la risposta perfetta immediata, ma di avere una risposta che rimane vera anche quando le condizioni cambiano.

Each language version is independently generated for its own context, not a direct translation.

1. Il Problema: Apprendimento Correlazionale vs. Causalità nei Transformer

Il paper identifica una limitazione fondamentale nelle architetture Transformer standard: la loro capacità di modellazione sequenziale si basa sull'apprendimento di associazioni spurie indotte da confondenti latenti, piuttosto che su meccanismi causali invarianti.

La Sfida Epistemologica: I Transformer tendono a confondere i fattori statici di sfondo (identità intrinseca, stile, contesto) con i flussi causali dinamici (evoluzione dello stato). Poiché questi fattori statici influenzano ogni passo temporale, generano forti autocorrelazioni spurie.
Conseguenza: Il modello impara che "sistemi con certe caratteristiche statiche tendono a mostrare certi pattern", invece di imparare "come evolve lo stato successivo dallo stato corrente". Questo porta a un fallimento catastrofico nella generalizzazione fuori distribuzione (OOD) e nell'interferenza controfattuale.
Endogeneità: In un modello autoregressivo $h_t = f(h_{t-1}) + \epsilon_t$ , se l'errore strutturale $\epsilon_t$ contiene una variabile omessa $U_t$ (confondente latente) serialmente correlata, allora $Cov(h_{t-1}, \epsilon_t) \neq 0$ . Questo rende la stima dei parametri strutturali tramite Minimi Quadrati Ordinari (OLS) inconsistente.

2. Metodologia: OrthoFormer

Gli autori propongono OrthoFormer, un'architettura Transformer che integra direttamente la stima a Variabile Strumentale (IV) all'interno dei blocchi del modello, utilizzando funzioni di controllo neurali. L'approccio si basa su quattro pilastri teorici:

Direzionalità Strutturale: Sfrutta la freccia del tempo per bloccare la fuoriuscita di informazioni future, garantendo che gli strumenti precedano gli effetti.
Ortogonalità della Rappresentazione: Impone l'ortogonalità tra le rappresentazioni latenti e il rumore/sfondo statico, isolando i segnali dinamici puri.
Sparsità Causale: Restringe l'attenzione ai lag strumentali validi (approssimazione del Markov Blanket), ignorando i passaggi intermedi irrilevanti.
Coerenza End-to-End: Garantisce un'ottimizzazione congiunta senza accumulo di errori tramite la separazione dei gradienti (gradient detachment).

Componenti Architetturali Chiave:

Instrumental Attention Mask: Un modulo di attenzione specializzato che applica una maschera di ritardo, limitando la query alla posizione $t$ ad attendere solo chiavi alle posizioni $\le t-k$ . Questo impone strutturalmente $Z_t = h_{t-k}$ come strumento.
Modulo a Due Stadi (Neural Control Function):
- Stadio 1: Predice il componente endogeno dal contesto strumentale.
- Calcolo del Residuo: Viene calcolato il residuo $R_t$ e, crucialmente, il suo gradiente viene distaccato (detach()).
- Stadio 2: Utilizza la concatenazione della predizione dello Stadio 1, del residuo distaccato e dello strumento per predire l'obiettivo.
Separazione dei Gradienti: L'operazione detach() è critica. Senza di essa, i gradienti dello Stadio 2 influenzerebbero lo Stadio 1, distruggendo l'interpretazione causale della funzione di controllo. Gli autori chiamano questo errore di ottimizzazione congiunta "Regressione Neurale Vietata" (Neural Forbidden Regression).

3. Contributi Teorici Principali

Il paper sviluppa un quadro teorico basato sulla validità approssimata degli strumenti (poiché $h_{t-k}$ è solo approssimativamente esogeno a causa della persistenza del confondente $\rho$ ).

Identificazione Approssimata: Si dimostra che lo stimatore IV converge al vero parametro $w$ più un bias residuo di ordine $O(\rho^k)$ . Questo bias è strictly less (strettamente inferiore) al bias OLS per qualsiasi lag $k \ge 2$ quando $\rho < 1$ .
Decomposizione dell'Errore MSE (Quattro Termini): L'errore di stima è scomposto in:
- Bias endogeno irreducibile dello strumento (scala come $\rho^{2k}$ ).
- Termine di varianza finito (inversamente proporzionale alla statistica F dello stadio 1).
- Errori di approssimazione neurale per lo Stadio 1 e 2.
- Insight chiave: Il primo termine non svanisce all'aumentare del campione, riflettendo un bias di specifica dovuto all'esogeneità approssimata.
Riduzione Monotona del Bias: La riduzione relativa del bias (IV rispetto a OLS) è strettamente positiva e cresce monotonamente con il lag $k$ .
Il Trilemma Bias-Varianza-Exogeneità: Aumentare il lag migliora l'esogeneità (riducendo il bias $\rho^k$ ) ma indebolisce la rilevanza dello strumento (riducendo la statistica F e aumentando la varianza). Esiste un compromesso fondamentale nella selezione del lag ottimale.
Regressione Neurale Vietata: Viene identificato il fenomeno per cui rimuovere il distacco dei gradienti migliora la perdita di previsione (loss) ma distrugge la validità causale, dimostrando che una loss inferiore non implica stime causali migliori.

4. Risultati Sperimentali

Le sperimentazioni sono state condotte su un processo di generazione dati (DGP) sintetico AR(1) con confondenti AR(1) latenti, confrontando OrthoFormer con baseline come OLS, DeepIV, CausalTransformer e altri.

Conferma Teorica: Tutti i risultati teorici sono stati validati. Il bias IV diminuisce monotonamente all'aumentare del lag, e la correlazione residua tra strumento ed errore segue il tasso teorico $\rho^k$ .
Generalizzazione OOD: OrthoFormer mostra una robustezza significativamente superiore rispetto a OLS quando il parametro di persistenza del confondente $\rho$ cambia tra training e test. Questo conferma che le rappresentazioni basate sulla causalità generalizzano meglio sotto shift di distribuzione.
Test Diagnostici: I test AR(2) sui residui dello stadio 2 non rifiutano l'ipotesi nulla di assenza di correlazione seriale di secondo ordine, confermando l'esogeneità approssimata degli strumenti.
Ablation Study: Rimuovere la funzione di controllo degrada drasticamente le prestazioni. Rimuovere la maschera di ritardo (riducendo a $k=1$ ) degrada leggermente le prestazioni a causa dell'endogeneità più alta ( $\rho^1$ ).
Trade-off Efficienza-Coesistenza: OrthoFormer ha una perdita di previsione leggermente superiore rispetto alle baseline OLS in condizioni di endogeneità zero, confermando il trade-off: i modelli OLS sfruttano correlazioni spurie per una migliore accuratezza predittiva in-distribution, ma a scapito di stime strutturali distorte.

5. Significato e Implicazioni

OrthoFormer rappresenta un cambiamento di paradigma dalla modellazione sequenziale puramente correlazionale a quella causale.

Robustezza: Offre una soluzione architetturale per mitigare il fallimento OOD causato da confondenti statici, un problema critico in robotica, interazione uomo-agente e modelli generativi.
Interpretabilità: Introduce un meccanismo per separare esplicitamente i flussi causali dinamici dai fattori statici di sfondo.
Contributo al Deep Learning Causale: Dimostra che l'integrazione di principi econometrici classici (come la separazione degli stadi e le funzioni di controllo) nelle architetture deep learning richiede vincoli architetturali specifici (come il detach()) che non sono ovvi nell'ottimizzazione end-to-end standard.
Limitazioni e Futuro: Il lavoro attuale si basa su DGP sintetici semplici. Le sfide future includono l'estensione a dinamiche di transizione dense, la selezione adattiva del lag e l'integrazione con la sparsità a livello di feature per la scoperta di caratteristiche monosemantiche.

In sintesi, OrthoFormer non è solo un miglioramento tecnico, ma una riscrittura dei principi di identificazione causale all'interno dei blocchi fondamentali dei Transformer, fornendo una base teorica solida per la stima coerente dei parametri in presenza di confondenti latenti.