OrthoFormer: Instrumental Variable Estimation in Transformer Hidden States via Neural Control Functions

Each language version is independently generated for its own context, not a direct translation.

🧠 Le Problème : Le Merveilleux mais Trompeur "Transformateur"

Imaginez que vous avez un génie très intelligent (un Transformateur, comme ceux qui font fonctionner ChatGPT) capable de prédire la suite d'une histoire. Ce génie est excellent pour repérer des motifs. Si vous lui montrez des milliers d'histoires où "il pleut" et où "les gens ouvrent des parapluies", il va apprendre : Quand il pleut, les gens ouvrent des parapluies.

Mais voici le piège :
Parfois, ce génie se trompe de cause. Imaginez que dans vos données, il y a un facteur caché : la saison.

En hiver, il pleut souvent (donc on ouvre des parapluies).
En hiver, il fait aussi froid (donc les gens portent des manteaux).

Le génie va apprendre une fausse règle : "Quand les gens portent des manteaux, ils ouvrent des parapluies." Ce n'est pas vrai ! Le manteau ne cause pas l'ouverture du parapluie ; c'est juste que les deux arrivent en même temps à cause de l'hiver (le facteur caché ou "confondant").

Quand vous demanderez au génie de prédire ce qui se passe en été (une situation nouvelle), il va échouer lamentablement parce qu'il a appris des corrélations trompeuses au lieu de la vraie cause.

🛠️ La Solution : OrthoFormer (Le Détective Causal)

Les auteurs, Charles Luo et son équipe, ont créé OrthoFormer. C'est une nouvelle version du Transformateur qui ne se contente pas de regarder ce qui arrive ensemble, mais qui cherche à comprendre ce qui cause quoi.

Pour y arriver, ils utilisent une astuce mathématique ancienne (l'Instrumentation) mais la modernisent avec de l'intelligence artificielle.

L'Analogie du "Journal de Bord" (L'Instrument)

Pour savoir si le manteau cause vraiment l'ouverture du parapluie, le génie a besoin d'un témoin impartial.
Imaginez que le génie a un journal de bord (ses états cachés) où il note tout ce qui s'est passé il y a quelques jours.

La règle d'or d'OrthoFormer : "Je ne peux utiliser que les notes d'il y a 3 jours pour prédire ce qui va se passer aujourd'hui."
Pourquoi ? Parce que ce qui s'est passé il y a 3 jours ne peut pas être influencé par la météo d'aujourd'hui (le facteur caché actuel). C'est un témoin "pur".

En forçant le modèle à utiliser uniquement ces informations du passé lointain comme "témoin", OrthoFormer réussit à isoler la vraie relation de cause à effet, en ignorant le bruit de fond (la saison, le style, l'identité de la personne).

🏗️ Les 4 Piliers de la Maison OrthoFormer

Pour que ce système fonctionne, les auteurs ont construit l'architecture sur quatre piliers solides :

La Flèche du Temps (Directionnalité) :
C'est comme une porte à sens unique. Le modèle est forcé de regarder le passé pour prédire le futur, mais il ne peut jamais "regarder en arrière" depuis le futur. Cela empêche les fuites d'information.
L'Orthogonalité (Le Tri des Poubelles) :
Imaginez deux tas de vêtements : un tas de "mouvements dynamiques" (ce qui change) et un tas de "caractéristiques statiques" (ce qui ne change jamais, comme la couleur des yeux d'une personne). OrthoFormer force le modèle à séparer ces deux tas. Il ne veut que les mouvements dynamiques pour faire ses prédictions.
La Sparsité Causale (Le Filtre) :
Le modèle ne regarde pas tout le passé. Il ne regarde que les moments précis qui sont de bons "témoins" (comme les notes d'il y a 3 jours). Il ignore le reste pour ne pas se perdre dans le bruit.
La Séparation des Étapes (Le Mur de Brique) :
C'est le point le plus crucial. Le modèle fonctionne en deux temps :
- Étape 1 : Il analyse le témoin pour comprendre le contexte.
- Étape 2 : Il fait sa prédiction finale.
  Le secret : Une fois l'Étape 1 terminée, on "débranche" le courant électrique (on coupe le gradient). L'Étape 2 ne peut pas dire à l'Étape 1 : "Change ta réponse pour que je gagne plus de points". Si on ne fait pas ça, le modèle triche et redevient un simple devin de corrélations.

⚖️ Le Dilemme du "Témoin Parfait"

Les auteurs ont découvert une règle intéressante, un peu comme un jeu de balance :

Plus vous regardez loin dans le passé (plus le "témoin" est vieux), plus il est pur et fiable (moins il est influencé par le facteur caché actuel).
MAIS, plus le témoin est vieux, moins il est utile pour prédire le présent (il est trop loin dans le temps).

C'est ce qu'ils appellent le trilemme Biais-Variance-Exogénéité. Il faut trouver le juste milieu : un témoin assez vieux pour être honnête, mais assez proche pour être utile.

🚫 Le Piège Interdit : La "Régression Interdite"

L'article met en garde contre une erreur classique en IA. Si on essaie d'optimiser les deux étapes en même temps (sans couper le courant entre elles), le modèle va trouver un moyen de tricher : il va ajuster son "témoin" pour qu'il corresponde parfaitement à la prédiction, même si c'est faux.
C'est comme si un élève regardait la réponse du prof avant de faire son examen. Il aura une note parfaite, mais il n'aura rien appris. Les auteurs appellent cela la "Régression Interdite" : une situation où le modèle semble meilleur (moins d'erreur de prédiction) mais est en réalité plus faux sur le plan de la cause.

🎯 En Résumé

OrthoFormer est un Transformateur qui a appris à être un scientifique rigoureux plutôt qu'un simple observateur.

Il ne se contente pas de dire "A arrive avec B".
Il demande : "Est-ce que A cause vraiment B, ou est-ce juste une coïncidence due à un facteur caché ?"

Grâce à cette architecture, il est beaucoup plus robuste quand on le met dans des situations nouvelles (comme un été après un hiver, ou un nouveau client). Il ne triche pas avec les corrélations faciles, il cherche la vérité causale, même si cela demande un peu plus de calculs.

C'est un pas de géant pour rendre l'IA plus fiable, plus interprétable et capable de prendre de meilleures décisions dans le monde réel.

Each language version is independently generated for its own context, not a direct translation.

Titre : OrthoFormer : Estimation par Variables Instrumentales dans les États Cachés des Transformers via des Fonctions de Contrôle Neurales

Auteur : Charles Luo, Ph.D (Metro State University)
Date : 10 mars 2026

1. Problématique et Défi Épistémologique

Les architectures de Transformers excellent dans la modélisation séquentielle mais souffrent d'une limitation fondamentale : elles apprennent par corrélation plutôt que par causalité.

Le problème de l'endogénéité : Dans les modèles autorégressifs ( $h_t = f(h_{t-1}) + \epsilon_t$ ), si l'erreur structurelle $\epsilon_t$ contient des variables latentes non observées ( $U_t$ ) qui sont sérielle-ment corrélées, alors $Cov(h_{t-1}, \epsilon_t) \neq 0$ . Cela rend l'estimation par Moindres Carrés Ordinaires (OLS) incohérente et biaisée.
Le défi épistémologique : Les Transformers confondent les facteurs de fond statiques (identité intrinsèque, style, paramètres physiques) avec les flux causaux dynamiques (évolution de l'état). Les modèles exploitent greedily les fortes autocorrélations induites par ces facteurs statiques, apprenant des associations spurious (« les systèmes avec tel style ont tel motif ») au lieu des lois dynamiques réelles (« comment l'état suivant évolue depuis l'état actuel »).
Conséquence : Cela entraîne un échec catastrophique lors de la généralisation hors distribution (OOD) ou lors d'interventions contrefactuelles.

2. Méthodologie : OrthoFormer

L'approche proposée, OrthoFormer, intègre directement l'estimation par Variables Instrumentales (VI) dans les blocs du Transformer via des fonctions de contrôle neurales. L'architecture repose sur quatre piliers théoriques :

Directionnalité Structurelle : Utilisation de la flèche du temps pour bloquer les fuites futures, garantissant que l'instrument précède l'effet.
Orthogonalité de Représentation : Séparation forcée entre les représentations latentes et le bruit/fond statique pour isoler les signaux dynamiques purs.
Sparsité Causale : Restriction de l'attention aux retards (lags) instrumentaux valides (approximation du Markov Blanket), ignorant les étapes intermédiaires non pertinentes.
Cohérence de Bout en Bout : Séparation des étapes via une détachement de gradient (gradient detachment) pour préserver la validité causale.

Architecture Technique

Le modèle se compose de trois éléments clés :

Encodeur Transformer Standard : Génère les états cachés $h_t$ .
Masque d'Attention Instrumental : Module spécialisé qui restreint la requête à la position $t$ pour n'attendre que les clés aux positions $\le t-k$ . Cela force structurellement l'utilisation de l'état latent retardé $Z_t = h_{t-k}$ comme instrument.
Module de Fonction de Contrôle Neurale (Neural Control Function) : Implémente une estimation en deux étapes (Neural 2SLS) :
- Étape 1 : Prédit le composant endogène à partir du contexte instrumental (sortie du masque).
- Calcul du Résidu : Le résidu $R_t$ est calculé et son gradient est détaché (detach()) pour empêcher l'Étape 2 d'influencer les paramètres de l'Étape 1.
- Étape 2 : Prend en entrée la concaténation de la prédiction de l'Étape 1, du résidu détaché et de l'instrument pour prédire la cible.

Point Critique : L'opération de détachement du gradient est architecturalement cruciale. Sans elle, l'optimisation conjointe détruit l'interprétation de la fonction de contrôle. Les auteurs appellent cela la « régression interdite neuronale » (neural forbidden regression).

3. Contributions Clés

Architecture : Conception d'un mécanisme où les états cachés retardés servent d'instruments via un masque d'attention, combiné à un réseau de neurones en deux étapes avec détachement de gradient.
Théorie :
- Développement d'un cadre basé sur la validité approximative des instruments.
- Preuve que le biais résiduel de l'estimateur VI est strictement inférieur à celui de l'OLS pour tout retard valide $k \ge 2$ , avec une décroissance géométrique du biais en $O(\rho^k)$ (où $\rho$ est la persistance du confondant).
- Identification du trilemme Biais-Variance-Exogénéité : Augmenter le retard $k$ améliore l'exogénéité (réduit le biais) mais affaiblit la pertinence de l'instrument (augmente la variance).
Découverte Conceptuelle : La « régression interdite neuronale », démontrant que l'optimisation conjointe (sans détachement) réduit la perte de prédiction mais détruit la validité causale.

4. Résultats Expérimentaux

Les expériences ont été menées sur un processus de génération de données (DGP) synthétique AR(1) avec des confondants AR(1) latents, comparant OrthoFormer à six baselines (OLS, DeepIV, CausalTransformer, etc.).

Validation Théorique :
- Le biais VI diminue de manière monotone avec l'augmentation du retard $k$ .
- La décomposition de l'erreur quadratique moyenne (MSE) confirme que le biais d'endogénéité de l'instrument domine l'erreur, tandis que les termes de variance et d'approximation neuronale sont négligeables.
- Les tests diagnostics (tests AR(2) sur les résidus) confirment que les instruments satisfont la condition d'exogénéité approximative.
Généralisation Hors Distribution (OOD) : OrthoFormer montre une robustesse significativement supérieure aux modèles OLS lorsque la persistance du confondant ( $\rho$ ) change entre l'entraînement et le test.
Trilemme Observé : Une augmentation du retard $k$ réduit le biais mais fait chuter la statistique F de la première étape (pertinence de l'instrument), confirmant le compromis pratique pour le choix du retard.
Ablation et Régression Interdite :
- Le retrait de la fonction de contrôle dégrade le plus les performances.
- Le retrait du détachement de gradient améliore la perte de prédiction (loss) mais annule la validité causale, confirmant le phénomène de « régression interdite ».

5. Signification et Limites

Signification :
OrthoFormer représente un changement de paradigme, passant de la modélisation séquentielle corrélative à la modélisation causale. Il offre une base théorique pour la robustesse, l'interprétabilité et la prise de décision fiable sous des changements de distribution. Il intègre les principes d'identification causale classique (VI) directement dans l'ADN architectural des Transformers.

Limites et Travaux Futurs :

Portée des données : Les expériences actuelles utilisent un DGP synthétique simple (AR(1) diagonal). Les états cachés réels impliquent des matrices de transition denses et des dynamiques non linéaires complexes.
Biais Irréductible : Pour tout retard fini $k$ , un biais résiduel $O(\rho^k)$ subsiste. Si la persistance du confondant est très élevée ( $\rho \to 1$ ), les instruments deviennent contaminés.
Reconstruction des Paramètres : Le modèle apprend une représentation non linéaire qui n'exprime pas directement le paramètre structurel sous forme de coefficient interprétable.
Évolutivité : Le passage à des Transformers de taille production avec des matrices de poids denses pose des défis computationnels et théoriques.

Conclusion :
OrthoFormer démontre qu'il est possible d'incorporer l'estimation par variables instrumentales dans les Transformers pour corriger les biais d'endogénéité, à condition de respecter strictement la séparation des étapes via le détachement de gradient. C'est une avancée majeure pour la fiabilité des modèles d'IA dans des environnements dynamiques et incertains.