Econometric Inference with Machine-Learned Proxies: Partial… — Explication vulgarisée

✨

Ceci est une explication générée par l'IA de l'article ci-dessous. Elle n'a pas été rédigée ni approuvée par les auteurs. Pour une précision technique, consultez l'article original. Lire la clause de non-responsabilité complète

Each language version is independently generated for its own context, not a direct translation.

🕵️‍♂️ L'Enquête : Quand l'Intelligence Artificielle nous donne des indices imparfaits

Imaginez que vous êtes un détective (un économiste) qui cherche à résoudre une énigme complexe. Vous avez besoin de connaître un détail crucial, disons le niveau de pollution dans une ville ou l'opinion politique d'un journal. Mais ce détail est caché, invisible, ou trop cher à mesurer directement pour chaque personne.

Heureusement, vous avez un assistant très puissant : l'Intelligence Artificielle (IA). L'IA peut lire des tonnes de textes ou analyser des images pour vous donner une estimation de ce détail caché.

Le problème ?
L'IA n'est pas parfaite. Son estimation est souvent un peu floue, comme une photo prise avec un objectif sale. Si vous utilisez cette estimation "sale" directement dans votre enquête, vous risquez de tirer de mauvaises conclusions. C'est ce qu'on appelle le "biais".

La solution de l'auteur (Lixiong Li) :
Au lieu de dire "L'IA a tort, on ne peut pas faire confiance", l'auteur propose une nouvelle méthode pour utiliser ces estimations imparfaites sans se tromper. Il ne cherche pas à savoir exactement quelle est la vérité, mais à définir une zone de sécurité où la vérité se trouve forcément.

🧩 L'Analogie du Puzzle et du Pont

Pour comprendre la méthode, imaginons deux pièces de puzzle qui ne s'emboîtent pas directement :

La Grande Enquête (L'échantillon principal) : Vous avez beaucoup de données sur les gens (leurs revenus, leur âge, etc.), mais vous n'avez pas le "vrai" niveau de pollution. Vous avez seulement l'estimation de l'IA.
Le Laboratoire de Contrôle (L'échantillon de validation) : Vous avez un petit groupe de personnes où vous connaissez à la fois le vrai niveau de pollution ET l'estimation de l'IA. C'est votre "référence".

L'ancienne façon de faire (La méthode naïve) :
On prenait l'estimation de l'IA et on la collait directement dans l'enquête principale, en espérant qu'elle soit assez bonne. C'est comme essayer de construire un mur avec des briques de tailles différentes sans vérifier si elles s'alignent. Ça tombe souvent en ruine.

La nouvelle façon de faire (La méthode de Li) :
L'auteur dit : "Ne regardons pas l'estimation de l'IA comme une brique de remplacement. Regardons-la comme un pont."

Le pont relie le Laboratoire (où on connaît la vérité) à la Grande Enquête (où on ne la connaît pas).
Grâce au Laboratoire, on sait : "Quand l'IA dit 'Pollution Moyenne', la vérité est souvent entre 'Moyenne' et 'Élevée'".
On utilise cette information pour dire : "Dans la Grande Enquête, quand l'IA dit 'Moyenne', la vérité est aussi entre 'Moyenne' et 'Élevée'".

Au lieu de donner un seul chiffre précis (qui pourrait être faux), on donne une fourchette (un intervalle). Si la fourchette est petite, c'est que l'IA est très précise. Si elle est large, c'est que l'IA est floue, mais au moins, on sait que la vérité est quelque part dedans. On ne se trompe jamais, même si l'IA est mauvaise.

🚚 Le Camion de Déménagement (Optimal Transport)

Pour faire ce lien mathématique entre le Laboratoire et la Grande Enquête, l'auteur utilise un outil très élégant appelé l'Optimal Transport (le transport optimal).

Imaginez que vous devez déménager des meubles :

D'un côté, vous avez un entrepôt avec des meubles réels (la vérité du Laboratoire).
De l'autre, vous avez un entrepôt avec des meubles en carton (les estimations de l'IA).

La question est : Comment déplacer les meubles en carton pour qu'ils correspondent le mieux possible aux meubles réels, en dépensant le moins d'énergie possible ?

L'auteur utilise cette idée pour "transporter" la distribution de la vérité vers l'estimation de l'IA. Cela permet de calculer mathématiquement les limites de la fourchette de vérité sans avoir besoin de connaître les détails complexes de la façon dont l'IA a été entraînée.

L'avantage clé :
Peu importe si l'IA utilise un algorithme super complexe, du Deep Learning, ou une simple régression. Peu importe si on ne connaît pas la vitesse à laquelle elle s'améliore. Tant qu'on a le petit échantillon de référence (le Laboratoire), la méthode fonctionne. C'est comme si on disait : "Je ne sais pas comment ton moteur fonctionne, mais tant que tu as un manuel d'entretien (les données de référence), je peux vérifier si ta voiture roule bien."

🛡️ Pourquoi c'est important pour tout le monde ?

On arrête de faire confiance aveuglément : Cette méthode nous apprend à ne pas utiliser les résultats de l'IA comme une vérité absolue, mais à les utiliser avec prudence, en définissant des marges de sécurité.
On peut utiliser n'importe quelle IA : Les chercheurs n'ont plus besoin d'attendre que les informaticiens prouvent que leur algorithme est mathématiquement parfait. Ils peuvent utiliser les meilleurs outils du moment, tant qu'ils ont un petit jeu de données pour vérifier.
C'est robuste : Même si l'IA fait des erreurs bizarres (par exemple, si elle se trompe plus souvent sur les hommes que sur les femmes), la méthode peut s'adapter pour donner une réponse correcte, même si cette réponse est un peu plus large.

En résumé

Ce papier est comme un guide de survie pour les économistes à l'ère de l'IA. Il nous dit : "N'ayez pas peur des estimations imparfaites de l'IA. Utilisez un petit échantillon de vérité pour créer un pont vers vos grandes données, et calculez une zone de sécurité. Vous aurez peut-être moins de précision, mais vous aurez la certitude de ne pas vous tromper."

C'est une façon intelligente de transformer l'incertitude en une information fiable.

Each language version is independently generated for its own context, not a direct translation.

Résumé Technique : Inférence Économétrique avec Proxies Appris par Machine Learning

1. Problématique et Contexte

L'article aborde un défi majeur en économétrie appliquée moderne : l'utilisation croissante de méthodes d'apprentissage automatique (ML) pour construire des proxies (variables substituts) à partir de données non structurées complexes (textes, images) afin d'estimer des variables latentes $Z$ dans des modèles économétriques.

Le problème central est que l'utilisation naïve de ces proxies $\hat{Z} = g(X)$ dans des modèles en aval (downstream) conduit souvent à des biais d'estimation et à une inférence invalide. Cela est dû à deux facteurs :

L'erreur de mesure : $\hat{Z}$ n'est pas égal à $Z$ .
L'erreur non classique : L'erreur de mesure $(Z - \hat{Z})$ peut être corrélée avec les covariables observées $W$ et être endogène au modèle, car les données d'entrée $X$ contiennent souvent des informations riches sur $W$ au-delà de $Z$ . De plus, les propriétés asymptotiques des algorithmes ML complexes (taux de convergence, consistance) sont souvent inconnues ou inaccessibles analytiquement.

Les approches existantes imposent soit des hypothèses structurelles restrictives sur l'erreur de mesure (ex: indépendance conditionnelle), soit nécessitent un échantillon de validation complet contenant toutes les variables $(W, Z, \hat{Z})$ , ce qui est rarement disponible en pratique.

2. Méthodologie Proposée

L'auteur propose un cadre de partial identification (identification partielle) basé sur la combinaison de deux jeux de données distincts, sans imposer d'hypothèses restrictives sur le processus ML en amont.

A. Structure des Données
Le cadre suppose l'accès à deux échantillons :

Échantillon en aval (Downstream) : Contient les covariables observées $W$ , les entrées non structurées $X$ , et le proxy $\hat{Z} = g(X)$ . La variable cible $Z$ n'y est pas observée.
Échantillon de validation (Auxiliary) : Contient des observations conjointes de la variable cible $Z$ et du proxy $\hat{Z}$ (et potentiellement de caractéristiques $S$ extraites de $X$ ). Il ne contient pas nécessairement $W$ .

B. Concept Clé : Le Proxy comme Variable de Liaison
Au lieu de traiter $\hat{Z}$ comme un substitut bruité de $Z$ , l'article le reconceptualise comme une variable de liaison (linking variable) entre les deux échantillons. L'objectif est de caractériser la distribution conjointe de $(W, Z)$ en utilisant les distributions marginales observées $(W, \hat{Z})$ et $(Z, \hat{Z})$ .

C. Identification via Transport Optimal Unconditionnel
Pour identifier l'ensemble des paramètres $\theta_0$ compatibles avec les données, l'auteur développe une stratégie basée sur le Transport Optimal (OT) :

Défi : Les approches conditionnelles (comme Fan et al., 2025) nécessitent de résoudre un problème de transport pour chaque réalisation de $\hat{Z}$ , ce qui est computationnellement prohibitif si $\hat{Z}$ est continu ou de haute dimension.
Solution : L'auteur propose une caractérisation unconditionnelle du transport optimal. En introduisant des variables auxiliaires et en décomposant les contraintes d'appariement exact ( $\hat{Z} = \hat{Z}'$ ) en restrictions de moments, le problème est reformulé comme un seul problème d'optimisation convexe sur les distributions marginales non conditionnelles.
Résultat : L'ensemble identifié $\Theta_I$ est défini comme l'ensemble des $\theta$ pour lesquels il existe une distribution conjointe compatible avec les marginales observées satisfaisant les conditions de moment structurelles. Cette caractérisation est sharp (précise) : les bornes ne peuvent pas être resserrées sans hypothèses supplémentaires.

D. Procédure d'Inférence (Sans Rééchantillonnage)
L'inférence statistique est complexe car les problèmes de transport optimal ont un comportement asymptotique non standard.

Dualité de Kantorovich : Le problème de minimisation est transformé en un problème de maximisation conjointe sur les multiplicateurs de Lagrange et les fonctions duales.
Approximation par Sieve : L'espace infini des fonctions duales est approché par un espace de dimension finie (sieve) utilisant des fonctions de base (ex: polynômes, splines).
Splitting et Cross-Fitting : Pour éviter le bootstrap (coûteux et complexe ici), l'auteur utilise une procédure de division de l'échantillon (sample splitting) et de cross-fitting.
- Un fold est utilisé pour estimer les fonctions duales optimales.
- L'autre fold est utilisé pour calculer la statistique de test.
Critique : La statistique de test est comparée à des valeurs critiques analytiques dérivées d'une loi normale standard (via une borne de Bonferroni sur la dépendance entre les folds), garantissant un contrôle de la taille asymptotique sans simulation intensive.

3. Résultats Principaux

Théorème d'Identification (Théorème 1) : Établit que l'ensemble identifié peut être caractérisé par une condition de minimax impliquant un problème de transport optimal unconditionnel. Cela permet d'éviter les hypothèses de consistance ou de taux de convergence du modèle ML.
Contrôle de la Taille (Théorème 2) : La procédure d'inférence proposée contrôle la probabilité de rejet erroné (size) au niveau nominal asymptotique, même en présence d'erreurs de mesure non classiques et de modèles ML complexes.
Simulations (Monte Carlo) :
- Contrôle de la taille : La méthode proposée maintient un taux de rejet proche du niveau nominal (ex: 5%) même lorsque le proxy est bruité ou endogène. En revanche, l'approche naïve (plug-in) échoue totalement, conduisant à un sur-rejet massif (jusqu'à 100%).
- Puissance et Informativité : La précision de l'ensemble identifié dépend de la qualité du proxy. Un proxy plus précis (moins de bruit) réduit la taille de l'ensemble identifié.
- Rôle de la Stratification : L'introduction d'une variable de stratification $S$ (ex: sous-populations où la prédiction est meilleure) permet d'affiner les bornes, même si $S$ n'améliore pas directement la prédiction globale.
- Proxies Continus vs Discrets : L'utilisation de proxies continus (ex: probabilités prédites) plutôt que binaires (classes) fournit des informations plus riches, conduisant à des ensembles identifiés plus étroits.

4. Contributions Clés

Découplage de la Consistance ML et de l'Inférence Économétrique : La validité de l'inférence ne dépend pas de la consistance statistique de l'algorithme ML en amont, ni de la connaissance de ses taux de convergence. Cela permet d'utiliser les algorithmes ML les plus performants (boîtes noires) sans risque théorique.
Nouveau Cadre pour la Combinaison de Données : L'article fournit une solution computationnelle et théorique aux problèmes de combinaison de données (data combination) où les variables ne sont pas jointement observées, en utilisant le transport optimal unconditionnel comme alternative aux approches conditionnelles coûteuses.
Flexibilité des Proxies : Le cadre accepte des proxies de dimensions différentes de la variable cible (ex: vecteurs de probabilités, classements) et permet de combiner les sorties de plusieurs modèles ML.
Inférence Tractable et Robuste : Développement d'une procédure d'inférence qui évite le bootstrap, offrant des valeurs critiques analytiques tout en garantissant un contrôle de la taille asymptotique.

5. Signification et Implications

Cet article offre une boîte à outils rigoureuse pour les économètres appliqués qui souhaitent intégrer des mesures dérivées de l'IA (textes, images) dans leurs modèles structurels.

Pour les praticiens : Il permet d'utiliser des proxies ML sans avoir à justifier des hypothèses d'indépendance conditionnelle souvent irréalistes ou à collecter des échantillons de validation coûteux contenant toutes les variables.
Pour les chercheurs en ML : Il suggère un nouveau critère d'évaluation : un bon proxy pour l'économétrie n'est pas nécessairement celui qui prédit $Z$ avec la plus faible erreur quadratique, mais celui qui préserve le mieux l'information pertinente de $X$ pour les conditions de moment du modèle économique.
Impact Théorique : En reliant l'identification partielle, le transport optimal et l'inférence par cross-fitting, l'article ouvre de nouvelles voies pour l'analyse de données complexes dans les sciences sociales, là où les données "parfaites" sont introuvables.

En résumé, ce travail transforme le problème de l'erreur de mesure générée par le ML d'un obstacle insurmontable en un problème de combinaison de données soluble, fournissant des bornes valides et informatives pour l'inférence économique.

Econometric Inference with Machine-Learned Proxies: Partial Identification via Data Combination