Identification of Latent Group Effects under Conditional Calibration

Each language version is independently generated for its own context, not a direct translation.

Imagine que vous êtes un détective privé. Votre mission est de mesurer l'écart de salaire entre deux groupes de personnes : les "Gagnants" (Groupe 1) et les "Non-Gagnants" (Groupe 0).

Le problème ? Vous ne savez jamais vraiment qui est qui. Les dossiers sont incomplets. Personne n'a étiqueté les gens comme "Gagnant" ou "Non-Gagnant".

Cependant, vous avez un outil magique : un score de probabilité. C'est comme une boule de cristal qui vous dit, pour chaque personne, à quel point elle a probablement appartenu au groupe des Gagnants. Par exemple, "Cette personne a 80 % de chances d'être un Gagnant".

Ce papier de recherche, écrit par Marcell Kurbucz, répond à une question cruciale : Peut-on utiliser ces scores de probabilité pour calculer la vraie différence de salaire entre les deux groupes, même sans connaître l'identité réelle de chacun ?

Voici l'explication simple, avec des analogies du quotidien.

1. Le problème : Le flou artistique

Habituellement, si vous voulez comparer deux groupes, vous avez besoin d'une liste claire. Ici, c'est comme essayer de compter les pommes et les oranges dans un panier, mais vous ne voyez que des ombres floues. Vous avez un indice (le score), mais pas la vérité absolue.

La plupart des gens pensent : "Bon, je vais juste dire que si le score est supérieur à 50 %, c'est un Gagnant, sinon c'est un Non-Gagnant."
L'auteur dit : "Non, c'est une erreur !"
Si vous faites cela (ce qu'on appelle le "seuillage dur"), vous perdez énormément d'information. C'est comme essayer de mesurer la température en disant juste "il fait chaud" ou "il fait froid", sans jamais utiliser de thermomètre. Vous sous-estimerez la vraie différence.

2. La solution : La recette secrète (L'estimation par moments)

L'auteur a trouvé une formule mathématique élégante pour extraire la vérité du bruit. Imaginez que vous avez un mélange de jus de fruits (vos données). Vous voulez savoir combien de sucre (l'effet du groupe) il y a dedans.

La formule utilise deux ingrédients principaux :

La variation du score : Est-ce que le score change vraiment d'une personne à l'autre, ou est-ce qu'il est toujours le même ?
La corrélation : Est-ce que les personnes avec un score élevé ont tendance à avoir un salaire plus élevé ?

L'analogie du détective :
Imaginez que vous essayez de deviner si quelqu'un est un espion (Groupe 1) ou un civil (Groupe 0) en regardant son comportement (le score).

Si le comportement est totalement prévisible (tout le monde se comporte pareil), vous ne pouvez rien apprendre. C'est comme si votre détective était aveugle.
Mais si le comportement varie de manière imprévisible (certaines personnes agissent de façon surprenante par rapport à leur profil), cette variation agit comme une "loupe" qui révèle la vérité.

La formule de l'auteur dit essentiellement : "Regardez comment les écarts de salaire suivent les écarts imprévus du score. Si le score varie beaucoup et que cela correspond aux salaires, vous pouvez calculer la différence réelle."

3. Quand ça ne marche pas ? (Le mur de l'identification)

L'auteur montre que si le score est parfaitement prévisible à partir des autres informations (par exemple, si le score est toujours exactement 50 % pour tout le monde, ou s'il est une fonction mathématique rigide de l'âge et du sexe), alors c'est impossible de trouver la réponse.

C'est comme essayer de deviner le résultat d'un lancer de pièce si la pièce est truquée pour tomber toujours sur "Face". Vous ne pourrez jamais savoir quelle est la vraie probabilité de "Pile".
L'auteur prouve même qu'en ce cas-là, n'importe quelle réponse (n'importe quelle différence de salaire) est possible sans contredire vos observations. C'est le chaos total.

4. La différence entre "Moyenne" et "Structure"

Il y a une nuance subtile mais importante.

L'écart marginal : C'est la différence brute entre les deux groupes (tous confondus).
L'effet structurel (ce que l'auteur trouve) : C'est la différence à l'intérieur de chaque profil.

L'analogie du restaurant :
Imaginez deux restaurants.

Le Restaurant A (Groupe 1) sert des clients riches.
Le Restaurant B (Groupe 0) sert des clients pauvres.
Si vous comparez les factures moyennes, la différence est énorme. Mais est-ce à cause du restaurant ou à cause des clients ?
L'auteur dit : "Je ne peux pas vous dire la différence brute entre les clients, mais je peux vous dire la différence de prix si vous comparez un client riche du Restaurant A avec un client riche du Restaurant B."
C'est une mesure plus juste de l'effet du "Groupe" lui-même, débarrassée des biais de composition.

5. La robustesse : Et si la boule de cristal ment un peu ?

Dans la vraie vie, vos scores ne sont jamais parfaits. Ils peuvent être légèrement faux (déséquilibrés).
L'auteur a calculé une "marge d'erreur maximale". Il dit : "Même si votre score est faux de X %, vous ne vous tromperez pas plus de Y % sur votre résultat final."
C'est rassurant. Cela signifie que tant que votre score n'est pas totalement pourri, vous pouvez encore faire confiance à votre calcul, à condition de rester prudent.

En résumé

Ce papier nous apprend trois choses essentielles :

Ne faites pas de tout ou rien : Ne transformez pas vos scores de probabilité en étiquettes binaires (Oui/Non). Utilisez toute la richesse du score (0 à 100 %).
La variation est reine : Pour trouver la vérité, il faut que votre indicateur (le score) ait une part de surprise imprévisible. S'il est trop prévisible, vous êtes bloqué.
La formule existe : Il y a une méthode mathématique précise (un ratio de covariances) pour extraire l'effet réel du groupe, même si vous ne voyez jamais les membres du groupe en face de vous.

C'est un guide pratique pour les économistes, les data scientists et les décideurs qui doivent prendre des décisions sur des groupes invisibles, en utilisant uniquement des probabilités estimées.

Each language version is independently generated for its own context, not a direct translation.

1. Problématique et Contexte

L'article aborde un défi majeur en économétrie et en statistiques appliquées : la mesure des effets de groupe structurels lorsque l'appartenance au groupe d'intérêt (notée $G \in \{0, 1\}$ ) n'est pas observée directement. Des exemples typiques incluent le statut de pauvreté, l'emploi informel, ou des conditions de santé latentes.

Dans ces situations, l'analyste dispose généralement d'un score de probabilité calibré $p \in [0, 1]$ (par exemple, issu d'un modèle prédictif ou d'un classifieur) qui représente la croyance que l'unité $i$ appartient au groupe, mais jamais l'indicateur binaire réel $G$ . La question centrale est : sous quelles conditions et par quelle formule peut-on identifier l'effet structurel du groupe $\tau$ à partir de la loi conjointe des observables $(Y, X, p)$ ?

2. Modèle et Hypothèses

L'auteur propose un modèle de moyenne structurelle à coefficients constants avec les hypothèses suivantes :

Modèle Structurel (Hypothèse 1) : L'espérance conditionnelle du résultat $Y$ est donnée par $E[Y | G, p, X] = \mu(X) + \tau G$ . Cela implique que l'effet du groupe $\tau$ est constant et que le score $p$ est indépendant de $Y$ conditionnellement à $(G, X)$ .
Calibration Conditionnelle (Hypothèse 2) : C'est le lien crucial entre le latent et l'observable : $E[G | p, X] = p$ . Le score $p$ est un prédicteur non biaisé de l'appartenance au groupe étant donné les covariables $X$ et le score lui-même.
Variation Résiduelle Non Dégénérée (Hypothèse 3) : La variance résiduelle du score après contrôle des covariables, notée $V^* = E[(p - r(X))^2]$ où $r(X) = E[p|X]$ , doit être strictement positive ( $V^* > 0$ ).
Moments (Hypothèse 4) : Existence de moments d'ordre 4 pour assurer la normalité asymptotique.

3. Méthodologie et Identification

Le cœur de la contribution méthodologique réside dans la dérivation d'une formule d'identification en forme close pour le coefficient $\tau$ .

L'Identifiant

Sous les hypothèses ci-dessus, le coefficient structurel $\tau$ est identifié par le rapport de moments pondérés suivant :

$\tau = \frac{E[(2p - 1)(Y - m(X))]}{2 E[(p - r(X))^2]}$

Où :

$m(X) = E[Y|X]$ est la moyenne conditionnelle du résultat.
$r(X) = E[p|X]$ est la moyenne conditionnelle du score.
Le numérateur est la covariance entre le score signé ( $2p-1$ ) et le résidu du résultat ( $Y - m(X)$ ), tous deux "partialisés" par rapport à $X$ .
Le dénominateur est deux fois la variance résiduelle du score ( $2V^*$ ).

Interprétation Instrumentale :
Cette formule est analogue à un estimateur en variables instrumentales (VI). Le résidu du score $a = p - r(X)$ agit comme une variable instrumentale pour la déviation latente $G - r(X)$ . La condition de calibration assure la pertinence de l'instrument (première étape), et l'hypothèse d'indépendance moyenne dans le modèle structurel assure la restriction d'exclusion.

Échec de l'Identification

L'article démontre que l'identification échoue si et seulement si $V^* = 0$ . Cela se produit lorsque le score $p$ est une fonction déterministe de $X$ (c'est-à-dire $p = r(X)$ presque sûrement). Dans ce cas, l'auteur construit un continuum explicite de modèles observationnellement équivalents pour n'importe quelle valeur de $\tau$ , prouvant que $\tau$ n'est pas identifiable sans variation résiduelle du score.

4. Contributions Clés

Résultat d'Identification : Preuve que $\tau$ est ponctuellement identifiable via une formule simple sous des conditions faibles, sans nécessiter d'hypothèses de distribution paramétrique forte sur les erreurs.
Caractérisation de l'Échec : Une caractérisation précise et constructive de l'échec d'identification lorsque la variation résiduelle du score est nulle.
Distinction Structurelle vs Marginale : L'article sépare l'effet structurel $\tau$ de l'écart moyen marginal $\Delta_{marg} = E[Y|G=1] - E[Y|G=0]$ . Il montre que $\Delta_{marg} = \tau + C$ , où $C$ est un terme de composition (différences de covariables entre les groupes latents) qui n'est pas identifiable sans hypothèses supplémentaires. $\tau$ identifie l'effet de groupe au sein des cellules de covariables.
Inférence et Robustesse :
- Estimateur Oracle : L'estimateur utilisant les vraies fonctions de nuisance ( $m$ et $r$ ) est $\sqrt{n}$ -consistant et asymptotiquement normal avec une variance "sandwich" en forme close.
- Robustesse à l'Erreur de Calibration : Si la calibration est imparfaite ( $E[G|p,X] = p + \eta$ ), le biais est borné par $|\tau| \cdot \delta \cdot E[|2p-1|] / (2V^*)$ , où $\delta$ est la borne de l'erreur. Cette borne est sharp (exacte) pour la classe d'erreurs considérée.
- Estimateur Orthogonal : Une reformulation de l'estimateur utilisant $(p-r(X))$ au lieu de $(2p-1)$ dans le numérateur rend le score Neyman-orthogonal, facilitant l'inférence avec des estimateurs de nuisance non paramétriques (bien que la preuve formelle de la normalité $\sqrt{n}$ avec cross-fitting soit laissée pour des travaux futurs).

5. Résultats Empiriques (Simulations Monte Carlo)

Les expériences numériques valident la théorie :

Performance : L'estimateur oracle est sans biais et suit une loi normale, confirmant le théorème central limite.
Frontière d'Identification : À mesure que $V^* \to 0$ , l'erreur quadratique moyenne (RMSE) diverge comme $1/V^*$ , tandis que les intervalles de confiance s'élargissent correctement pour maintenir la couverture.
Sensibilité : Les biais sous calibration imparfaite correspondent exactement aux bornes théoriques. Les erreurs de calibration symétriques (orthogonales au score signé) n'induisent pas de biais.
Classification par Seuil (Hard-Threshold) : L'utilisation d'un seuil simple ( $p > 0.5$ ) pour créer un indicateur binaire entraîne un biais d'atténuation sévère. L'estimateur converge vers $\kappa \tau$ avec $\kappa < 1$ , ce qui est strictement inférieur à la performance de l'estimateur par moments, surtout lorsque la dispersion du score est faible.
Effets Hétérogènes : Lorsque l'effet varie avec $X$ , l'estimateur identifie une moyenne pondérée par la variance du score $\bar{\tau} = E[\tau(X) Var(p|X)] / E[Var(p|X)]$ , mettant en avant les unités où le score est le plus informatif.

6. Signification et Conclusion

Cet article fournit un cadre théorique rigoureux pour l'analyse de groupes latents lorsque l'on dispose de scores de probabilité calibrés.

Apport Théorique : Il transforme un problème d'identification souvent considéré comme impossible (groupes non observés) en un problème soluble par des équations de moments simples, à condition que le score contienne de l'information résiduelle au-delà des covariables.
Implications Pratiques : Il dissuade l'utilisation de classifications binaires brutes (seuils) qui atténuent les effets, et propose une méthode robuste pour quantifier l'impact de la mauvaise calibration des modèles prédictifs.
Applications : Le cadre est directement applicable à l'audit d'équité algorithmique, à l'analyse de la distribution des revenus, et à toute étude empirique où les indicateurs de groupe sont manquants administrativement mais prévisibles.

En résumé, l'article établit que l'effet structurel d'un groupe latent est identifiable de manière précise tant que le score de probabilité n'est pas parfaitement déterminé par les covariables, offrant ainsi une alternative puissante aux méthodes traditionnelles de classification erronée.