Causal Identification from Counterfactual Data: Completeness and Bounding Results

Each language version is independently generated for its own context, not a direct translation.

Le Contexte : Les Trois Niveaux de la Réalité

Imaginez que la compréhension du monde se divise en trois étages, comme un immeuble :

Le Rez-de-chaussée (Observer) : C'est ce que nous voyons naturellement. Par exemple, « Les voitures rouges reçoivent plus d'amendes ». C'est de la simple observation.
Le Premier Étage (Agir) : C'est ce qui se passe si nous intervenons. Par exemple, « Si nous forçons toutes les voitures à être rouges (via une expérience), combien recevront une amende ? ». C'est ce qu'on appelle une intervention.
Le Deuxième Sous-sol (Imaginer / Contrefactuel) : C'est le niveau le plus mystérieux. C'est la question du regret ou de l'alternative : « Cette voiture rouge a reçu une amende. Mais et si elle avait été bleue à ce moment précis, aurait-elle eu une amende ? ».

Jusqu'à présent, les scientifiques pensaient que le Deuxième Sous-sol était inaccessible. On ne pouvait pas revenir en arrière pour changer la couleur de la voiture dans le passé. On ne pouvait donc pas répondre à ces questions « Et si ? » avec certitude, seulement avec des suppositions.

La Nouvelle Découverte : La « Réalité Contrefactuelle »

C'est là que ce papier apporte une révolution. Les auteurs (Raghavan et Bareinboim) disent : « Attendez, on peut en fait accéder à ce niveau ! »

Ils ont découvert une méthode expérimentale appelée « randomisation contrefactuelle ».

L'analogie du film : Imaginez que vous regardez un film où un acteur porte un manteau rouge. Vous ne pouvez pas changer l'acteur dans le passé. Mais, imaginez que vous avez un écran vert (un green screen) sur le manteau. Vous pouvez projeter une image de manteau bleu uniquement sur l'écran que voit le policier qui donne l'amende, sans changer la réalité de l'acteur ni celle des autres passants.
En science, cela signifie qu'on peut manipuler la perception d'une cause (la couleur de la voiture) pour un effet spécifique (la décision de l'IA), sans altérer le reste de la chaîne causale. Cela permet de collecter des données sur des mondes parallèles réels.

Les Trois Contributions Clés du Papier

Voici ce que les auteurs ont fait avec cette nouvelle capacité, expliqué simplement :

1. La Carte au Trésor (L'Algorithme CTFIDU+)

Avant, on avait des cartes pour trouver des trésors (répondre à des questions) en utilisant seulement le rez-de-chaussée et le premier étage. Maintenant, on a accès au sous-sol.
Les auteurs ont créé un nouvel algorithme, CTFIDU+, qui est comme un GPS ultime.

Ce qu'il fait : Il prend n'importe quelle question « Et si ? » et vérifie si, avec nos nouvelles données (y compris celles du sous-sol), on peut trouver la réponse exacte.
La promesse : Si la réponse est mathématiquement possible, cet algorithme la trouvera. S'il dit « Non, impossible », alors c'est vraiment impossible, peu importe combien on cherche. C'est une garantie de complétude.

2. La Limite de l'Imagination (La Dualité)

Le papier pose une question fondamentale : « Est-ce que tout ce qu'on peut imaginer est calculable ? »
La réponse est non.

L'analogie : Imaginez que vous essayez de reconstruire un château de cartes. Même si vous avez des cartes supplémentaires (les données contrefactuelles), il y a certaines structures de châteaux qui sont physiquement impossibles à construire sans que les cartes ne s'effondrent.
Les auteurs prouvent qu'il existe une frontière stricte. Si une question « Et si ? » est trop complexe (trop de contradictions dans la logique du monde), même avec nos nouvelles expériences, on ne pourra jamais la répondre avec certitude. C'est une limite fondamentale de la connaissance humaine dans un monde non-paramétrique (un monde où on ne fait pas de suppositions simplistes sur la nature).

3. Même si on ne peut pas tout savoir, on peut mieux deviner (Les Bornes)

Parfois, on ne peut pas obtenir la réponse exacte (par exemple, « Quelle est la probabilité exacte ? »). Mais on peut souvent obtenir une fourchette (par exemple, « La probabilité est entre 20% et 80% »).

Le problème : Avec les anciennes méthodes (observation + intervention), cette fourchette était souvent très large, comme dire « Il fera entre -20°C et +40°C demain ». Pas très utile !
La solution : En utilisant les nouvelles données contrefactuelles, les auteurs montrent qu'on peut resserrer cette fourchette.
L'analogie : C'est comme si vous cherchiez un objet perdu dans une pièce sombre. Avant, vous saviez juste qu'il était « quelque part dans la maison ». Avec les nouvelles données, vous pouvez dire « Il est probablement dans le salon, entre le canapé et la table ». C'est beaucoup plus précis, même si vous ne l'avez pas encore trouvé exactement.

Pourquoi est-ce important pour nous ?

Ces recherches ne sont pas juste de la théorie abstraite. Elles touchent à des sujets cruciaux de notre vie :

L'Équité (Fairness) : Si une IA refuse un prêt à une personne, on peut maintenant mieux comprendre si c'est à cause de son origine (la couleur de la voiture) ou de ses revenus, en simulant des scénarios « Et si elle avait eu un profil différent ? ».
L'Explication (XAI) : On peut expliquer pourquoi une décision a été prise en comparant la réalité avec ce qui aurait pu se passer.
La Médecine : On peut mieux estimer l'efficacité d'un traitement pour un patient spécifique en comparant son état réel avec un état contrefactuel.

En Résumé

Ce papier dit essentiellement : « Nous avons trouvé un moyen de voir dans des mondes parallèles réels. Nous avons créé un outil pour savoir si nous pouvons répondre à n'importe quelle question sur ces mondes. Et même si nous ne pouvons pas tout savoir avec certitude, nous pouvons maintenant faire des prédictions beaucoup plus précises et utiles qu'avant. »

C'est une avancée majeure qui transforme la philosophie du « Et si ? » en une science pratique et calculable.

Each language version is independently generated for its own context, not a direct translation.

1. Problématique et Contexte

L'article s'inscrit dans le cadre de la Hiérarchie Causale de Pearl (PCH), qui distingue trois niveaux de raisonnement :

Niveau 1 (L1) : Observations (voir).
Niveau 2 (L2) : Interventions (faire).
Niveau 3 (L3) : Contrefactuels (imaginer).

Jusqu'à présent, les résultats de complétude pour l'identification des requêtes contrefactuelles (L3) supposaient que les données d'entrée étaient limitées aux distributions observationnelles (L1) et interventionnelles (L2). Il était généralement admis qu'il était impossible d'obtenir directement des données de distributions contrefactuelles (L3).

Cependant, des travaux récents (Raghavan & Bareinboim, 2025) ont introduit le concept de réalisabilité contrefactuelle. Ils ont démontré qu'il est possible, via une procédure expérimentale appelée randomisation contrefactuelle (counterfactual randomization ou ctf-rand), de collecter directement des données L3. Cette procédure permet de modifier la valeur perçue d'une variable par ses enfants sans altérer sa valeur naturelle ni affecter d'autres variables (contrairement à une intervention standard do(x)).

La question centrale : Avec cet accès potentiel à des données L3 (réalisables), quelles nouvelles quantités contrefactuelles deviennent-elles identifiables ? Quelles sont les limites théoriques de l'inférence causale exacte dans ce nouveau cadre ?

2. Méthodologie

Les auteurs développent une approche algorithmique et théorique pour répondre à ces questions :

A. L'algorithme CTFIDU+

Les auteurs proposent l'algorithme CTFIDU+ (Counterfactual Identification from Un-nested Data Plus), conçu pour identifier des requêtes contrefactuelles à partir d'un ensemble arbitraire de distributions d'entrée, y compris des données L3 réalisables.

Fonctionnement : L'algorithme décompose une requête contrefactuelle complexe en facteurs contrefactuels plus petits (ctf-factors) basés sur la structure du diagramme causal (composantes-confondues ou c-components).
Sous-routine IDENTIFY+ : Il utilise une nouvelle sous-routine, IDENTIFY+, qui tente de mapper chaque facteur cible vers les facteurs disponibles dans les données d'entrée.
Preuve de complétude : L'algorithme est prouvé complet. S'il échoue (retourne FAIL), c'est parce qu'une structure spécifique, appelée haie contrefactuelle (ctf-hedge), empêche l'identification. Cette structure agit comme un certificat de non-identifiabilité.

B. Caractérisation des Limites (L2.5)

Les auteurs définissent une nouvelle couche intermédiaire, L2.5, qui contient les distributions contrefactuelles qui peuvent être physiquement réalisées via des actions de ctf-rand.

Ils établissent une dualité fondamentale : une requête est identifiable à partir de données expérimentales et observationnelles si et seulement si sa distribution est réalisable (en principe) via des actions de randomisation contrefactuelle.
Ils démontrent que les quantités appartenant à la partie purement L3 (hors L2.5, notée $L3 \setminus L2.5$ ) ne sont jamais identifiables, même avec un accès maximal aux données L3 réalisables.

C. Bornage Partiel

Pour les quantités non identifiables (notamment dans $L3 \setminus L2.5$ ), les auteurs dérivent de nouvelles bornes analytiques pour l'identification partielle.

Ils montrent que l'accès aux données contrefactuelles (L2.5) permet de resserrer considérablement les intervalles de crédibilité par rapport aux méthodes utilisant uniquement des données L1 et L2.
Ils proposent des formules analytiques pour des quantités clés comme l'effet total naturel (NTE).

3. Contributions Clés

Algorithme CTFIDU+ : Développement d'un algorithme complet pour l'identification de requêtes L3 à partir de n'importe quel ensemble de données d'entrée réalisables (L1, L2, et L3 partielles).
Théorème de Limites (Thm. 4.1) : Preuve que la limite de l'identification exacte dans un cadre non paramétrique coïncide avec la limite de la réalisabilité physique. Aucune quantité purement L3 ( $L3 \setminus L2.5$ ) ne peut être identifiée point par point, même avec des données L2.5.
Dualité Identifiabilité-Réalisabilité (Cor. 4.2) : Établissement d'une équivalence fondamentale : une requête est identifiable si et seulement si elle est réalisable via des actions de ctf-rand.
Nouvelles Bornes Analytiques : Dérivation de bornes plus serrées pour les quantités non identifiables (comme le NTE) en utilisant des données contrefactuelles, surpassant les résultats antérieurs basés uniquement sur L2.
Validation par Simulation : Démonstration empirique que l'utilisation de données L2.5 réduit significativement la largeur des intervalles de crédibilité pour les quantités non identifiables et permet l'identification exacte de quantités auparavant non identifiables (comme l'effet direct naturel - NDE).

4. Résultats Principaux

Identifiabilité Exacte : L'algorithme CTFIDU+ réussit à identifier des quantités comme l'effet direct naturel (NDE) dans des scénarios où les méthodes précédentes (basées sur L2) échouaient, grâce à l'exploitation des données L3.
Barrière Théorique : Le théorème 4.1 montre qu'il existe une barrière infranchissable pour l'identification exacte de certaines quantités L3 (ex: Probabilités de Causalité spécifiques, NTE total) même avec des données expérimentales avancées. Ces quantités appartiennent à $L3 \setminus L2.5$ .
Amélioration du Bornage : Pour les quantités non identifiables, l'ajout de données contrefactuelles réduit l'incertitude. Dans les simulations (Exemple 2 et 3), les intervalles de crédibilité 95% sont nettement plus étroits avec des données L2.5 qu'avec des données L2. Pour le NDE, les bornes s'effondrent sur la valeur vraie, confirmant l'identifiabilité.

5. Signification et Impact

Ce travail a des implications majeures pour le domaine de l'intelligence artificielle causale :

Redéfinition des Limites : Il remet en question le dogme selon lequel les données contrefactuelles sont inaccessibles ou inutiles pour l'identification, en montrant qu'elles peuvent être collectées et utilisées pour identifier de nouvelles quantités.
Conception d'Expériences : Il guide la conception d'expériences (via ctf-rand) pour maximiser l'information récupérable, en identifiant quelles interventions sont nécessaires pour rendre une distribution réalisable.
Équité et Explicabilité (XAI) : Les résultats sont cruciaux pour l'analyse de l'équité algorithmique et l'explicabilité. Des métriques comme l'effet total naturel (NTE) sont essentielles pour comprendre les biais, mais étaient auparavant non identifiables ou mal bornées. Ce papier fournit des outils pour les estimer avec plus de précision ou prouver leurs limites.
Complétude Théorique : En prouvant la complétude de CTFIDU+, les auteurs ferment la boucle sur la question de savoir "ce qui peut être identifié" dans le cadre non paramétrique avec des données L3, offrant une base solide pour les futurs travaux sur l'apprentissage causal.

En résumé, cet article établit une nouvelle frontière pour l'inférence causale en intégrant formellement la collecte de données contrefactuelles, en fournissant un algorithme complet pour l'exploitation de ces données, et en définissant les limites fondamentales de ce qui reste impossible à identifier.