Expert-Aided Causal Discovery of Ancestral Graphs

Cet article présente Ancestral GFlowNet (AGFN), un algorithme d'apprentissage par renforcement qui permet d'inférer la distribution des graphes ancestraux en intégrant de manière itérative des connaissances d'experts incertaines, tant a priori qu'a posteriori, pour affiner la découverte causale en présence de confondants latents.

Tiago da Silva, Bruna Bazaluk, Eliezer de Souza da Silva, António Góis, Salem Lahlou, Dominik Heider, Samuel Kaski, Diego Mesquita, Adèle Helena Ribeiro

Publié Mon, 09 Ma
📖 5 min de lecture🧠 Analyse approfondie

Each language version is independently generated for its own context, not a direct translation.

Imaginez que vous essayez de comprendre comment fonctionne une machine très complexe, comme un moteur de voiture ou un écosystème forestier, mais vous ne pouvez pas la démonter. Vous ne voyez que les pièces qui bougent et vous observez comment elles réagissent les unes aux autres. C'est ce qu'on appelle la découverte causale : essayer de deviner qui est la cause et qui est l'effet en regardant simplement les données.

Le problème ? Les ordinateurs sont souvent mauvais pour ça. Ils peuvent se tromper en voyant des coïncidences comme des causes réelles, ou ils peuvent ignorer des pièces cachées (des "confondants latents") qui influencent tout sans qu'on les voie.

Voici une explication simple de la méthode proposée dans cet article, appelée AGFN, en utilisant des analogies du quotidien.

1. Le Problème : Le Labyrinthe des Possibilités

Imaginez que vous devez reconstruire un puzzle géant, mais vous avez perdu la boîte avec l'image de référence. De plus, certaines pièces sont manquantes (les variables cachées).

  • L'espace des solutions : Pour seulement 6 pièces, il existe des millions de façons de les assembler. Pour 25 pièces, le nombre de possibilités est si énorme qu'il dépasse le nombre d'atomes dans l'univers observable.
  • Le piège : Les méthodes classiques essaient de deviner la meilleure image en une seule fois (une "estimation ponctuelle"). Si elles se trompent d'une seule pièce, tout le puzzle devient faux. De plus, elles ne peuvent pas facilement intégrer l'avis d'un expert humain qui dirait : "Attends, cette pièce ne va pas là".

2. La Solution : AGFN (Le Chef d'Orchestre Créatif)

Les auteurs proposent une nouvelle méthode appelée Ancestral GFlowNet (AGFN). Imaginez-le comme un chef d'orchestre très créatif qui ne cherche pas une seule partition parfaite, mais qui apprend à jouer toutes les musiques plausibles, en accordant plus de volume aux meilleures.

  • L'exploration intelligente : Au lieu de deviner le puzzle entier d'un coup, AGFN construit le graphique pièce par pièce. Il commence avec un puzzle vide et ajoute une relation à la fois (par exemple : "La pluie cause l'humidité").
  • La diversité : Contrairement à un chercheur têtu qui s'obstine sur une seule idée, AGFN explore beaucoup de scénarios différents en même temps. Il dit : "Il y a 10% de chances que ce soit A, 5% que ce soit B, et 85% que ce soit C". Cela lui permet de ne pas se coincer dans une mauvaise solution.

3. L'Expert Humain : Le Guide dans le Brouillard

C'est ici que la méthode devient vraiment spéciale. Souvent, interroger un expert (un humain ou une IA avancée) coûte cher ou prend du temps. On ne peut pas leur demander "Quelle est la vérité ?" pour tout le puzzle.

AGFN utilise une stratégie de "Questionnement Actif" :

  • Le jeu du 20 questions : Au lieu de demander à l'expert de tout deviner, AGFN lui pose des questions très précises sur les relations les plus incertaines. "Selon vous, est-ce que A influence B ?"
  • L'ajustement en direct : Dès que l'expert répond (même si sa réponse est un peu floue ou incertaine), AGFN met à jour instantanément sa carte mentale. Il efface les scénarios impossibles et renforce les scénarios probables.
  • L'analogie du GPS : Imaginez que vous conduisez dans le brouillard (les données). Votre GPS (AGFN) vous propose plusieurs itinéraires. Vous (l'expert) lui dites : "Non, il y a un pont fermé sur la route de gauche". Le GPS ne s'arrête pas, il recalcule immédiatement les itinéraires restants pour trouver le meilleur chemin vers la destination.

4. Pourquoi c'est révolutionnaire ?

  • Gestion de l'incertitude : Les méthodes précédentes exigeaient des réponses parfaites des experts. AGFN accepte que l'expert se trompe parfois ou soit hésitant. Il sait que même une réponse imparfaite ("Je pense que c'est plutôt ça") est mieux que rien.
  • Les variables cachées : La méthode est conçue spécifiquement pour gérer les pièces manquantes du puzzle (les confondants). Elle ne force pas le puzzle à être parfait si des pièces manquent, mais elle dessine les connexions réelles en tenant compte de ces trous.
  • Efficacité : L'article montre qu'avec seulement quelques questions (moins de 4 réponses d'expert), AGFN trouve une solution bien meilleure que les meilleurs algorithmes actuels qui n'ont pas d'aide humaine.

En résumé

Imaginez que vous essayez de dessiner la carte d'un archipel inconnu.

  • Les anciennes méthodes : Dessinent une carte basée uniquement sur les vagues observées, souvent erronée.
  • La méthode AGFN : Dessine des centaines de cartes possibles en même temps. Ensuite, elle demande à un navigateur local (l'expert) : "Est-ce que l'île A est au nord de l'île B ?". À chaque réponse, elle efface les cartes fausses et affine les bonnes.

C'est une collaboration intelligente entre la puissance de calcul (qui explore tout l'espace des possibilités) et l'intuition humaine (qui guide l'exploration vers la vérité), même quand l'humain n'est pas sûr à 100 %. C'est un pas de géant vers une intelligence artificielle qui travaille avec nous, et non pas à notre place.