Causality Elicitation from Large Language Models

Each language version is independently generated for its own context, not a direct translation.

Imaginez que vous avez un super-ordinateur (une intelligence artificielle avancée) qui a lu presque tous les livres, articles et rapports du monde. Il est très intelligent, mais il a un problème : il pense en milliards de petits détails, et parfois, il utilise dix mots différents pour dire exactement la même chose.

Les auteurs de cette étude veulent utiliser ce super-ordinateur pour répondre à une question difficile : « Qu'est-ce qui cause quoi ? » (Par exemple : Est-ce que l'inflation cause la hausse des prix, ou est-ce l'inverse ?).

Voici comment ils ont créé un « détective de la cause et de l'effet » en cinq étapes simples, expliquées avec des analogies du quotidien.

1. Le Grand Jeu de Rôle (Générer des histoires)

Au lieu de demander à l'IA de donner une réponse directe, les chercheurs lui disent : « Joue le rôle d'un analyste économique et écris 100 histoires différentes sur un sujet précis (par exemple : 'Comment les nouvelles taxes américaines affecteront le Japon'). »

L'analogie : C'est comme demander à 100 écrivains différents d'écrire un roman policier sur le même crime. Chacun aura des détails légèrement différents, mais le cœur de l'histoire sera le même.

2. La Chasse aux Indices (Extraire les événements)

Pour chaque histoire écrite, l'IA doit lister les événements clés : « Le président a signé un décret », « Le prix du pétrole a monté », « Les usines ont fermé ».

Le problème : Si un écrivain dit « Le pétrole a grimpé » et un autre dit « Le baril de brut a explosé », l'ordinateur pense que ce sont deux choses différentes. C'est comme si vous aviez deux étiquettes pour le même objet dans votre placard : « Chaussures rouges » et « Baskets rouges ». C'est le chaos !

3. Le Tri-Classeur (La « Canonisation »)

C'est l'étape la plus importante et la plus ingénieuse. Les chercheurs utilisent une astuce pour regrouper les phrases qui signifient la même chose.

Ils utilisent un « traducteur de sens » (des vecteurs mathématiques) pour voir que « Le pétrole a grimpé » et « Le baril a explosé » sont très proches.
Ils les mettent dans le même tiroir.
Ils demandent à l'IA de donner un nom officiel à ce tiroir, comme « Hausse des prix du pétrole ».

L'analogie : Imaginez que vous avez un tas de vêtements mélangés. Au lieu de les garder en vrac, vous les pliez et les mettez dans des tiroirs étiquetés « T-shirts », « Pantalons », « Chaussettes ». Désormais, peu importe comment vous les avez appelés au début, ils sont tous rangés sous le même nom clair.

4. La Grille de Bingo (La Matrice)

Maintenant que tout est rangé proprement, ils créent une grande grille (une matrice).

Chaque ligne représente une histoire (un document).
Chaque colonne représente un événement officiel (ex: « Hausse du pétrole », « Taxe sur les voitures »).
Ils mettent une croix (1) si l'événement est présent dans l'histoire, ou rien (0) s'il n'y est pas.
L'analogie : C'est comme une grille de Bingo géante où l'on coche les cases qui apparaissent dans chaque histoire. Cela transforme des milliers de mots en une simple liste de cases cochées.

5. Le Détective des Causes (Découverte Causale)

Enfin, ils utilisent des outils mathématiques (des algorithmes) pour analyser cette grille de Bingo. L'ordinateur cherche des motifs : « Tiens, dans presque toutes les histoires où le pétrole monte, les prix des voitures augmentent aussi. »

Il dessine alors une carte (un graphique) qui montre les liens possibles :

Flèche A → B : Cela suggère que A cause probablement B.
Pas de flèche : Pas de lien évident.
L'analogie : C'est comme si le détective regardait les témoignages de 100 témoins et dessinait un schéma sur un tableau blanc pour montrer qui a poussé qui.

Le Message Important (La Mise en Garde)

Les auteurs sont très honnêtes : Cette carte n'est pas la vérité absolue.

Ce n'est pas une photo de la réalité du monde. C'est une « carte des hypothèses ».

L'analogie : Imaginez que vous demandez à un groupe de rêveurs de dessiner un plan de ville imaginaire. Le plan montrera des rues et des ponts qui pourraient exister selon leur logique, mais ce n'est pas la ville réelle.

À quoi ça sert ?
Cette méthode permet aux humains (les experts) de voir rapidement toutes les idées que l'IA a dans la tête. Au lieu de lire 100 pages de texte, l'expert regarde la carte, dit : « Ah, l'IA pense que les taxes causent la fuite des capitaux, c'est une hypothèse intéressante à vérifier avec de vraies données ! »

En résumé

Les chercheurs ont créé une machine à transformer le brouillard des mots en une carte claire des idées. Ils nettoient le langage, rangent les concepts, et utilisent les mathématiques pour montrer comment l'IA imagine que le monde fonctionne. C'est un outil puissant pour aider les humains à poser les bonnes questions, pas pour donner les réponses définitives.

Each language version is independently generated for its own context, not a direct translation.

Titre : Élicitation de la causalité à partir des grands modèles de langage (LLM)

Auteurs : Takashi Kameyama, Masahiro Kato, Yasuko Hio, Yasushi Takano, Naoto Minakawa (Mizuho-DL Financial Technology Co., Ltd.)
Date : Mars 2026

1. Problématique

L'analyse causale traditionnelle nécessite l'identification manuelle d'événements clés et la spécification de mécanismes hypothétiques. Bien que les Grands Modèles de Langage (LLM) puissent automatiser la synthèse de documents et l'extraction d'événements, leur utilisation pour générer des hypothèses causales pose deux défis majeurs :

La variabilité de surface (Surface-form variation) : Un même événement conceptuel peut être décrit de multiples façons dans différents documents générés (ex. : « renforcement des tarifs », « augmentation des droits de douane », « protectionnisme »). Si ces variations sont traitées comme des variables distinctes, cela crée un problème d'identité de variable, rendant l'analyse instable et difficile à interpréter.
L'absence de validation réelle : Les graphes générés ne reflètent pas nécessairement la causalité du monde réel, mais plutôt les hypothèses de causalité encodées dans les connaissances du LLM.

Objectif : Proposer un pipeline robuste pour extraire, structurer et visualiser un ensemble d'hypothèses causales plausibles issues des LLM, sous forme de graphes inspectables.

2. Méthodologie

Les auteurs proposent un pipeline en cinq étapes pour transformer des documents textuels en graphes causaux candidats :

Étape (i) : Génération de documents conditionnés par le sujet

À partir d'un sujet donné (ex. : « Impact des politiques de Trump sur le Japon »), le LLM génère $N$ documents analytiques (ex. : $N=100$ ). Le modèle est invité à agir comme un analyste, en ancrant ses récits dans des événements concrets et des mécanismes de cause à effet.

Étape (ii) : Extraction d'événements

Pour chaque document, un LLM extrait une liste d'événements (actions politiques, mouvements de marché, décisions). Une couche de robustesse normalise les formats de sortie (JSON, listes Python, etc.) pour obtenir des listes d'expressions textuelles brutes.

Étape (iii) : Canonisation des événements (Cœur de l'innovation)

Pour résoudre le problème de la variabilité de surface, les auteurs utilisent une stratégie « Embedding-first » :

Encodage : Tous les événements extraits sont convertis en vecteurs d'embedding (ex. : text-embedding-3-large).
Clustering : Les embeddings sont regroupés (ex. : via MiniBatchKMeans) pour identifier les mentions sémantiquement équivalentes.
Nommage par LLM : Pour chaque cluster, un LLM génère un libellé canonique unique et lisible par l'homme (ex. : « Durcissement des tarifs ») à partir d'exemples représentatifs.
Résultat : Une fonction de mappage $f$ qui transforme les chaînes brutes en labels canoniques, assurant l'identité des variables.

Étape (iv) : Construction de la matrice d'incidence

Une matrice binaire document-événement $Z \in \{0, 1\}^{N \times C}$ est construite, où $C$ est le nombre d'événements canoniques. Une cellule $Z_{i,c}$ vaut 1 si le document $i$ contient au moins une variante brute de l'événement canonique $c$ . Cela agrège les données de manière déterministe.

Étape (v) : Découverte causale

Des algorithmes de découverte causale sont appliqués à la matrice $Z$ pour inférer des graphes orientés :

PC (Constraint-based) : Basé sur les tests d'indépendance conditionnelle.
GES (Score-based) : Optimisation de score pour trouver un graphe dirigé.
LiNGAM (Functional model) : Estimation d'un ordre causal via des modèles linéaires non gaussiens.

3. Résultats et Études de Cas

L'article présente deux études de cas illustrant la capacité du pipeline à révéler des structures causales cohérentes :

Cas 1 : Impact des politiques de Trump sur l'économie japonaise (Post-2026)

Données : 100 documents, 30 événements canoniques.
Résultats : Le graphe généré par l'algorithme PC identifie trois mécanismes clés :
1. Restrictions technologiques $\rightarrow$ Localisation des achats $\rightarrow$ IED japonais : Les contrôles à l'exportation et les restrictions technologiques poussent les entreprises japonaises à déplacer leurs investissements (FDI) aux États-Unis.
2. Regroupement du nationalisme d'achat : Le resserrement des règles d'origine (USMCA) et les contrôles à l'exportation renforcent les règles « Acheter Américain ».
3. Réponses japonaises : Les variables japonaises (négociations de concessions, surveillance des politiques) apparaissent comme des nœuds puits (sinks), captant les pressions externes.
Observation : Le graphe sépare clairement les instruments de levier américains des canaux d'ajustement japonais.

Cas 2 : Investissement américain en IA et prix de l'or

Données : 100 documents, 20 événements canoniques.
Résultats : Le graphe révèle deux canaux convergents vers la demande d'or :
1. Canal macro-financier : L'investissement en IA affecte la croissance et les conditions financières (proxies par TIPS, DXY), influençant l'or.
2. Canal géopolitique : Les tensions technologiques (IA, contrôles à l'exportation vers la Chine) et les tensions dans le détroit de Taïwan sont corrélées à l'accumulation d'or par les banques centrales.
Observation : Le modèle identifie un « hub » central reliant les tensions technologiques et géopolitiques à l'investissement dans l'or.

4. Contributions Clés

Pipeline d'élicitation causale : Une méthode complète intégrant la génération de documents, l'extraction, la canonisation et la découverte causale.
Module de canonisation explicite : La résolution du problème d'identité des variables via le clustering d'embeddings et le renommage par LLM, permettant de construire une matrice d'incidence stable.
Cartographie des hypothèses : La production de graphes non pas comme des vérités absolues, mais comme des « cartes d'hypothèses » inspectables, représentant l'espace des causalités plausibles encodées dans le LLM.
Interdisciplinarité : Fait le lien entre l'extraction d'événements, la résolution d'entités, la construction de caractéristiques textuelles et l'inférence causale.

5. Limites et Signification

Limites :

Compromis de la canonisation : Risque de fusionner à tort des événements distincts ou de manquer des nuances contextuelles (ex. : modificateurs temporels).
Nature des données : La matrice est binaire, alors que certains algorithmes (LiNGAM) supposent des données continues.
Ordre temporel : La représentation binaire perd l'ordre séquentiel intra-document.
Biais : Les résultats dépendent des biais du LLM et des invites (prompts).

Signification :
Cette approche ne prétend pas découvrir la causalité réelle du monde, mais offre un outil puissant pour formuler des hypothèses et résumer la logique causale d'un corpus de documents (générés ou existants). Elle permet aux experts humains de visualiser, d'inspecter et de valider les mécanismes de causalité que les LLM considèrent comme plausibles, servant ainsi de point de départ robuste pour l'analyse économique et politique.