Causal Inference with Generative Artificial Intelligence:… — Begrijpelijke uitleg

Oorspronkelijke auteurs: Kosuke Imai, Kentaro Nakamura

Gepubliceerd 2026-06-12

📖 5 min leestijd🧠 Diepgaand

Oorspronkelijke auteurs: Kosuke Imai, Kentaro Nakamura

Oorspronkelijk artikel gelicentieerd onder CC BY 4.0 (http://creativecommons.org/licenses/by/4.0/). ✨ Dit is een AI-gegenereerde uitleg van het onderstaande artikel. Het is niet geschreven of goedgekeurd door de auteurs. Raadpleeg het oorspronkelijke artikel voor technische nauwkeurigheid. Lees de volledige disclaimer

Stel je voor dat je een detective bent die probeert uit te vogelen of een specifiek detail in een verhaal de gevoelens van mensen over een personage verandert. Laten we zeggen dat je wilt weten: Maakt het hebben van een militaire achtergrond dat kiezers een politicus leuker vinden?

Het probleem is dat verhalen uit het echte leven rommelig zijn. Een politicus met een militaire achtergrond kan toevallig ook ouder zijn, een ander opleidingsniveau hebben of een biografie met een meer emotionele toon schrijven. Als je gewoon twee willekeurige biografieën vergelijkt, kun je niet zien of de kiezers de kandidaat leuk vonden vanwege het militaire deel of vanwege het onderwijs-deel. In de wetenschap noemen we deze rommelige extra details "confounders" (verstorende variabelen).

Traditioneel proberen onderzoekers dit op te lossen door computers te gebruiken om de tekst te "lezen" en te raden wat de confounders zijn. Maar dit is als het proberen schoon te maken van een beslagen raam door te gokken waar het vuil zit; het is moeilijk, traag en vaak onnauwkeurig.

Dit artikel introduceert een nieuwe tool genaamd GPI (Generative-AI Powered Inference). Zo werkt het, met behulp van een eenvoudige analogie:

De Magische Kopieermachine (De GenAI)

In plaats van alleen bestaande verhalen te lezen, gebruiken de onderzoekers een "Magische Kopieermachine" (een Large Language Model, of LLM) om de verhalen voor hen te schrijven.

De Prompt: De onderzoeker vertelt de machine: "Schrijf een biografie van een politicus die een militaire achtergrond heeft." Daarna vertelt de onderzoeker: "Schrijf een biografie van een politicus die geen militaire achtergrond heeft."
Het Geheime Blauwdruk: Hier is de superkracht. Wanneer de AI het verhaal schrijft, spuugt de AI niet alleen woorden uit; de AI creëert een verborgen, interne "blauwdruk" (een wiskundige representatie) van precies wat het heeft geschreven.
De Truc: Omdat de AI het verhaal heeft geschreven, hebben de onderzoekers toegang tot deze perfecte, verborgen blauwdruk. Ze weten precies wat de AI in de tekst heeft gestopt om het over het leger te laten gaan, en ze weten wat de AI heeft toegevoegd voor alles wat daarmee te maken heeft (zoals onderwijs of toon).

De "Deconfounder" (Het Filter)

De onderzoekers gebruiken deze perfecte blauwdruk om een speciaal filter te bouwen dat een Deconfounder wordt genoemd.

De Oude Manier: Stel je voor dat je rode en blauwe knikkers probeert te scheiden die aan elkaar geplakt zitten. Je moet raden hoe je ze uit elkaar kunt trekken.
De GPI-Manier: Omdat de AI het verhaal heeft geschreven, hebben de onderzoekers de "gebruiksaanwijzing". Ze kunnen naar de blauwdruk kijken en zeggen: "Oké, dit deel van de blauwdruk is het ingrediënt 'Militaire achtergrond', en dat andere deel van de blauwdruk is het ingrediënt 'Onderwijs'." Ze kunnen het militaire deel wiskundig isoleren zonder het onderwijs-deel te verstoren.

Dit stelt hen in staat om te vragen: "Als we het onderwijs en de toon exact hetzelfde houden, maar alleen het militaire deel veranderen, hoe verandert dan de score van de kiezer?"

Waarom dit beter is

Het artikel beweert dat deze methode voordelen heeft ten opzien van een handbediende rekenmachine door te upgraden naar een supercomputer, om twee belangrijke redenen:

Nauwkeurigheid: Omdat ze de werkelijke interne blauwdruk van de AI gebruiken in plaats van te gokken over de betekenis van de tekst, krijgen ze een veel duidelijker antwoord. In hun tests had hun methode minder "ruis" (fouten) en gaf het veel betrouwbaardere resultaten dan de beste bestaande methoden.
Snelheid: De oude methoden zijn als het proberen op te lossen van een enorme puzzel door naar elk afzonderlijk stukje te kijken. De nieuwe methode is als het hebben van de afbeelding op de doos; het lost het probleem ongeveer 100 keer sneller op.

De "Text Reuse" Twist

De onderzoekers ontdekten ook een slimme afkorting. Als je een bestaande biografie neemt en de AI vraagt om "deze exacte tekst te herschrijven", creëert de AI een nieuwe, perfecte blauwdruk voor die oude tekst. Dit betekent dat je niet eens nieuwe verhalen vanaf nul hoeft te genereren; je kunt oude data gebruiken, deze aan de AI voeren, en dezelfde hoogwaardige resultaten krijgen.

De Kern van het Verhaal

Het artikel betoogt dat door Generatieve AI niet alleen te gebruiken om tekst te genereren, maar ook om de verborgen structuur van die tekst te begrijpen, we eindelijk de complexe web van oorzaak en gevolg in de sociale wetenschappen kunnen ontwarren.

Het Doel: Het ware effect van één specif ding (zoals militaire dienst) op een uitkomst (zoals de tevredenheid van de kiezer) meten.
Het Probleem: Andere zaken (confounders) zijn erdoorheen gemengd.
De Oplossing: Gebruik AI om de tekst te genereren of te herschrijven, pak de "geheime blauwdruk", en gebruik die om de oorzaak perfect te scheiden van de ruis.

De auteurs testten dit op echte kiezersonderzoeken en vonden dat, ja, een militaire achtergrond kiezers inderdaad warmer doet voelen tegenover kandidaten, en ze waren in staat dit met veel meer vertrouwen en snelheid te bewijzen dan voorheen. Ze merken ook op dat dezelfde logica in de toekomst ook voor afbeeldingen en video's zou kunnen werken, mits de AI ze met een vergelijkbare precisie kan genereren.

Technische Samenvatting: Causale Inferentie met Generatieve Artificiële Intelligentie: Toepassing op Teksten als Behandelingen

Probleemstelling
Het artikel behandelt de uitdaging van het schatten van causale effecten wanneer behandelingen ongestructureerde, hoogdimensionele objecten zijn, zoals teksten. In traditionele causale inferentie met tekst moeten onderzoekers een laagdimensionele representatie van verstorende kenmerken (bijv. toon, lengte, specifieele onderwerpen) leren van de data om deze te corrigeren. Bestaande methoden, zoals die gebruikmaken van BERT-embeddings of onderwerpmodellen, proberen deze representaties direct uit de behandelteksten te leren. Dit proces heeft echter vaak moeite met het ontwarren van het specifieke behandelkenmerk waarvoor belangstelling is (bijv. militaire achtergrond) van andere gecorreleerde verstorende kenmerken, wat leidt tot vertekende schattingen en schendingen van de overlap-aanname. Bovendien is het leren van deze representaties uit data computationeel intensief en levert het mogelijk geen nauwkeurige causale schattingen op, met name wanneer de verstoring (confounding) sterk is.

Methodologie: GenAI-Powered Inference (GPI)
De auteurs stellen de GenAI-Powered Inference (GPI) methodologie voor, die gebruikmaakt van diepe generatieve modellen, specifiek Large Language Models (LLMs), om causale inferentie te verbeteren. De kerninnovatie ligt in het gebruik van de ware interne representatie van gegenereerde teksten rechtstreeks vanuit de LLM, in plaats van een representatie uit de data te leren.

Experimenteel Ontwerp:
- Onderzoekers gebruiken een LLM om behandelobjecten (teksten) te genereren op basis van specifieke prompts. Alternatief kunnen bestaande teksten worden "hergebruikt" door de LLM de instructie te geven ze exact te reproduceren.
- De LLM moet werken in een deterministische decoderingmodus (bijv. greedy search met een temperatuur ingesteld op nul) om te garanderen dat de output een deterministische functie is van de interne representatie.
- De interne representatie ( $R_i$ ) van de gegenereerde tekst wordt rechtstreeks geëxtraheerd uit de verborgen lagen (hidden layers) van de LLM.
Kernaannames:
- Scheidbaarheid (Aanname 5): Het behandelkenmerk ( $T$ ) en de verstorende kenmerken ( $U$ ) moeten scheidbaar zijn. Specifiek kan $T$ geen deterministische functie van $U$ zijn, en $U$ kan geen deterministische functie van $T$ zijn. Dit impliceert dat men kan interveniëren op het behandelkenmerk zonder de verstorende kenmerken te wijzigen.
- Deterministische Decodering (Aanname 6): De output van het generatieve model is een deterministische functie van zijn interne representatie, wat ervoor zorgt dat het behandelobject alleen via deze representatie afhankelijk is van de prompt.
Identificatie en Schatting:
- Niet-parametrische Identificatie: Onder de aannames van scheidbaarheid en deterministische decodering bewijzen de auteurs het bestaan van een deconfounder-functie $f(R_i)$ die de verstorende kenmerken samenvat. Deze deconfounder is een lagerdimensionale representatie van de interne staat $R_i$ die aan de onafhankelijkheid voldoet: $Y_i \perp R_i \mid T_i, f(R_i)$ .
- Schattingstrategie: De auteurs maken gebruik van een neurale netwerkarchitectuur gebaseerd op TarNet om gelijktijdig de deconfounder en de conditionele uitvoerfunctie te schatten.
- Double Machine Learning (DML): Om asymptotisch geldige betrouwbaarheidsintervallen te verkrijgen, past de methode DML toe. Cruciaal is dat de propensity score wordt gemodelleerd als een functie van de geschatte deconfounder, en niet van de ruwe interne representatie. Dit voorkomt de schending van de overlap-aanname die zou optreden als de propensity score direct op de hoogdimensionele interne representatie zou worden gemodelleerd (waar het behandelkenmerk een deterministische functie is).
- Gepercipieerde Behandelingen: De methodologie wordt uitgebreid naar situaties waarin respondenten behandelkenmerken verschillend waarnemen via een instrumentele variabelen-benadering, waarbij het werkelijke behandelkenmerk dient als instrument voor het gepercipieerde kenmerk.

Belangrijkste Bijdragen

Gebruik van Ware Interne Representaties: In tegen tegenovergaan van eerdere werken die representaties uit data leren (bijv. via BERT-embeddings), extraheert GPI de ware vectorisatie van de representatie rechtstreeks uit open-source LLM's. Dit elimineert de noodzaak om causale representaties uit de data te leren, wat zowel de nauwkeurigheid als de computationele efficiëntie verbetert.
Formalisering van Scheidbaarheid: Het artikel stelt de "scheidbaarheidsaanname" formeel vast als een noodzakelijke voorwaarde voor niet-parametrische identificatie in deze context, waarbij het verband legt met het concept van ontwarring (disentanglement) en de overlap-aanname.
Diagnostische Instrumenten: De auteurs stellen diagnostische instrumenten voor, waaronder de analyse van de verdeling van de propensity scores en de Independence-of-Support Score (IOSS), om potentiële schendingen van de scheidbaarheidsaanname te detecteren.
Efficiënte Schatting: Door gebruik te maken van de interne representatie en een specifieke neurale netwerkarchitectuur, vermijdt de methode de "vloek van dimensionaliteit" en de schendingen van de overlap die veel voorkomen bij bestaande methoden voor het leren van causale representaties.

Resultaten
De auteurs evalueren GPI via simulatiestudies gebaseerd op het experiment met kandidaatprofielen (Fong en Grimmer, 2016) en een empirische toepassing met dezelfde dataset.

Simulatiestudies:
- Onder de scheidbaarheidsaanname vertoont GPI (met zowel nieuw gegenereerde teksten als teksthergebruik) aanzienlijk kleinere bias en een lagere root mean squared error (RMSE) vergeleken met state-of-the-art methoden (Outcome Model met BERT en DML met BERT).
- GPI handhaaft correcte 95% betrouwbaarheidsintervaldekking in scenario's met zwakke, matige en sterke verstoring. In contrast hiermee lijden BERT-gebaseerde methoden onder ernstige onderdekking of een breuk onder sterke verstoring.
- Computationele Efficiëntie: GPI is meer dan tien keer sneller dan BERT-gebaseerde estimators.
- Teksthergebruik: De "teksthergebruik"-benadering (het regenereren van bestaande teksten) levert een lagere variantie (RMSE) op dan het genereren van nieuwe teksten, waarschijnlijk door de consistentie van de interne representaties.
- Schending van Aannames: Wanneer de scheidbaarheidsaanname wordt geschonden (d.w.z. wanneer behandel- en verstorende kenmerken verstrengeld zijn), presteren alle methoden, inclusief GPI, slecht, wat het belang van de aanname benadrukt.
Empirische Toepassing:
- Toegepast op het experiment met kandidaatprofielen, schat GPI een positief en statistisch significant effect van een militaire achtergrond op de evaluaties van kiezers (ATE $\approx$ 4,85).
- Concurrerende BERT-gebaseerde methoden produceerden tegenstrijdige resultaten: één leverde een negatief significant effect op, en een andere een onredelijk groot positief effect (ATE $\approx$ 45,7), waarschijnlijk door schendingen van de overlap.
- De IOSS voor GPI was 0,10, wat duidt op een betere support-overlap vergeleken met de 0,41 voor de BERT-gebaseerde methoden.

Betekenis en Claims
Het artikel beweert dat GPI de validiteit van causale inferentie met ongestructureerde behandelingen aanzienlijk verbetert door gebruik te maken van de mogelijkheden van GenAI. De primaire betekenis ligt in het vermogen om:

Te ontwarren (disentangle) van behandelkenmerken en verstorende kenmerken met behulp van de ware interne representaties van LLM's.
Te voorkomen dat er causale representaties uit data geleerd moeten worden, waardoor schattingsfouten en computationele kosten worden verminderd.
Te formaliseren van de voorwaarden (scheidbaarheid) die vereist zijn voor geldige identificatie, waardoor een theoretische basis wordt geboden voor het gebruik van GenAI in causale inferentie.
Causale inferentie uit te breiden naar gepercipieerde behandelkenmerken via instrumentele variabelen.

De auteurs merken op dat hoewel de focus op tekst ligt, de methodologie ook toepasbaar is op afbeeldingen en potentieel video's, mits de interne representaties effectief beheerd kunnen worden. Zij benadrukken dat de methode rust op de beschikbaarheid van open-source LLM's die toegang bieden tot interne representaties en deterministische decodering.

Causal Inference with Generative Artificial Intelligence: Application to Texts as Treatments

De Magische Kopieermachine (De GenAI)

De "Deconfounder" (Het Filter)

Waarom dit beter is

De "Text Reuse" Twist

De Kern van het Verhaal

Meer zoals dit