Estimating Causal Effects of Text Interventions Leveraging LLMs

Dit paper introduceert CausalDANN, een nieuwe methode die grote taalmodellen en domeinadaptatie gebruikt om causale effecten van complexe tekstinterventies in sociale systemen te schatten, zelfs wanneer alleen waarnemingsdata beschikbaar is.

Siyi Guo, Myrl G. Marmarelis, Fred Morstatter, Kristina Lerman

Gepubliceerd 2026-03-17
📖 4 min leestijd☕ Koffiepauze-leesvoer

Each language version is independently generated for its own context, not a direct translation.

Het Grote Probleem: De "Wat-Zou-Het-Zijn" Vraag

Stel je voor dat je een sociaal experiment wilt doen op sociale media. Je wilt weten: "Als ik boosheid uit een bericht haal, krijgen mensen minder of meer reacties?"

In de echte wereld is dit bijna onmogelijk te testen. Je kunt niet zomaar duizenden mensen dwingen om hun berichten te herschrijven om te zien wat er gebeurt. Je hebt alleen maar de bestaande data: mensen die wel boos waren en mensen die niet boos waren.

Het probleem is dat er veel andere dingen spelen. Misschien zijn boze berichten van mensen die al bekend zijn, of over onderwerpen die van nature veel discussie oproepen. Het is als proberen te weten of een paraplu regen veroorzaakt, terwijl je alleen kijkt naar mensen die al nat zijn. Je ziet een verband, maar weet niet of de paraplu de oorzaak is of het gevolg.

De Oplossing: CAUSALDANN (De "Tijdmachine" voor Tekst)

De auteurs van dit paper, Siyi Guo en haar team, hebben een slimme manier bedacht om dit op te lossen zonder echte mensen te manipuleren. Ze noemen hun methode CAUSALDANN.

Je kunt je dit voorstellen als een tijdmachine voor teksten, aangedreven door een super-intelligente robot (een Large Language Model of LLM).

Hier is hoe het werkt, stap voor stap:

1. De Robot als "Tijdmaker" (LLM Interventie)

Stel je hebt een bericht: "Ik ben zo gefrustreerd dat dit product kapot is."
In plaats van te wachten tot iemand boos wordt, vraagt de robot (de LLM): "Herschrijf dit bericht zodat het nog bozer klinkt, maar houd alles anders precies hetzelfde."

De robot maakt een nieuwe versie: "Ik ben ontzettend gefrustreerd, dit verdomde product is volledig kapot!"

Nu hebben we twee versies van hetzelfde verhaal: de originele en de "boze" versie. De robot heeft de "behandeling" (boosheid) toegepast.

2. Het Ontbrekende Puzzelstukje

Hier zit de knoop: We weten wat er gebeurde met de originele berichten (bijvoorbeeld: ze kregen 10 likes). Maar we weten niet wat er zou zijn gebeurd met de "boze" versie, omdat die nooit echt online is gegaan. Die uitkomst is onzichtbaar.

In de oude methoden was dit een doodlopende weg. Als je de uitkomst niet ziet, kun je geen oorzaak vinden.

3. De Slimme Voorspeller (Domain Adaptation)

Hier komt CAUSALDANN om de hoek kijken. Het is als een slimme vertaler die twee verschillende werelden met elkaar verbindt.

  • De Oude Wereld: De originele berichten waar we de uitkomsten (likes) wel van kennen.
  • De Nieuwe Wereld: De "boze" berichten waar we de uitkomsten niet kennen.

De robot leert eerst op de "Oude Wereld". Vervolgens probeert hij te voorspellen wat er zou gebeuren in de "Nieuwe Wereld". Het probleem is dat deze twee werelden net anders "klinken" (de boze tekst is anders dan de normale tekst).

CAUSALDANN gebruikt een techniek die Domain Adaptation heet. Denk hierbij aan een talenkennis. Als je een tekst in het Nederlands leert, en je moet hem vertalen naar het Vlaams, moet je niet alleen de woorden kennen, maar ook de sfeer en de structuur begrijpen, zodat je niet vastloopt.

De methode leert de computer om de "boze" teksten te behandelen alsof ze net zo normaal zijn als de originele teksten. Het verwijdert de "accenten" die de boosheid veroorzaakt, zodat de computer eerlijk kan voorspellen: "Als dit boze bericht echt online was gegaan, had het waarschijnlijk 15 likes gekregen."

Waarom is dit zo belangrijk?

Vroeger konden onderzoekers alleen kijken naar simpele dingen, zoals "Ja/Nee" vragen. Maar taal is complex. Je kunt niet zomaar zeggen "dit bericht is boos" en "dit niet".

Deze nieuwe methode stelt ons in staat om:

  1. Elke willekeurige verandering te testen: Wil je weten of een vriendelijkere toon helpt? Of als je een woord verwijdert? De robot kan dit simuleren.
  2. Eerlijke vergelijkingen maken: Omdat de robot de tekst aanpast zonder de rest te veranderen, weten we dat het verschil in resultaat echt door de boosheid komt, en niet omdat het onderwerp anders was.
  3. Betere beslissingen nemen: Bedrijven en sociale media kunnen hierdoor beter begrijpen welke teksten mensen helpen of schaden, zonder dat ze duizenden mensen moeten manipuleren.

Samenvattend in één zin

De auteurs hebben een slimme manier bedacht om met een AI-robot "wat-zou-het-zijn" scenario's te simuleren voor teksten, en een speciale leer-methode (CAUSALDANN) die zorgt dat de voorspellingen over deze fictieve scenario's net zo betrouwbaar zijn als echte waarnemingen, zelfs als de tekst van aard verandert.

Het is alsof je een spiegel hebt die je laat zien wat er zou gebeuren als je je kleding omruilt, zonder dat je je echt hoeft te verkleed.

Verdrinkt u in papers in uw vakgebied?

Ontvang dagelijkse digests van de nieuwste papers die bij uw onderzoekswoorden passen — met technische samenvattingen, in uw taal.

Probeer Digest →