Towards Strategic Persuasion with Language Models

Each language version is independently generated for its own context, not a direct translation.

Titel: Hoe AI Leert Overtuigen zonder te Leugen: Een Simpele Uitleg

Stel je voor dat je een chef-kok bent (de 'Sender') en je wilt dat je gast (de 'Receiver') een gerecht proeft dat ze eerst niet wilden eten. Je kunt het eten niet forceren, en je kunt niet liegen over wat er in het gerecht zit. Maar je kunt wel beslissen hoe je het serveert. Serveer je alles in één grote stapel? Of geef je eerst een hapje, dan een verhaal, en pas later de saus?

Dit is precies waar dit wetenschappelijke artikel over gaat. Het onderzoekt hoe Grote Taalmodellen (LLMs), zoals de slimme AI's die we vandaag kennen, leren om mensen (of andere AI's) te overtuigen door slim te kiezen wat ze vertellen en wat ze even achterhouden.

Hier is de uitleg in simpele taal:

1. Het Probleem: Overtuigen is lastig

Mensen zijn moeilijk te overtuigen. Soms werkt reclame wel, soms niet. Soms verandert een politiek gesprek je mening, soms maakt het je alleen maar stugger. Omdat dit zo wisselend is, is het voor wetenschappers heel lastig om te meten: "Is deze AI nu echt goed in overtuigen, of heeft ze gewoon geluk?"

Tot nu toe keken we vaak alleen naar of mensen de AI-tekst 'mooi' vonden. Maar dat zegt niets over de strategie.

2. De Oplossing: Een Wiskundig Spelbord

De auteurs van dit artikel hebben een slim idee: ze gebruiken een oude wiskundige theorie uit de economie, genaamd Bayesiaanse Overtuiging.

De Analogie: Stel je voor dat je een magische kaart hebt die de waarheid toont, maar je mag niet alles tegelijk laten zien. Je wilt dat je tegenstander een bepaalde beslissing neemt.
- Als je alles laat zien, weet de tegenstander alles en neemt hij misschien een beslissing die jij niet wilt.
- Als je niets laat zien, denkt de tegenstander dat alles onzeker is en neemt hij ook een andere beslissing.
- De kunst is om precies de juiste stukjes informatie op het juiste moment te geven, zodat de tegenstander zelf denkt: "Oh, nu snap ik het! Ik ga dat doen wat jij wilt."

Dit is geen liegen. Het is strategisch delen van informatie.

3. Wat hebben ze gedaan?

De onderzoekers hebben een virtueel laboratorium gebouwd.

Ze hebben oude datasets van menselijke debatten (zoals van Reddit of debat-website's) gebruikt.
Ze hebben twee AI's tegen elkaar gezet:
1. De Sender (De Overtuiger): Moet proberen de ander te bewegen om een bepaald standpunt in te nemen.
2. De Receiver (De Luisteraar): Moet een beslissing nemen op basis van wat de Sender zegt.

Ze lieten verschillende AI-modellen (van klein tot heel groot, zoals GPT-4o en DeepSeek-R1) dit spel spelen.

4. De Resultaten: Slimme AI's zijn echte Strategen

Wat ontdekten ze?

Grote modellen zijn slim: De grootste en slimste AI's (zoals DeepSeek-R1) waren uitstekend in dit spel. Ze wisten precies hoeveel informatie ze moesten geven om de 'Receiver' te overtuigen. Ze deden dit niet door te liegen, maar door slim te timen.
Dynamiek is key: In een gesprek van één zin was het lastig. Maar in een lang gesprek (meerdere rondes) werden de AI's veel beter. Ze leerden om eerst een vraag te stellen, dan een beetje info te geven, en pas later het grote argument te brengen. Dit is precies wat de wiskundige theorie voorspelde!
Kleine modellen kunnen leren: Dit is misschien wel het coolste deel. Ze namen een kleine, minder slimme AI en trainden hem met een techniek genaamd Versterkend Leren (Reinforcement Learning).
- Vergelijking: Stel je voor dat je een pup traint. Als hij goed doet, krijgt hij een snoepje (beloning). Als hij slecht doet, geen snoepje.
- Na duizenden 'snoepjes' (trainingen) werd deze kleine AI plotseling net zo goed in overtuigen als de enorme, dure modellen. Ze leerden de strategieën van de wiskunde gewoon door te oefenen.

5. Waarom is dit belangrijk?

Dit onderzoek is een tweesnijdend zwaard:

Het goede nieuws: We kunnen AI's gebruiken om mensen te helpen betere beslissingen te nemen. Bijvoorbeeld: een AI die je overtuigt om je huisdier te laten vaccineren, of om gezonder te eten, door de juiste feiten op het juiste moment te geven.
Het risico: Dezelfde technologie kan gebruikt worden om mensen te manipuleren in verkiezingen of om je iets te laten kopen dat je niet nodig hebt.

Conclusie

Deze paper laat zien dat AI's niet alleen kunnen praten, maar ook kunnen strategiseren. Ze kunnen leren hoe ze informatie moeten 'verpakken' om een doel te bereiken, precies zoals een slimme onderhandelaar.

De boodschap is duidelijk: AI wordt steeds beter in het begrijpen van de menselijke geest en hoe we beslissingen nemen. Het is aan ons om te zorgen dat deze kracht wordt gebruikt om mensen te helpen, en niet om hen te bedriegen. Het is als het geven van een superkracht aan een kind: we moeten zorgen dat het kind leert hoe het die krachten verantwoord gebruikt.

Each language version is independently generated for its own context, not a direct translation.

Hier is een gedetailleerde technische samenvatting van het paper "Towards Strategic Persuasion with Language Models", gepubliceerd op ICLR 2026, in het Nederlands.

Probleemstelling

Grote Taalmodellen (LLMs) hebben aangetoond dat ze over overtuigingskracht beschikken die vergelijkbaar is met die van mensen, wat zowel grote kansen als aanzienlijke maatschappelijke risico's met zich meebrengt. Echter, het systematisch evalueren en trainen van deze overtuigingskracht is inherent uitdagend:

Heterogeniteit: De effectiviteit van overtuiging varieert sterk tussen verschillende domeinen (bijv. marketing, politiek, gezondheid) en contexten.
Gebrek aan theoretische onderbouwing: Bestaande evaluaties vertrouwen vaak op subjectieve menselijke beoordelingen of ad-hoc metrics zonder een conceptueel helder raamwerk.
Schalingsproblemen: Het ontwikkelen van schaalbare methoden om de overtuigingskracht van LLMs te verbeteren, is moeilijk omdat menselijke evaluaties duur en subjectief zijn.

De auteurs stellen dat er een behoefte is aan een theoriegedreven, schaalbaar en principieel raamwerk om strategische overtuiging door LLMs te bestuderen, evalueren en trainen.

Methodologie

Het paper introduceert een raamwerk gebaseerd op Bayesiaanse Overtuiging (Bayesian Persuasion), een theorie uit de speltheorie die overtuiging modelleert als strategische informatieverstrekking.

1. Theoretisch Kader: Bayesiaanse Overtuiging

Actoren: Een Zender (Sender, de LLM die overtuigt) en een Ontvanger (Receiver, de LLM die beslist).
Doel: De Zender wil de acties van de Ontvanger beïnvloeden door strategisch informatie te onthullen over de toestand van de wereld ( $\omega$ ), zonder te liegen (de Zender heeft commit-power).
Mechanisme: De Zender kiest een signaleringsplan ( $\pi$ ) dat bepaalt welke signalen ( $s$ ) worden gestuurd op basis van de ware toestand. De Ontvanger update zijn/haar geloof (belief) volgens de Bayes-regel en kiest een actie die zijn/haar verwachte nut maximaliseert.
Optimalisatie: De Zender maximaliseert het verwachte nut door een Bayes-plausibele verdeling van achteraf-geloofsovertuigingen te kiezen die de "concave sluiting" van de nutfunctie maximaliseert. Dit leidt vaak tot gecontroleerde partiële transparantie in plaats van volledige openheid of volledige verborgenheid.

2. Benchmark Constructie

Om dit theoretische kader te operationaliseren, repurposed de auteurs bestaande mens-mens overtuigingsdatasets (Anthropic, DDO, Perspectrum, CMV) naar gecontroleerde multi-agent interacties:

Taak: De Zender probeert de standpunt van de Ontvanger te verschuiven naar een specifieke claim (van "sterk tegen" naar "sterk voor").
Omgeving: Zowel Zender als Ontvanger worden geïmplementeerd als LLMs. De Ontvanger fungeert als een proxy voor een rationele Bayesiaanse agent.
Validatie: Een menselijke studie met 45 deelnemers bevestigde dat de door LLMs gegenereerde geloofsupdates redelijk en consistent zijn met rationeel gedrag.
Metrieken:
- Overtuigingswinst (Persuasion Gains): Het verschil in verwachte nut voor de Zender tussen de initiële prior en de finale achteraf-geloofsovertuiging.
- Informatiedynamiek: Conditional mutual information ( $I(m_t; \omega_t | H_{t-1})$ ) om te meten hoe strategisch informatie wordt onthuld in dynamische (multi-round) settingen.

3. Training met Versterkingslering (Reinforcement Learning)

Om de overtuigingskracht te verbeteren, trainen de auteurs Zender-LLMs met Reinforcement Learning (RL):

Setup: De Zender (policy $\pi_\theta$ ) genereert berichten, de Ontvanger (fixed policy $\rho$ ) reageert met een actie.
Reward: De beloning is direct gekoppeld aan de overtuigingswinst: $r = v(a, \omega) - \hat{v}(\mu_0)$ . Positieve beloningen worden gegeven als de Zender de Ontvanger naar een gunstigere actie kan sturen dan de prior zou voorspellen.
Algoritmes: Er worden PPO (Proximal Policy Optimization) en GRPO (Group Relative Policy Optimization) gebruikt om kleine modellen (bijv. Llama-3.2-3B) te trainen.

Belangrijkste Resultaten

Prestaties van Frontier Modellen:
- State-of-the-art modellen (zoals DeepSeek-R1, Claude 3.7 Sonnet, GPT-4o) behalen aanzienlijk hogere overtuigingswinsten dan kleinere modellen.
- Dynamisch vs. Statistisch: De prestatieverschillen zijn veel groter in dynamische (multi-round) settingen dan in statische (single-round) settingen. DeepSeek-R1 behaalde een gemiddelde winst van 1.27 punten op een 7-puntsschaal in dynamische settingen, wat aantoont dat adaptieve strategieën cruciaal zijn.
- Modellen tonen geavanceerde strategieën die overeenkomen met theoretische voorspellingen, zoals het aanpassen van informatieopenbaarmaking op basis van de huidige geloofsovertuiging van de Ontvanger.
Effectiviteit van Reinforcement Learning:
- Kleine modellen (Llama-3.2-3B) die getraind zijn met RL, behalen significant hogere overtuigingswinsten dan hun onge-trainde tegenhangers.
- De getrainde kleine modellen kunnen prestaties bereiken die vergelijkbaar zijn met veel grotere, onge-trainde modellen.
- Generalisatie: De verbetering is robuust; modellen getraind tegen één type Ontvanger (Llama-3.1-8B) presteren ook beter tegen andere architecturen (Mistral, Qwen), wat suggereert dat ze echte principes van informatiedesign hebben geleerd in plaats van alleen de specifieke Ontvanger te "exploiteren".
Analyse van Strategieën:
- Grotere modellen tonen een afname in semantische gelijkenis tussen berichten naarmate de interactie vordert, wat wijst op adaptieve en gediversifieerde signaleringsstrategieën.
- De meest gebruikte strategieën zijn evidence (bewijs), credibility (geloofwaardigheid) en impact (impact), wat aantoont dat LLMs voornamelijk informatiestrategieën gebruiken.
- Overtuiging is het meest effectief wanneer de initiële geloofsovertuiging van de Ontvanger gemiddeld is (niet te extreem), wat overeenkomt met de theorie van Bayesiaanse overtuiging.

Bijdragen

Theoriegedreven Raamwerk: Introductie van een principieel raamwerk voor het meten van de overtuigingskracht van LLMs, gebaseerd op Bayesiaanse overtuigingstheorie.
Schaalbare Benchmark: Creëren van een schaalbare evaluatie- en trainingsomgeving door mens-mens datasets om te vormen tot gecontroleerde multi-agent interacties.
Empirische Validatie: Aantonen dat frontier-modellen ingewikkelde strategische overtuigingscapaciteiten bezitten en dat Reinforcement Learning deze capaciteiten aanzienlijk kan verbeteren, zelfs voor kleine modellen.

Significantie en Implicaties

Dit werk is een belangrijke stap naar een wetenschappelijk begrip van strategisch gedrag in LLMs.

Voor Onderzoek: Het biedt een gestandaardiseerde, theoretisch onderbouwde methode om overtuigingskracht te evalueren, wat de huidige fragmentatie in het veld oplost.
Voor Toepassing: Het toont aan dat LLMs effectief kunnen worden getraind om complexe informatiestrategieën te hanteren. Dit heeft implicaties voor toepassingen in gezondheidszorg (vaccinatiecampagnes), marketing en politieke communicatie.
Voor Veiligheid: Het benadrukt het dual-use risico. Omdat zelfs kleine modellen na training effectieve overtuigingsstrategieën kunnen leren, is er een dringende behoefte aan governance, alignering en toezicht op de inzet van zulke systemen.

Het paper concludeert dat strategische overtuiging niet alleen een functie is van modelgrootte, maar ook van interactiestructuur en trainingsmethodieken, en dat RL een krachtig instrument is om deze vaardigheden te optimaliseren.