Influencing LLM Multi-Agent Dialogue via Policy-Parameterized Prompts

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een groep vrienden hebt die een gesprek voeren over een lastig onderwerp, zoals "Moeten we meer wandeltoestellen in het bos toestaan?" of "Hoe verdelen we het onderwijsbudget eerlijk?".

In de wereld van kunstmatige intelligentie (AI) zijn er nu slimme computers die als deze vrienden kunnen fungeren. Ze heten LLM's (Large Language Models). Vaak laten onderzoekers deze AI's gewoon praten met elkaar, maar dan is het gesprek vaak wat willekeurig. Het is alsof je een groep mensen in een kamer zet en hoopt dat ze een goed gesprek hebben, zonder hen te vertellen hoe ze zich moeten gedragen.

De auteurs van dit paper, Hongbo Bo en zijn collega's, zeggen: "Wacht even, we kunnen dit gesprek veel beter sturen zonder de AI's opnieuw te hoeven leren."

Hier is hoe hun idee werkt, vertaald naar simpele taal:

1. De AI als een acteur met een script

Stel je voor dat elke AI-agent een acteur is op een toneelstuk. Normaal gesproken krijgen ze een heel lang, complex script dat ze uit hun hoofd moeten leren (dit heet trainen). Dat kost veel tijd en energie.

De auteurs zeggen: "Nee, laten we het script niet veranderen, maar laten we de regisseur veranderen."

Ze behandelen de prompt (de instructie die je aan de AI geeft) als een actie. Het is alsof je de regisseur een knop geeft om te zeggen: "Acteur, wees nu iets agressiever" of "Acteur, gebruik meer feiten".

2. De "Regie-knoppen" (De 5 onderdelen)

Ze hebben een slim systeem bedacht om deze instructies te sturen. Ze noemen dit policy-parameterized prompts. Dat klinkt ingewikkeld, maar het is eigenlijk gewoon een recept met vijf ingrediënten die je kunt aanpassen:

De Rol (T): Wie is de acteur? (Bijv. "Je bent een boer die bezorgd is om zijn land").
Het Geheugen (M): Wat is er eerder gezegd? (De AI kijkt terug naar het gesprek).
De Feiten (D): Wat staat er in de boeken? (De AI haalt echte informatie op).
De Regels (R): Hoe moet het gesprek eruit zien? (Bijv. "Gebruik altijd eerst een feit" of "Wees kort en krachtig").
De Gewichtsknoppen (W): Dit is het meest creatieve deel. Stel je voor dat je een geluidsmixer hebt met drie knoppen: Rol, Geheugen en Feiten.
- Draai je de knop Feiten hard op? Dan zal de AI veel met cijfers en bewijzen komen.
- Draai je de knop Rol hard op? Dan blijft de AI strikt bij zijn karakter (bijv. de boer blijft boer en geeft niet toe).
- Draai je de knop Geheugen hard op? Dan reageert de AI heel goed op wat de ander net heeft gezegd.

3. De "Slimme Regisseur"

Het mooiste is dat deze regisseur niet stilstaat. Het systeem kan de knoppen automatisch aanpassen terwijl het gesprek doorgaat.

Voorbeeld: Aan het begin van het gesprek draait de regisseur de "Feiten-knop" hard op, zodat iedereen zijn standpunt duidelijk maakt met bewijzen. Naarmate het gesprek vordert, draait hij de "Geheugen-knop" harder, zodat de AI's echt op elkaars antwoorden reageren in plaats van steeds maar weer nieuwe feiten te gooien.

4. Wat hebben ze ontdekt?

Ze hebben dit getest met verschillende AI's in twee scenario's: landbouw en onderwijs. Ze keken naar vijf dingen:

Reageert de AI? (Luistert hij wel?)
Weerlegt hij? (Gaat hij in discussie?)
Gebruikt hij feiten? (Haalt hij uit zijn "boek"?)
Herhaalt hij niet? (Is hij creatief?)
Verandert zijn mening? (Blijft hij bij zijn standpunt?)

De resultaten waren verrassend:

Als je de AI's geen regels gaf, was het gesprek vaak saai of herhaalden ze zich.
Als je lichte regels gaf (bijv. "Gebruik 1 of 2 feiten"), werden de AI's veel beter in het gebruiken van bewijs.
Als je strikte regels gaf (bijv. "Eerst feiten, dan mening"), werd het gesprek heel gestructureerd, maar soms minder natuurlijk.
Belangrijk: Door alleen de "knoppen" (de prompt) te draaien, konden ze het gedrag van de AI's volledig sturen zonder de AI's zelf opnieuw te hoeven trainen.

Waarom is dit belangrijk?

Vroeger moest je een AI "opleiden" (zoals een hond) om hem te laten doen wat je wilt. Dat kostte maanden.
Met deze methode is het alsof je een puppetmaster bent. Je hoeft de poppen niet te veranderen; je verandert alleen de touwtjes. Je kunt in seconde een AI van een "vriendelijke buurman" veranderen in een "strikte advocaat" door simpelweg de instructies (de prompt) aan te passen.

Dit maakt het mogelijk om sociale simulaties te doen. Denk aan het simuleren van een verkiezingsdebat, een vergadering in een bedrijf, of hoe mensen reageren op een nieuw beleid. Je kunt precies zien wat er gebeurt als je de "regels" van de samenleving iets aanpast, zonder dat je miljoenen mensen hoeft te interviewen.

Kortom: De auteurs hebben een manier gevonden om AI-gesprekken te sturen met een slim "afstandsbediening" (de prompt), zodat we beter kunnen begrijpen hoe groepen mensen (of robots) met elkaar omgaan.

Each language version is independently generated for its own context, not a direct translation.

Hier is een gedetailleerde technische samenvatting van het artikel "Influencing LLM Multi-Agent Dialogue via Policy-Parameterized Prompts", geschreven in het Nederlands.

Probleemstelling

Bestaand onderzoek naar multi-agent systemen (MAS) gebaseerd op Large Language Models (LLM's) vertrouwt vaak op ad hoc prompts om agenten te laten communiceren. Hoewel deze systemen succesvol zijn in het simuleren van sociale interacties, ontbreekt er een gestructureerd, principieel kader om communicatiestrategieën te behandelen als beleidsregels (policies). Zonder een dergelijk kader is het moeilijk om het gedrag van agenten systematisch te controleren, te optimaliseren of te voorspellen. Traditionele methoden zoals versterkingsleren (RL) vereisen vaak intensief training, wat niet altijd wenselijk of haalbaar is voor LLM's die al over ingebouwde taalvaardigheden beschikken. De auteurs stellen de vraag of prompt-ontwerp zelf kan worden geformaliseerd als een "lichtgewicht beleid" om dialooggedrag te sturen zonder extra training.

Methodologie

De auteurs introduceren een raamwerk waarin de prompt wordt behandeld als een actie die wordt gegenereerd door een geparametriseerd beleid. In plaats van de LLM zelf te trainen, worden de instructies (de prompt) dynamisch aangepast op basis van de huidige staat van de agent.

1. Formele Definitie:
Het multi-agent gesprek wordt gemodelleerd als een proces van staat-actie. Voor elke ronde $k$ heeft agent $A_i$ een staat $s_i^{(k)}$ die bestaat uit:

T (Task & Persona): Taakbeschrijving en rol.
M (Memory): Geschiedenis van de dialoog.
D (Knowledge Base): Externe kennis (via RAG - Retrieval-Augmented Generation).
Q (Query): Het globale discussieonderwerp.

Het beleid $\pi_i$ mapt deze staat naar een geconstrueerde prompt (de actie $a_i^{(k)}$ ).

2. Componenten van het Beleid:
De prompt wordt samengesteld uit vijf componenten:

Regeltemplates (R): Drie niveaus van structuur:
- None: Geen expliciete structuur.
- Light: Basisvolgorde en lengtebeperkingen.
- Struct: Gedetailleerde redeneerstructuur (bijv. eerst argumenten extraheren, dan antwoorden).
Gewichten (W): Een vector $W = \{w_T, w_M, w_D\}$ die bepaalt hoe sterk de agent zich baseert op respectievelijk de rol, het geheugen of de externe kennis. Deze gewichten worden gemapt naar drie niveaus (laag, midden, hoog) die specifieke instructies activeren (bijv. bij "hoog" voor $w_D$ : "lever concreet bewijs").
Adaptieve Gewichten: Een scheduler die de gewichten dynamisch aanpast op basis van:
- Tijdsafhankelijkheid: Meer reliance op kennis (D) in vroege rondes, meer op dialooggeschiedenis (M) later.
- Gedragscorrectie: Als een agent in de vorige ronde geen bewijs gebruikte, wordt het gewicht voor D verhoogd.

3. Evaluatiemetrics:
De effectiviteit wordt gemeten aan de hand van vijf indicatoren:

Responsiveness: Reageert de agent op de meest recente uiting?
Rebuttal: Weersprekt de agent de tegenpartij expliciet?
Non-repetition: Hoeveel nieuwheid is er in de uiting ten opzichte van eerdere uitingen?
Evidence Usage: Wordt er gebruikgemaakt van de externe kennisbronnen?
Stance Shift: Verandert de houding van de agent ten opzichte van zijn oorspronkelijke persona?

Belangrijkste Bijdragen

Prompt-as-Action Paradigma: Het conceptualiseren van prompts als uitvoerbare acties binnen een beleidskader, wat een brug slaat tussen traditionele RL-methoden en LLM-agenten zonder training.
Geparametriseerde Controle: Het introduceren van een lichtgewicht mechanisme (regels en gewichten) om dialoogdynamiek te sturen. Dit maakt het mogelijk om gedrag te moduleren (bijv. meer conflict of meer samenwerking) door simpelweg de prompt-parameters aan te passen.
Adaptief Beleid: Een systeem dat automatisch de focus van de agent aanpast tijdens de dialoog op basis van tijdsverloop en eerdere prestaties.
Empirisch Bewijs: Uitgebreide experimenten in twee scenario's (Landgebruik en Educatie) met verschillende LLM-achtergronden (Qwen, Llama, Mistral) die aantonen dat deze methode effectief is.

Resultaten

De experimenten leverden de volgende inzichten op:

Invloed van Regels: Het gebruik van gestructureerde regels (Struct) verhoogt significant de non-repetition (minder herhaling), terwijl Light-regels de evidence usage stimuleren. None (geen regels) leidt tot de meest vloeiende maar soms minder gestructureerde dialogen.
Gewichtssensitiviteit:
- Een hoger gewicht op de Persona (T) leidt tot meer weerleggingen (rebuttal) en een stabielere houding (stance).
- Er is een kruiseffect tussen regels en gewichten: bij lage gewichten voor kennis (D) kunnen sterke regels nog steeds bewijsgebruik afdwingen.
Adaptieve Weergave: Adaptieve gewichten veranderen de dynamiek van de dialoog over de tijd (bijv. minder bewijsgebruik in latere rondes als het gewicht daarvoor daalt), maar veranderen de gemiddelde prestaties niet drastisch. Ze bieden echter meer controle over de evolutie van het gesprek.
LLM Diversiteit: Systemen met een heterogene mix van LLM's (verschillende modellen voor verschillende agenten) presteren beter in termen van responsiviteit en interactie dan systemen met één homogeen model.
Ablatie-studie: De componenten $T$ (rol), $M$ (geheugen) en $D$ (kennis) hebben unieke bijdragen. $T$ is cruciaal voor consistentie en conflict, $D$ voor onderbouwde argumenten, en $M$ zorgt voor context maar kan leiden tot herhaling.

Betekenis en Toekomstperspectief

De studie toont aan dat het mogelijk is om LLM-based multi-agent systemen te sturen via een interpreteerbaar en meetbaar beleidskader zonder de onderliggende modellen te finetunen. Dit biedt een nieuwe route voor sociale simulatie, waarbij onderzoekers specifieke sociale dynamieken (zoals polarisatie, samenwerking of consensusvorming) kunnen "programmeren" via prompt-parameters.

Dit raamwerk maakt sociale experimenten controllable, schaalbaar en theoretisch onderbouwd. Het stelt onderzoekers in staat om complexe maatschappelijke scenario's te simuleren waarbij agenten niet alleen reageren op input, maar hun gedrag strategisch aanpassen op basis van ingestelde beleidsdoelstellingen. Dit is een belangrijke stap richting het creëren van robuuste en voorspelbare multi-agent systemen voor toepassingen in beleidsonderzoek, onderhandelingstraining en sociaal wetenschappelijk onderzoek.

Influencing LLM Multi-Agent Dialogue via Policy-Parameterized Prompts

1. De AI als een acteur met een script

2. De "Regie-knoppen" (De 5 onderdelen)

3. De "Slimme Regisseur"

4. Wat hebben ze ontdekt?

Waarom is dit belangrijk?

Probleemstelling

Methodologie

Belangrijkste Bijdragen

Resultaten

Betekenis en Toekomstperspectief

Meer zoals dit

MASEval: Extending Multi-Agent Evaluation from Models to Systems

LDP: An Identity-Aware Protocol for Multi-Agent LLM Systems

Quantifying the Accuracy and Cost Impact of Design Decisions in Budget-Constrained Agentic LLM Search

Interpretable Markov-Based Spatiotemporal Risk Surfaces for Missing-Child Search Planning with Reinforcement Learning and LLM-Based Quality Assurance

AgentOS: From Application Silos to a Natural Language-Driven Data Ecosystem