Influencing LLM Multi-Agent Dialogue via Policy-Parameterized Prompts

Dit paper introduceert een lichtgewicht, trainingsvrij framework dat prompts als geparameteriseerde acties behandelt om het gedrag van LLM-multi-agenten in dialogen te sturen via dynamisch gegenereerde prompt-componenten, wat effectief bleek in het beïnvloeden van dialoogdynamiek voor sociale simulaties.

Hongbo Bo, Jingyu Hu, Weiru Liu

Gepubliceerd Wed, 11 Ma
📖 5 min leestijd🧠 Diepgaand

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een groep vrienden hebt die een gesprek voeren over een lastig onderwerp, zoals "Moeten we meer wandeltoestellen in het bos toestaan?" of "Hoe verdelen we het onderwijsbudget eerlijk?".

In de wereld van kunstmatige intelligentie (AI) zijn er nu slimme computers die als deze vrienden kunnen fungeren. Ze heten LLM's (Large Language Models). Vaak laten onderzoekers deze AI's gewoon praten met elkaar, maar dan is het gesprek vaak wat willekeurig. Het is alsof je een groep mensen in een kamer zet en hoopt dat ze een goed gesprek hebben, zonder hen te vertellen hoe ze zich moeten gedragen.

De auteurs van dit paper, Hongbo Bo en zijn collega's, zeggen: "Wacht even, we kunnen dit gesprek veel beter sturen zonder de AI's opnieuw te hoeven leren."

Hier is hoe hun idee werkt, vertaald naar simpele taal:

1. De AI als een acteur met een script

Stel je voor dat elke AI-agent een acteur is op een toneelstuk. Normaal gesproken krijgen ze een heel lang, complex script dat ze uit hun hoofd moeten leren (dit heet trainen). Dat kost veel tijd en energie.

De auteurs zeggen: "Nee, laten we het script niet veranderen, maar laten we de regisseur veranderen."

Ze behandelen de prompt (de instructie die je aan de AI geeft) als een actie. Het is alsof je de regisseur een knop geeft om te zeggen: "Acteur, wees nu iets agressiever" of "Acteur, gebruik meer feiten".

2. De "Regie-knoppen" (De 5 onderdelen)

Ze hebben een slim systeem bedacht om deze instructies te sturen. Ze noemen dit policy-parameterized prompts. Dat klinkt ingewikkeld, maar het is eigenlijk gewoon een recept met vijf ingrediënten die je kunt aanpassen:

  1. De Rol (T): Wie is de acteur? (Bijv. "Je bent een boer die bezorgd is om zijn land").
  2. Het Geheugen (M): Wat is er eerder gezegd? (De AI kijkt terug naar het gesprek).
  3. De Feiten (D): Wat staat er in de boeken? (De AI haalt echte informatie op).
  4. De Regels (R): Hoe moet het gesprek eruit zien? (Bijv. "Gebruik altijd eerst een feit" of "Wees kort en krachtig").
  5. De Gewichtsknoppen (W): Dit is het meest creatieve deel. Stel je voor dat je een geluidsmixer hebt met drie knoppen: Rol, Geheugen en Feiten.
    • Draai je de knop Feiten hard op? Dan zal de AI veel met cijfers en bewijzen komen.
    • Draai je de knop Rol hard op? Dan blijft de AI strikt bij zijn karakter (bijv. de boer blijft boer en geeft niet toe).
    • Draai je de knop Geheugen hard op? Dan reageert de AI heel goed op wat de ander net heeft gezegd.

3. De "Slimme Regisseur"

Het mooiste is dat deze regisseur niet stilstaat. Het systeem kan de knoppen automatisch aanpassen terwijl het gesprek doorgaat.

  • Voorbeeld: Aan het begin van het gesprek draait de regisseur de "Feiten-knop" hard op, zodat iedereen zijn standpunt duidelijk maakt met bewijzen. Naarmate het gesprek vordert, draait hij de "Geheugen-knop" harder, zodat de AI's echt op elkaars antwoorden reageren in plaats van steeds maar weer nieuwe feiten te gooien.

4. Wat hebben ze ontdekt?

Ze hebben dit getest met verschillende AI's in twee scenario's: landbouw en onderwijs. Ze keken naar vijf dingen:

  • Reageert de AI? (Luistert hij wel?)
  • Weerlegt hij? (Gaat hij in discussie?)
  • Gebruikt hij feiten? (Haalt hij uit zijn "boek"?)
  • Herhaalt hij niet? (Is hij creatief?)
  • Verandert zijn mening? (Blijft hij bij zijn standpunt?)

De resultaten waren verrassend:

  • Als je de AI's geen regels gaf, was het gesprek vaak saai of herhaalden ze zich.
  • Als je lichte regels gaf (bijv. "Gebruik 1 of 2 feiten"), werden de AI's veel beter in het gebruiken van bewijs.
  • Als je strikte regels gaf (bijv. "Eerst feiten, dan mening"), werd het gesprek heel gestructureerd, maar soms minder natuurlijk.
  • Belangrijk: Door alleen de "knoppen" (de prompt) te draaien, konden ze het gedrag van de AI's volledig sturen zonder de AI's zelf opnieuw te hoeven trainen.

Waarom is dit belangrijk?

Vroeger moest je een AI "opleiden" (zoals een hond) om hem te laten doen wat je wilt. Dat kostte maanden.
Met deze methode is het alsof je een puppetmaster bent. Je hoeft de poppen niet te veranderen; je verandert alleen de touwtjes. Je kunt in seconde een AI van een "vriendelijke buurman" veranderen in een "strikte advocaat" door simpelweg de instructies (de prompt) aan te passen.

Dit maakt het mogelijk om sociale simulaties te doen. Denk aan het simuleren van een verkiezingsdebat, een vergadering in een bedrijf, of hoe mensen reageren op een nieuw beleid. Je kunt precies zien wat er gebeurt als je de "regels" van de samenleving iets aanpast, zonder dat je miljoenen mensen hoeft te interviewen.

Kortom: De auteurs hebben een manier gevonden om AI-gesprekken te sturen met een slim "afstandsbediening" (de prompt), zodat we beter kunnen begrijpen hoe groepen mensen (of robots) met elkaar omgaan.