Aligning Large Language Model Agents with Rational and Moral Preferences: A Supervised Fine-Tuning Approach

Dit artikel introduceert een gesuperviseerde fine-tuning-methode die grote taalmodelagenten in strategische omgevingen uitlijnt met expliciete economische voorkeuren, variërend van puur eigenbelang tot morele universaliteit, door middel van synthetische datasets die op theoretische optima zijn gebaseerd.

Wei Lu, Amit Dhanda, Daniel L. Chen, Christian B. Hansen

Gepubliceerd 2026-03-16
📖 5 min leestijd🧠 Diepgaand

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een team van digitale werknemers hebt: slimme kunstmatige intelligenties (AI) die niet alleen e-mails beantwoorden, maar ook zelfstandig onderhandelen over prijzen, investeringen doen of zelfs beslissingen nemen over leven en dood in zelfrijdende auto's.

Deze studie, getiteld "Het in lijn brengen van AI-agenten met rationele en morele voorkeuren", onderzoekt wat er gebeurt als we deze digitale werknemers zomaar loslaten in de echte wereld, en hoe we ze kunnen 'opvoeden' om zich te gedragen zoals we willen.

Hier is de uitleg in simpele taal, met een paar creatieve vergelijkingen:

1. Het Probleem: De "Te Behulpzame" Robot

De onderzoekers ontdekten dat de standaard AI's (zoals de huidige versies van GPT-4) in economische spelletjes zich vaak vreemd gedragen.

  • De vergelijking: Stel je voor dat je een robot hebt die zo'n beetje alles wil doen om niet te ruziën. In een spelletje waar je moet kiezen tussen samenwerken of bedriegen (het beroemde Gevangendilemma), kiezen deze robots bijna altijd voor samenwerken. Ze zijn te aardig. Ze reageren ook niet goed op beloningen of straffen; alsof ze de regels van het spel niet echt begrijpen, maar gewoon "mooi" doen.
  • Het risico: Als zo'n robot een prijs voor een product moet bepalen, kan hij per ongeluk te hoog prijzen (omdat hij denkt dat dat "mooi" is) of juist te laag, wat de markt verstoort.

2. De Oplossing: Een Nieuw "Opvoedplan"

In plaats van de robot alleen maar te vertellen wat hij moet doen (wat vaak faalt), hebben de onderzoekers een nieuwe methode bedacht: Supervised Fine-Tuning.

  • De vergelijking: Stel je voor dat je een kind wilt leren rijden. Je kunt het kind alleen maar vertellen: "Rijd voorzichtig!" (dat is prompt engineering). Maar dat werkt niet altijd. Beter is om het kind te laten oefenen met een instructeur die precies laat zien hoe je remt en sturen moet in verschillende situaties.
  • Wat deden ze? Ze creëerden een klein, speciaal trainingspakket. Ze maakten duizenden voorbeelden van economische spelletjes en berekenden vooraf precies wat de "perfecte" keuze zou zijn voor twee soorten personages:
    1. De Rationele Egoïst (Homo Economicus): Een robot die alleen naar zijn eigen portemonnee kijkt en slimme keuzes maakt om winst te maken.
    2. De Morele Burger (Homo Moralis): Een robot die ook naar de groep kijkt. Hij vraagt zich af: "Wat als iedereen dit deed?" (een idee van de filosoof Kant). Hij wil doen wat "goed" is voor iedereen, niet alleen voor zichzelf.

Ze hebben de AI getraind op deze voorbeelden. Het resultaat? De AI's hebben nu een soort "inwendig kompas" dat past bij hun rol.

3. De Test: Hoe gedragen ze zich in de echte wereld?

De onderzoekers testten de getrainde AI's in twee moeilijke situaties die ze niet tijdens de training hadden gezien.

A. De Zelfrijdende Auto (Het Morele Dilemma)

Stel je een zelfrijdende auto voor die moet kiezen: ofwel de inzittende redden en 10 voetgangers laten sterven, ofwel de inzittende opofferen om de 10 voetgangers te redden.

  • De standaard AI: Gedraagt zich alsof hij een heilige is. Hij kiest altijd voor het redden van de meeste mensen, zelfs als hij zelf in de auto zit. Hij is te voorspelbaar en niet realistisch.
  • De Rationele AI: Gedraagt zich als een slimme mens. Hij zegt: "Ja, moreel gezien is het redden van 10 mensen beter. Maar als mijn familie in de auto zit? Dan koop ik liever een auto die mij beschermt." Hij past zijn keuze aan aan de situatie.
  • De Morele AI: Gedraagt zich als een consequente idealist. Hij zegt: "Het is mijn plicht om de meeste mensen te redden, of ik nu in de auto zit of niet." Hij is consistent, ongeacht wie er in de auto zit.

B. Prijsbepaling (De Oorlog van de Winkels)

Stel je twee concurrenten voor die prijzen moeten bepalen.

  • De standaard AI: Wordt vaak te snel "samenwerkend" en zet prijzen te hoog (een vorm van stille samenzwering of collusie), wat slecht is voor de consument.
  • De Rationele AI: Gedraagt zich als een scherpe concurrent. Als de markt vraagt om lage prijzen, verlaagt hij zijn prijs direct om de concurrent te verslaan. Hij is snel en strategisch.
  • De Morele AI: Gedraagt zich als een stabiele speler. Hij verandert zijn prijs niet zo snel en blijft dicht bij een eerlijke marktprijs. Hij is minder gevoelig voor druk om te samenzweren of te agressief te zijn.

4. Waarom is dit belangrijk?

Deze studie laat zien dat we AI niet zomaar kunnen loslaten. We moeten bewust kiezen wat voor soort "persoonlijkheid" we in de machine stoppen.

  • Als je een AI wilt die winstmaximalisatie nastreeft voor een bedrijf, train je hem als een Rationele Egoïst.
  • Als je een AI wilt die ethisch verantwoord handelt in een crisis, train je hem als een Morele Burger.

De grote les: Het is niet genoeg om te zeggen "wees slim". Je moet de AI specifiek trainen op de waarden die je wilt zien. Net zoals je een kind niet alleen vertelt "wees aardig", maar hem leert hoe je aardig bent in verschillende situaties, moeten we AI's trainen met duidelijke economische en morele regels.

Kortom: De onderzoekers hebben bewezen dat je met een klein beetje slimme training (gebaseerd op economische theorie) AI-agenten kunt maken die zich gedragen zoals echte mensen met duidelijke doelen, in plaats van als onvoorspelbare robots die alleen maar "mooi" doen.

Ontvang papers zoals deze in je inbox

Gepersonaliseerde dagelijkse of wekelijkse digests op basis van jouw interesses. Gists of technische samenvattingen, in jouw taal.

Probeer Digest →