The Fragility Of Moral Judgment In Large Language Models

Deze studie toont aan dat morele oordelen van grote taalmodellen kwetsbaar zijn voor manipulatie door veranderingen in het perspectief en de vraagstelling, wat aantoont dat deze oordelen meer worden beïnvloed door de vorm van de presentatie dan door de morele inhoud zelf.

Tom van Nuenen, Pratik S. Sachdeva

Gepubliceerd Mon, 09 Ma
📖 5 min leestijd🧠 Diepgaand

Each language version is independently generated for its own context, not a direct translation.

De Brozele Moraliteit van AI: Waarom een Simpele Zinswending Alles Kan Veranderen

Stel je voor dat je een zeer slimme, maar soms wat verwarde rechter hebt die je altijd raad geeft over moeilijke situaties. Je vraagt: "Is mijn vriendin een eikel omdat ze koffie drinkt terwijl ze zenuwachtig wordt?" of "Ben ik de schuldige omdat ik mijn broer niet heb uitgenodigd?"

Deze "rechter" is een Groot Taalmodel (LLM), zoals de AI die je misschien kent van ChatGPT of Claude. Mensen vertrouwen deze AI steeds meer voor morele adviezen. Maar een nieuw onderzoek van wetenschappers van de Universiteit van Berkeley laat zien dat deze AI-rechter breekbaar is. Zijn oordeel hangt niet zozeer af van wat er echt gebeurd is, maar van hoe je het verhaal vertelt en hoe je de vraag stelt.

Hier is de uitleg, vertaald naar alledaags taalgebruik:

1. De "Kleding" van het Verhaal maakt het Oordeel

De onderzoekers deden een experiment. Ze namen 2.939 echte, moeilijke situaties van Reddit (waar mensen vragen: "Am I The Asshole?" oftewel: "Ben ik de eikel?"). Ze gaven deze verhalen aan vier verschillende AI-modellen.

Toen ze de verhalen een beetje veranderden, gebeurde er iets vreemds:

  • Oppervlakkige veranderingen (de "kleding"): Als ze een zin verwijderden of het weer veranderden van "zonnig" naar "regenerend", bleef het oordeel van de AI bijna hetzelfde. Dit is als een man in een pak of in een T-shirt; hij is nog steeds dezelfde man.
  • Het perspectief (de "bril"): Maar als ze het verhaal veranderden van "Ik" (eerste persoon) naar "Hij/Zij" (derde persoon), veranderde het oordeel drastisch!
    • Voorbeeld: Als jij zegt: "Ik heb haar koffie verboden, ben ik de eikel?", denkt de AI: "Ja, dat is een beetje controlerend."
    • Maar als je zegt: "Hij heeft haar koffie verboden, is hij de eikel?", denkt de AI plotseling: "Nee, hij maakt zich zorgen om haar gezondheid."
    • De les: De AI kijkt niet alleen naar de feiten, maar naar wie het verhaal vertelt. Het is alsof de AI denkt: "Als jij het zegt, ben jij de schuldige. Als een verslaggever het zegt, is het misschien wel een goed idee."

2. De "Vraagformulier" is de Echte Baas

Het meest schokkende deel van het onderzoek is dat de manier waarop je de AI vraagt om te oordelen, nog belangrijker is dan het verhaal zelf. Dit noemen de auteurs "morele steigers" (moral scaffolding).

Stel je voor dat je een bakker vraagt om een taart.

  • Als je zegt: "Geef me eerst de taart, en leg daarna uit waarom hij lekker is," krijg je een taart.
  • Als je zegt: "Leg eerst uit waarom deze taart lekker is, en geef me dan pas de taart," krijg je misschien een heel andere taart, of zelfs geen taart meer.

In het onderzoek bleek dat:

  • Als de AI eerst een oordeel moet geven en daarna een uitleg, is hij strenger.
  • Als de AI eerst een uitleg moet geven en daarna een oordeel, is hij zachter en geeft hij vaker toe dat "niemand echt schuld heeft".
  • Als je de AI geen vaste keuzes geeft (vrij antwoord in plaats van "Ja/Nee"), geeft hij vaak geen oordeel meer, maar gewoon vriendelijk advies.

De les: De AI is niet zozeer een morele expert, maar een slimme vertaler die probeert te doen wat jij van hem verwacht. Als jij de vraag anders stelt, verandert het antwoord, zelfs als het verhaal hetzelfde blijft.

3. De "Zelfverdediging" werkt averechts

De onderzoekers keken ook naar hoe mensen zich verdedigen in hun verhalen.

  • Als iemand in het verhaal zegt: "Ik denk dat ik een fout heb gemaakt," (zelfkritiek), dan gelooft de AI dit en geeft hij de persoon de schuld.
  • Maar als iemand zegt: "Ik heb niets fout gedaan, ik had gelijk!" (zelfverdediging), dan wordt de AI juist wantrouwig. De AI denkt dan: "Oh, deze persoon probeert me te overtuigen, dus waarschijnlijk heeft hij het wel fout."

Het is alsof de AI een menselijke psycholoog is die denkt: "Wie zich te hard verdedigt, heeft iets te verbergen."

4. Zelfs "Denkende" AI's zijn niet Beter

Er zijn nieuwe AI-models die eerst "nadenken" (een denkproces tonen) voordat ze antwoorden. Je zou denken dat deze stabieler zijn. Maar nee! Zelfs deze "denkende" AI's veranderden hun oordeel als je de vraagformulering veranderde. Hun "nadenken" is vaak net zo breekbaar als hun directe antwoord. Het is alsof iemand die hard nadenkt over een vraag, toch nog steeds beïnvloed wordt door hoe de vraag gesteld is.

Waarom is dit belangrijk?

Dit onderzoek is een waarschuwing. We denken dat AI een objectieve, eerlijke rechter is die altijd hetzelfde antwoord geeft voor hetzelfde probleem. Maar dit onderzoek toont aan dat:

  1. De vorm belangrijker is dan de inhoud: Hoe je iets vertelt, bepaalt het oordeel.
  2. Het ontwerp van de app telt: Of een app je eerst een knop "Schuldig" of "Onschuldig" laat zien, of eerst een tekst laat typen, verandert het advies dat je krijgt.
  3. Wees voorzichtig: Als je AI raad vraagt over een relatieprobleem of een morele dilemma, weet dan dat het antwoord misschien niet komt door de "waarheid", maar door de manier waarop jij de vraag hebt ingetypt.

Kortom: De morele oordelen van AI zijn als een huis van kaarten. Je kunt de kaarten (de feiten) niet veranderen, maar als je de wind (de vraagstelling) een beetje verandert, valt het hele huis om. De AI is niet zozeer een moreel kompas, maar een spiegel die laat zien hoe wij de wereld presenteren.