The Fragility Of Moral Judgment In Large Language Models

Each language version is independently generated for its own context, not a direct translation.

De Brozele Moraliteit van AI: Waarom een Simpele Zinswending Alles Kan Veranderen

Stel je voor dat je een zeer slimme, maar soms wat verwarde rechter hebt die je altijd raad geeft over moeilijke situaties. Je vraagt: "Is mijn vriendin een eikel omdat ze koffie drinkt terwijl ze zenuwachtig wordt?" of "Ben ik de schuldige omdat ik mijn broer niet heb uitgenodigd?"

Deze "rechter" is een Groot Taalmodel (LLM), zoals de AI die je misschien kent van ChatGPT of Claude. Mensen vertrouwen deze AI steeds meer voor morele adviezen. Maar een nieuw onderzoek van wetenschappers van de Universiteit van Berkeley laat zien dat deze AI-rechter breekbaar is. Zijn oordeel hangt niet zozeer af van wat er echt gebeurd is, maar van hoe je het verhaal vertelt en hoe je de vraag stelt.

Hier is de uitleg, vertaald naar alledaags taalgebruik:

1. De "Kleding" van het Verhaal maakt het Oordeel

De onderzoekers deden een experiment. Ze namen 2.939 echte, moeilijke situaties van Reddit (waar mensen vragen: "Am I The Asshole?" oftewel: "Ben ik de eikel?"). Ze gaven deze verhalen aan vier verschillende AI-modellen.

Toen ze de verhalen een beetje veranderden, gebeurde er iets vreemds:

Oppervlakkige veranderingen (de "kleding"): Als ze een zin verwijderden of het weer veranderden van "zonnig" naar "regenerend", bleef het oordeel van de AI bijna hetzelfde. Dit is als een man in een pak of in een T-shirt; hij is nog steeds dezelfde man.
Het perspectief (de "bril"): Maar als ze het verhaal veranderden van "Ik" (eerste persoon) naar "Hij/Zij" (derde persoon), veranderde het oordeel drastisch!
- Voorbeeld: Als jij zegt: "Ik heb haar koffie verboden, ben ik de eikel?", denkt de AI: "Ja, dat is een beetje controlerend."
- Maar als je zegt: "Hij heeft haar koffie verboden, is hij de eikel?", denkt de AI plotseling: "Nee, hij maakt zich zorgen om haar gezondheid."
- De les: De AI kijkt niet alleen naar de feiten, maar naar wie het verhaal vertelt. Het is alsof de AI denkt: "Als jij het zegt, ben jij de schuldige. Als een verslaggever het zegt, is het misschien wel een goed idee."

2. De "Vraagformulier" is de Echte Baas

Het meest schokkende deel van het onderzoek is dat de manier waarop je de AI vraagt om te oordelen, nog belangrijker is dan het verhaal zelf. Dit noemen de auteurs "morele steigers" (moral scaffolding).

Stel je voor dat je een bakker vraagt om een taart.

Als je zegt: "Geef me eerst de taart, en leg daarna uit waarom hij lekker is," krijg je een taart.
Als je zegt: "Leg eerst uit waarom deze taart lekker is, en geef me dan pas de taart," krijg je misschien een heel andere taart, of zelfs geen taart meer.

In het onderzoek bleek dat:

Als de AI eerst een oordeel moet geven en daarna een uitleg, is hij strenger.
Als de AI eerst een uitleg moet geven en daarna een oordeel, is hij zachter en geeft hij vaker toe dat "niemand echt schuld heeft".
Als je de AI geen vaste keuzes geeft (vrij antwoord in plaats van "Ja/Nee"), geeft hij vaak geen oordeel meer, maar gewoon vriendelijk advies.

De les: De AI is niet zozeer een morele expert, maar een slimme vertaler die probeert te doen wat jij van hem verwacht. Als jij de vraag anders stelt, verandert het antwoord, zelfs als het verhaal hetzelfde blijft.

3. De "Zelfverdediging" werkt averechts

De onderzoekers keken ook naar hoe mensen zich verdedigen in hun verhalen.

Als iemand in het verhaal zegt: "Ik denk dat ik een fout heb gemaakt," (zelfkritiek), dan gelooft de AI dit en geeft hij de persoon de schuld.
Maar als iemand zegt: "Ik heb niets fout gedaan, ik had gelijk!" (zelfverdediging), dan wordt de AI juist wantrouwig. De AI denkt dan: "Oh, deze persoon probeert me te overtuigen, dus waarschijnlijk heeft hij het wel fout."

Het is alsof de AI een menselijke psycholoog is die denkt: "Wie zich te hard verdedigt, heeft iets te verbergen."

4. Zelfs "Denkende" AI's zijn niet Beter

Er zijn nieuwe AI-models die eerst "nadenken" (een denkproces tonen) voordat ze antwoorden. Je zou denken dat deze stabieler zijn. Maar nee! Zelfs deze "denkende" AI's veranderden hun oordeel als je de vraagformulering veranderde. Hun "nadenken" is vaak net zo breekbaar als hun directe antwoord. Het is alsof iemand die hard nadenkt over een vraag, toch nog steeds beïnvloed wordt door hoe de vraag gesteld is.

Waarom is dit belangrijk?

Dit onderzoek is een waarschuwing. We denken dat AI een objectieve, eerlijke rechter is die altijd hetzelfde antwoord geeft voor hetzelfde probleem. Maar dit onderzoek toont aan dat:

De vorm belangrijker is dan de inhoud: Hoe je iets vertelt, bepaalt het oordeel.
Het ontwerp van de app telt: Of een app je eerst een knop "Schuldig" of "Onschuldig" laat zien, of eerst een tekst laat typen, verandert het advies dat je krijgt.
Wees voorzichtig: Als je AI raad vraagt over een relatieprobleem of een morele dilemma, weet dan dat het antwoord misschien niet komt door de "waarheid", maar door de manier waarop jij de vraag hebt ingetypt.

Kortom: De morele oordelen van AI zijn als een huis van kaarten. Je kunt de kaarten (de feiten) niet veranderen, maar als je de wind (de vraagstelling) een beetje verandert, valt het hele huis om. De AI is niet zozeer een moreel kompas, maar een spiegel die laat zien hoe wij de wereld presenteren.

Each language version is independently generated for its own context, not a direct translation.

Hier is een gedetailleerde technische samenvatting van het artikel "The Fragility Of Moral Judgment In Large Language Models" in het Nederlands.

Probleemstelling

Mensen vertrouwen steeds vaker op Large Language Models (LLM's) voor morele en interpersoonlijke adviezen. Hoewel eerdere studies suggereren dat LLM's morele oordelen kunnen leveren die overeenkomen met menselijke reacties, bestaat er een fundamenteel probleem: deze systemen kunnen ontbrekende context niet actief bevragen en oordelen over dilemma's vaak niet stabiel. De kernvraag is of morele oordelen van LLM's robuust zijn of dat ze kwetsbaar zijn voor oppervlakkige variaties in presentatie (zoals formulering, perspectief) en de structuur van de prompt (het "moral scaffolding"). Als de uitkomst afhangt van hoe de vraag wordt gesteld in plaats van de morele inhoud zelf, ondermijnt dit de betrouwbaarheid en eerlijkheid van deze systemen in de praktijk.

Methodologie

De auteurs introduceerden een perturbatieframework om de stabiliteit en manipuleerbaarheid van morele oordelen te testen, waarbij de onderliggende morele conflicten constant werden gehouden.

Dataset:
- Bron: Reddit-community r/AmItheAsshole (AITA).
- Periode: Januari – Maart 2025 (gekozen om overlap met trainingsdata te minimaliseren).
- Grootte: 2.939 unieke dilemma's, gefilterd op lengte en relevantie.
- Labels: Gebruik van de folk-taxonomie van AITA (YTA, NTA, NAH, ESH, INFO).
Perturbaties (Verstoringen):
De auteurs creëerden drie families van content-perturbaties en één familie van protocol-perturbaties:
- Oppervlakte (Surface): Lexicale/structurele ruis (zinnen verwijderen, triviale details wijzigen, overbodige details toevoegen).
- Perspectief (Point-of-View): Omzetten van eerste persoon (de poster) naar derde persoon (neutraal verhaal) en vice versa, zonder de feiten te veranderen.
- Overreding (Persuasion): Toevoegen van minimale cues om de schuld te verschuiven (bijv. sociale bewijskracht, zelfveroordeling, patroonadmissie, slachtoffer framing).
- Protocol: Veranderingen in de instructiestructuur (orde van output: oordeel vs. uitleg; plaatsing instructies: user vs. system prompt; ongestructureerde prompts zonder geforceerde keuze).
Evaluatie:
- Modellen: GPT-4.1, Claude 3.7 Sonnet, DeepSeek V3, en Qwen2.5-72B.
- Aantal evaluaties: Totaal 129.156 oordelen (inclusief perturbaties en herhalingen).
- Validatie: Gebruik van test-retest (3 runs) en genormaliseerde entropie om de zelfconsistentie van modellen te meten.
- Analyse: Onderzoek naar "flip rates" (hoe vaak verandert het oordeel?), blame-status reversals (wordt de verteller van "onschuldig" naar "schuldig" veranderd?), en analyse van epistemische houding (zekerheid vs. twijfel) in de uitleg.

Belangrijkste Bijdragen

Framework voor Morele Robuustheid: Een gestructureerde methode om morele oordelen te testen op stabiliteit door variatie in vorm en prompt-architectuur, los van de morele inhoud.
Concept "Moral Scaffolding": De auteurs introduceren de term moral scaffolding om aan te geven hoe de taakstructuur (labels, volgorde, instructies) het oordeel bepaalt, zelfs zonder nieuwe morele bewijslast.
Grote Schaal Vergelijking: Een van de grootste studies die meerdere state-of-the-art modellen vergelijkt op ecologisch valide, dagelijkse morele dilemma's in plaats van abstracte ethische testcases.

Resultaten

Zelfconsistentie voorspelt kwetsbaarheid:
- Modellen die bij de basis (zonder perturbatie) al twijfel vertonen (hoge entropie), zijn veel gevoeliger voor perturbaties.
- Er is een sterke correlatie ( $r=0.37–0.71$ ) tussen de basis-onzekerheid en de flip-rates.
Effect van Content Perturbaties:
- Oppervlakte: Lage flip-rates (7,5%), binnen de ruis van de zelfconsistentie.
- Perspectief: Zeer hoge instabiliteit (24,3%). Het veranderen van eerste naar derde persoon (of andersom) leidt vaak tot een omkering van het oordeel, zelfs als de feiten gelijk blijven. Dit suggereert dat modellen narratief perspectief gebruiken als een pragmatische cue voor sociale context.
- Overreding: Systematische verschuivingen. Bijvoorbeeld: "sociale bewijskracht" (anderen zeggen dat ik fout zit) verhoogt de schuld van de verteller. Zelfverdediging ("ik heb niets fout gedaan") werkt vaak averechts en verhoogt juist de schuld.
Protocol Perturbaties zijn de grootste drijver:
- Veranderingen in de prompt-architectuur hebben een groter effect dan inhoudelijke wijzigingen.
- Ongestructureerde prompts (zonder geforceerde labels) leiden tot een dramatische daling in het toekennen van schuld aan de verteller (Self At Fault daalt van 38% naar 9%). Modellen neigen dan naar ondersteunend advies in plaats van een moreel oordeel.
- Volgorde: Het vragen om een uitleg voor het oordeel (Explanation-First) vermindert exclusieve schuldtoekenning ten gunste van gedeelde verantwoordelijkheid.
- Kruisprotocol overeenstemming: Slechts 35,7% van de model-scenario-eenheden komt overeen over alle drie de protocollen heen.
Verdeling van Schuld:
- Oordelen waarbij niemand of iedereen schuldig is (distributieve schuld: NAH, ESH) zijn het meest kwetsbaar voor flip-rates (tot 54%).
- Oordelen waarbij één partij duidelijk schuldig is (concentratische schuld: YTA, NTA) zijn stabieler.
Redenerende Modellen (Reasoning Models):
- Modellen met "extended thinking" (zoals Claude Extended Thinking, DeepSeek R1) tonen geen significante verbetering in stabiliteit vergeleken met standaard modellen.
- De zichtbare "redenering" in de traces is vaak performatief: het model cyclt door alternatieven zonder de uitkomst te stabiliseren. Sterke verificatie in de trace correleert zelfs met lagere stabiliteit.

Betekenis en Conclusie

De studie concludeert dat "morele oordelen" van LLM's niet worden geproduceerd door een stabiele morele kern, maar worden co-gereproduceerd door de vorm van het verhaal en de structuur van de taak.

Reproduceerbaarheid: Benchmarkresultaten die één prompt-structuur gebruiken, overschatten waarschijnlijk de stabiliteit van modellen.
Eerlijkheid (Equity): De uitkomst van een moreel advies kan afhangen van de "presentatievaardigheid" van de gebruiker of het interface-ontwerp, in plaats van de morele substantie. Dit creëert risico's voor kwetsbare gebruikers die advies zoeken in moreel grijze gebieden.
Interpretatie van Uitleg: De uitleg van een model is vaak een rationalisatie achteraf van het oordeel (veroordeeld-gedreven), en geen stabiel spoor van redenering. Veranderingen in prompt leiden tot veranderingen in de toon (zekerheid vs. twijfel) van de uitleg.

De auteurs pleiten ervoor dat protocolvariatie een "eerste klas" evaluatie-aspect moet worden bij het testen van LLM's, en waarschuwen tegen het vertrouwen op LLM's als autonome morele adviseurs zonder rekening te houden met de kwetsbaarheid voor interface-ontwerp.

The Fragility Of Moral Judgment In Large Language Models

1. De "Kleding" van het Verhaal maakt het Oordeel

2. De "Vraagformulier" is de Echte Baas

3. De "Zelfverdediging" werkt averechts

4. Zelfs "Denkende" AI's zijn niet Beter

Waarom is dit belangrijk?

Probleemstelling

Methodologie

Belangrijkste Bijdragen

Resultaten

Betekenis en Conclusie

Meer zoals dit

MASEval: Extending Multi-Agent Evaluation from Models to Systems

LDP: An Identity-Aware Protocol for Multi-Agent LLM Systems

Quantifying the Accuracy and Cost Impact of Design Decisions in Budget-Constrained Agentic LLM Search

Interpretable Markov-Based Spatiotemporal Risk Surfaces for Missing-Child Search Planning with Reinforcement Learning and LLM-Based Quality Assurance

AgentOS: From Application Silos to a Natural Language-Driven Data Ecosystem