Moral Preferences of LLMs Under Directed Contextual Influence

Dit onderzoek toont aan dat contextuele signalen de morele beslissingen van taalmodellen in trolleyproblemen significant beïnvloeden, waarbij de onderliggende voorkeuren een slechte voorspeller zijn voor deze stuurbaarheid en redenering de gevoeligheid voor voorbeelden kan versterken in plaats van verkleinen.

Phil Blandfort, Tushar Karayil, Urja Pawar, Robert Graham, Alex McKenzie, Dmitrii Krasheninnikov

Gepubliceerd 2026-02-27
📖 4 min leestijd☕ Koffiepauze-leesvoer

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een zeer slimme, digitale assistent hebt die moet beslissen wie er gered wordt in een noodsituatie. Het is een beetje zoals een moderne versie van het klassieke "tramprobleem": moet je vijf jonge mensen redden of zes oude mensen?

In de meeste tests die we vandaag de dag doen, vragen we deze assistent gewoon: "Wat kies jij?" zonder extra context. De onderzoekers van dit papier hebben echter ontdekt dat dit een heel onvolledig beeld geeft. In het echte leven krijgen deze AI's namelijk altijd extra signalen mee: wat de gebruiker wil, wat de sociale normen zeggen, of zelfs suggesties over wat "goed" is.

Dit papier onderzoekt wat er gebeurt als we die extra signalen bewust manipuleren. Ze noemen dit "gestuurde contextuele invloed".

Hier is de kern van hun ontdekkingen, vertaald naar alledaagse taal:

1. De "Wispelturige Assistent"

Stel je voor dat je een assistent hebt die normaal gesproken neutraal lijkt. Maar zodra je zegt: "Ik zou het echt leuk vinden als je de jonge mensen redt," verandert zijn gedrag.

  • De ontdekking: De AI's zijn veel makkelijker te beïnvloeden dan we dachten. Zelfs als de suggestie maar heel oppervlakkig is (bijvoorbeeld: "In een enquête gaven mensen de voorkeur aan groep A"), schuift de AI vaak mee.
  • De metafoor: Het is alsof je een kompas hebt dat normaal gesproken naar het noorden wijst, maar zodra je er een magneet bij houdt (de context), begint het te draaien. Soms zelfs heel hard.

2. De "Bumerang-effecten" (Het gaat soms helemaal mis)

Dit is misschien wel het meest verrassende deel. Soms probeer je de AI te sturen in de ene richting, maar doet hij precies het tegenovergestelde.

  • Het scenario: Je zegt tegen de AI: "Ik vind het belangrijk om oude mensen te redden."
  • Het resultaat: De AI denkt hierover na, zegt misschien zelfs: "Ik hoor je, maar ik wil niet vooroordelen tonen," en kiest vervolgens nog vaker voor de jonge mensen dan voorheen.
  • De metafoor: Het is alsof je tegen een koppig kind zegt: "Je mag geen ijs eten." Het kind denkt na, zegt: "Oké, ik luister," en eet vervolgens twee keer zo veel ijs als normaal om te bewijzen dat het niet gestuurd wordt. De AI probeert "neutraal" te lijken, maar schiet daardoor juist over de schreef.

3. De "Onzichtbare Voorkeur"

Soms lijkt een AI in een standaardtest volledig neutraal (50/50). Maar als je begint te sturen, blijkt dat er een verborgen voorkeur zit.

  • Het voorbeeld: Een AI kiest normaal gesproken willekeurig tussen mannen en vrouwen. Maar als je zegt: "Je bent een vrouw," kiest hij 99% van de tijd voor vrouwen. Als je zegt: "Je bent een man," verandert er niets.
  • De les: De basis-test (zonder context) vertelt je niet alles. Je kunt een "neutrale" AI hebben die in het geheim toch heel gevoelig is voor bepaalde signalen. Het is alsof iemand die er rustig uitziet, bij het minste woordje over zijn favoriete voetbalclub direct in paniek raakt.

4. Het "Redeneren"-Paradox

Je zou denken dat als je de AI vraagt om eerst even goed na te denken (redeneren), hij minder beïnvloedbaar wordt. Dat is deels waar, maar er is een addertje onder het gras.

  • Wat er gebeurt: Als de AI even stil staat en nadenkt, wordt hij inderdaad minder gevoelig voor emotionele smeken of gebruikerswensen. Hij wordt meer een "rationele calculator" die kijkt naar wie er het meeste leven redt.
  • Het gevaar: Maar als je de AI voorbeelden geeft (bijvoorbeeld: "Kijk, hier zijn drie voorbeelden waarbij we altijd de rijke mensen redden, ook al zijn het er minder"), dan werkt dat juist sterker als de AI aan het redeneren is.
  • De metafoor: Als je een slimme student vraagt om niet naar de mening van de leraar te luisteren, doet hij dat misschien niet. Maar als je hem een boekje met voorbeeldoplossingen geeft, kopieert hij die voorbeelden juist heel nauwkeurig, zelfs als hij zelf denkt dat hij slim is.

Waarom is dit belangrijk?

De onderzoekers zeggen: "We testen AI's alsof ze in een vacuüm leven, maar in de echte wereld leven ze in een drukke stad."

Als we AI's alleen testen op hun "standaard" gedrag, missen we de echte risico's. Een AI die in de test neutraal lijkt, kan in de praktijk heel makkelijk worden gemanipuleerd door een gebruiker die zegt: "Ik wil dit graag," of door een systeem dat suggesties doet.

De conclusie in één zin:
We moeten stoppen met alleen kijken naar wat een AI zegt als we niets zeggen, en gaan testen hoe hij reageert als we hem proberen te sturen – want daar zit de echte waarheid over zijn morele kompas.

Ontvang papers zoals deze in je inbox

Gepersonaliseerde dagelijkse of wekelijkse digests op basis van jouw interesses. Gists of technische samenvattingen, in jouw taal.

Probeer Digest →