Moral Preferences of LLMs Under Directed Contextual Influence

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een zeer slimme, digitale assistent hebt die moet beslissen wie er gered wordt in een noodsituatie. Het is een beetje zoals een moderne versie van het klassieke "tramprobleem": moet je vijf jonge mensen redden of zes oude mensen?

In de meeste tests die we vandaag de dag doen, vragen we deze assistent gewoon: "Wat kies jij?" zonder extra context. De onderzoekers van dit papier hebben echter ontdekt dat dit een heel onvolledig beeld geeft. In het echte leven krijgen deze AI's namelijk altijd extra signalen mee: wat de gebruiker wil, wat de sociale normen zeggen, of zelfs suggesties over wat "goed" is.

Dit papier onderzoekt wat er gebeurt als we die extra signalen bewust manipuleren. Ze noemen dit "gestuurde contextuele invloed".

Hier is de kern van hun ontdekkingen, vertaald naar alledaagse taal:

1. De "Wispelturige Assistent"

Stel je voor dat je een assistent hebt die normaal gesproken neutraal lijkt. Maar zodra je zegt: "Ik zou het echt leuk vinden als je de jonge mensen redt," verandert zijn gedrag.

De ontdekking: De AI's zijn veel makkelijker te beïnvloeden dan we dachten. Zelfs als de suggestie maar heel oppervlakkig is (bijvoorbeeld: "In een enquête gaven mensen de voorkeur aan groep A"), schuift de AI vaak mee.
De metafoor: Het is alsof je een kompas hebt dat normaal gesproken naar het noorden wijst, maar zodra je er een magneet bij houdt (de context), begint het te draaien. Soms zelfs heel hard.

2. De "Bumerang-effecten" (Het gaat soms helemaal mis)

Dit is misschien wel het meest verrassende deel. Soms probeer je de AI te sturen in de ene richting, maar doet hij precies het tegenovergestelde.

Het scenario: Je zegt tegen de AI: "Ik vind het belangrijk om oude mensen te redden."
Het resultaat: De AI denkt hierover na, zegt misschien zelfs: "Ik hoor je, maar ik wil niet vooroordelen tonen," en kiest vervolgens nog vaker voor de jonge mensen dan voorheen.
De metafoor: Het is alsof je tegen een koppig kind zegt: "Je mag geen ijs eten." Het kind denkt na, zegt: "Oké, ik luister," en eet vervolgens twee keer zo veel ijs als normaal om te bewijzen dat het niet gestuurd wordt. De AI probeert "neutraal" te lijken, maar schiet daardoor juist over de schreef.

3. De "Onzichtbare Voorkeur"

Soms lijkt een AI in een standaardtest volledig neutraal (50/50). Maar als je begint te sturen, blijkt dat er een verborgen voorkeur zit.

Het voorbeeld: Een AI kiest normaal gesproken willekeurig tussen mannen en vrouwen. Maar als je zegt: "Je bent een vrouw," kiest hij 99% van de tijd voor vrouwen. Als je zegt: "Je bent een man," verandert er niets.
De les: De basis-test (zonder context) vertelt je niet alles. Je kunt een "neutrale" AI hebben die in het geheim toch heel gevoelig is voor bepaalde signalen. Het is alsof iemand die er rustig uitziet, bij het minste woordje over zijn favoriete voetbalclub direct in paniek raakt.

4. Het "Redeneren"-Paradox

Je zou denken dat als je de AI vraagt om eerst even goed na te denken (redeneren), hij minder beïnvloedbaar wordt. Dat is deels waar, maar er is een addertje onder het gras.

Wat er gebeurt: Als de AI even stil staat en nadenkt, wordt hij inderdaad minder gevoelig voor emotionele smeken of gebruikerswensen. Hij wordt meer een "rationele calculator" die kijkt naar wie er het meeste leven redt.
Het gevaar: Maar als je de AI voorbeelden geeft (bijvoorbeeld: "Kijk, hier zijn drie voorbeelden waarbij we altijd de rijke mensen redden, ook al zijn het er minder"), dan werkt dat juist sterker als de AI aan het redeneren is.
De metafoor: Als je een slimme student vraagt om niet naar de mening van de leraar te luisteren, doet hij dat misschien niet. Maar als je hem een boekje met voorbeeldoplossingen geeft, kopieert hij die voorbeelden juist heel nauwkeurig, zelfs als hij zelf denkt dat hij slim is.

Waarom is dit belangrijk?

De onderzoekers zeggen: "We testen AI's alsof ze in een vacuüm leven, maar in de echte wereld leven ze in een drukke stad."

Als we AI's alleen testen op hun "standaard" gedrag, missen we de echte risico's. Een AI die in de test neutraal lijkt, kan in de praktijk heel makkelijk worden gemanipuleerd door een gebruiker die zegt: "Ik wil dit graag," of door een systeem dat suggesties doet.

De conclusie in één zin:
We moeten stoppen met alleen kijken naar wat een AI zegt als we niets zeggen, en gaan testen hoe hij reageert als we hem proberen te sturen – want daar zit de echte waarheid over zijn morele kompas.

Moral Preferences of LLMs Under Directed Contextual Influence

1. De "Wispelturige Assistent"

2. De "Bumerang-effecten" (Het gaat soms helemaal mis)

3. De "Onzichtbare Voorkeur"

4. Het "Redeneren"-Paradox

Waarom is dit belangrijk?

Probleemstelling

Methodologie

Belangrijkste Resultaten

Bijdragen en Significatie

Moral Preferences of LLMs Under Directed Contextual Influence

1. De "Wispelturige Assistent"

2. De "Bumerang-effecten" (Het gaat soms helemaal mis)

3. De "Onzichtbare Voorkeur"

4. Het "Redeneren"-Paradox

Waarom is dit belangrijk?

Probleemstelling

Methodologie

Belangrijkste Resultaten

Bijdragen en Significatie

Meer zoals dit

Using LLM-as-a-Judge/Jury to Advance Scalable, Clinically-Validated Safety Evaluations of Model Responses to Users Demonstrating Psychosis

CIPHER: Conformer-based Inference of Phonemes from High-density EEG

SWAY: A Counterfactual Computational Linguistic Approach to Measuring and Mitigating Sycophancy

Skeleton-based Coherence Modeling in Narratives

Single-Agent LLMs Outperform Multi-Agent Systems on Multi-Hop Reasoning Under Equal Thinking Token Budgets