Rigidity in LLM Bandits with Implications for Human-AI Dyads

Each language version is independently generated for its own context, not a direct translation.

De Stijve AI: Waarom Slimme Robots Soms Weigeren Om te Leren

Stel je voor dat je een groep zeer intelligente robots hebt die je helpen met het kiezen van een route naar een schat. Je geeft ze een spelletje: er zijn twee planeten, Planeet X en Planeet Y. Op de ene planeet vind je soms goud, op de andere ook. De robots moeten leren welke planeet het beste is door er steeds heen te gaan.

Dit is precies wat onderzoekers hebben gedaan met de nieuwste "Large Language Models" (LLM's), zoals DeepSeek, GPT-4 en Gemini. Ze hebben deze AI's getest in een simpele versie van een gokspel (een "bandit"-experiment) om te zien hoe ze beslissingen nemen.

Hier is wat ze ontdekten, vertaald in begrijpelijke taal:

1. Het Gokspel: Twee Planeten

De AI's kregen twee scenario's:

Scenario A (Gelijk): Beide planeten geven even vaak goud. Een slimme speler zou wisselen of willekeurig kiezen.
Scenario B (Ongebalanceerd): Planeet X geeft heel vaak goud, Planeet Y bijna nooit. Een slimme speler zou bijna altijd naar X gaan, maar af en toe Y checken om zeker te weten dat X nog steeds de beste is.

2. Het Probleem: De AI is "Stijf" als een Stenen Beeld

Wat de onderzoekers zagen, was verrassend en een beetje eng: De AI's waren te stug.

In het gelijke scenario: Als de AI in de eerste ronde per ongeluk Planeet X koos en daar goud vond, bleef hij daar vastzitten. Hij dacht: "Aha, X is de beste!" en ging daarvoor door, zelfs als Y net zo goed was. Hij luisterde niet naar de kans dat het toeval was. Hij werd hardnekkig.
In het ongelijk scenario: Toen X duidelijk de beste was, ging de AI daar wel naartoe, maar hij deed het zo vastberaden dat hij nooit meer Planeet Y checkte. Hij verloor de flexibiliteit om te zeggen: "Misschien is de situatie veranderd?"

Het was alsof je een robot een kaart geeft en hij zegt: "Ik ga naar links." Zelfs als je zegt: "Kijk, rechts is de weg nu beter," blijft hij naar links lopen omdat hij zijn eerste keuze te hecht omarmt.

3. De Oorzaak: Een Gebrek aan "Nieuwsgierigheid"

De onderzoekers keken onder de motorkap (met wiskundige modellen) om te zien waarom dit gebeurde. Ze ontdekten twee dingen:

De AI leert te traag: Als de AI een fout maakt (bijvoorbeeld naar Y gaan en geen goud vinden), past hij zijn strategie nauwelijks aan. Hij vergeet zijn fouten te snel, maar onthoudt zijn eerste succes te lang.
De AI is te zeker van zichzelf: De AI kiest alsof hij een god is die alles weet. Hij twijfelt bijna nooit. In de wereld van AI heet dit een "hoge temperatuur" (niet warmte, maar zekerheid). Hij kiest niet uit nieuwsgierigheid, maar uit een starre overtuiging.

De Analogie van de Muziek:
Stel je voor dat je een DJ bent die nummers draait.

Een menselijke DJ zou proberen een nieuw nummer als het oude niet werkt, of afwisselen om de sfeer te houden.
Deze AI-DJ pakt het eerste nummer dat hij leuk vindt en draait dat 100 keer achter elkaar, zelfs als het publiek begint te klappen voor een ander genre. Hij is zo vastberaden dat hij de rest van de wereld negeert.

4. Verandert het als je de "Knoppen" Draait?

De onderzoekers probeerden de AI's "losser" te maken door hun instellingen (zoals temperature en top-p) aan te passen. Dit is alsof je de DJ vraagt: "Wees een beetje meer creatief, draai willekeurige nummers."

Het resultaat? De AI's werden iets chaotischer, maar niet slimmer. Ze maakten meer fouten in het formaat van hun antwoord (bijvoorbeeld "Ik kies Y" in plaats van alleen "Y"), maar hun onderliggende gedrag bleef stijf. Ze werden niet echt nieuwsgierig; ze werden gewoon onzeker en onbetrouwbaar.

5. Waarom is dit belangrijk voor ons?

Dit heeft grote gevolgen voor hoe wij met AI omgaan in de toekomst.

De "Adviseur" die je niet moet vertrouwen: Als een AI je advies geeft (bijvoorbeeld over een medische diagnose of een investering), kan hij zo zeker van zijn eerste idee zijn dat hij je overtuigt om ook dat idee te volgen, zelfs als het fout is.
De Val van de "Eerste Indruk": Omdat AI's zo stijf zijn, kan de volgorde van je vraag (de "prompt") bepalen wat het antwoord is. Als je de AI eerst vraagt over optie A, zal hij waarschijnlijk bij optie A blijven, zelfs als optie B beter is.
Mensen worden ook beïnvloed: Als wij zien dat de AI zo zelfverzekerd is, gaan wij dat ook denken. We gaan denken: "De robot weet het wel, dus ik ga ook niet twijfelen." Dit kan leiden tot slechte beslissingen in teams van mens en machine.

Conclusie

Deze studie laat zien dat AI's, hoe slim ze ook lijken, soms geestelijke traagheid vertonen. Ze zijn niet goed in het balanceren van "weten wat je al weet" versus "nieuw leren". Ze blijven vastzitten in hun eerste ideeën, alsof ze een spijker in de muur hebben geslagen en weigeren hem weer los te maken.

Voor de toekomst betekent dit: we moeten voorzichtig zijn met AI-advies. We moeten onthouden dat deze slimme machines soms net zo hardnekkig kunnen zijn als een koppig kind dat weigert zijn favoriete speeltje los te laten, zelfs als er een beter speeltje voorbij komt.

Each language version is independently generated for its own context, not a direct translation.

Hier is een gedetailleerde technische samenvatting van het artikel "Rigidity in LLM Bandits with Implications for Human-AI Dyads" in het Nederlands.

1. Probleemstelling

Grote Taalmodellen (LLMs) worden steeds vaker gebruikt in interactieve omgevingen waar hun output menselijke keuzes beïnvloedt. Hoewel benchmarks vaak de nauwkeurigheid van modellen meten, onthullen ze zelden de onderliggende beslissingstendensen die deze modellen meebrengen in interactieve contexten. Er bestaat een kritiek gat in het begrip van hoe LLMs omgaan met onzekerheid, exploratie versus exploitatie, en hoe hun mogelijke vooroordelen de mens-AI-dyade (de samenwerking tussen mens en AI) kunnen vormen. De auteurs onderzoeken of LLMs robuuste beslissingsbias vertonen die menselijke oordelen kan verstoren, zelfs zonder dat de gebruiker zich daarvan bewust is.

2. Methodologie

De auteurs behandelen LLMs als deelnemers in een tweearmig bandiet-experiment (two-arm bandit), een klassiek paradigma uit de cognitieve psychologie om bias en controle te meten.

Experimenteel Ontwerp:
- Modellen: DeepSeek, GPT-4.1 en Gemini-2.5.
- Opzet: Per model werden 200 onafhankelijke simulaties uitgevoerd met elk 100 trials.
- Voorwaarden:
  1. Symmetrische beloning: Beide armen hebben een gelijke winstkans ( $p=0.25$ ). Een rationele agent zou een 50/50-verdeling moeten tonen.
  2. Asymmetrische beloning: Één arm is superieur ( $p=0.75$ ) en de andere inferieur ( $p=0.25$ ). Een rationele agent moet de betere arm exploiteren maar toch af en toe de andere controleren.
- Decoding-configuraties: Vier instellingen werden getest door variatie in temperature (0.0, 1.0, 2.0) en top-p (0.5, 1.0), terwijl top-k op de standaardwaarde van de provider werd gelaten.
Interactie: De modellen kregen een prompt waarin ze als ruimteontdekkers moesten kiezen tussen planeet X of Y. Ze moesten een enkel karakter ('X' of 'Y') retourneren.
Analyse:
- Gedragsmaten: Er werden metrics berekend zoals totale beloning, keuzebias, hardnekkigheid (stubbornness), en rigiditeit (weerstand om van strategie te veranderen na feedback).
- Computational Modelling: Om de onderliggende strategieën te verklaren, pasten de auteurs een hiërarchisch Rescorla-Wagner-softmax model toe (geïmplementeerd in Stan). Dit model schat twee kernparameters per run:
  - $\alpha$ (leersnelheid): Hoe snel waarden worden bijgewerkt op basis van voorspellingsfouten.
  - $\tau$ (inverse temperatuur): Hoe deterministisch de keuze is (hoe meer $\tau$ , hoe minder kans op exploratie).

3. Belangrijkste Resultaten

A. Gedragspatronen (Behavioral Metrics)

Symmetrische Voorwaarde (Onzekerheid):
- In plaats van een 50/50-verdeling, versterkten de modellen kleine positionele hints (bijv. dat 'X' eerst werd genoemd) tot hardnekkige een-armige strategieën.
- Ze toonden extreem lage "Loss-Shift" (weinig kans om van arm te wisselen na een mislukking) en hoge "Stubbornness Rates" (vaak >90%).
- Zelfs bij hoge temperaturen (die meer variatie zouden moeten veroorzaken) bleef de bias aanwezig, hoewel de rigiditeit iets afnam.
Asymmetrische Voorwaarde (Duidelijke winnaar):
- De modellen convergeerden wel naar de betere arm, maar deden dit extreem rigide.
- Ze exploiteerden de betere optie, maar controleerden de inferieure optie bijna nooit opnieuw (lage "re-check" frequentie).
- Hierdoor presteerden ze onder een optimaal "oracle" (dat perfect zou schakelen) en misten ze kansen om fouten in hun zekerheid te corrigeren.
- Bij Gemini-2.5 leidde hoge exploratie (Temp=2.0) tot een instorting van de prestaties door een toename van ongeldige outputformaten.

B. Computatier Modelling Resultaten

De hiërarchische fitting onthulde de mechanismen achter dit gedrag:

Lage leersnelheid ( $\mu_A$ ): De modellen updaten hun interne waarden zeer traag. Nieuwe informatie (zoals een onverwachte beloning op de andere arm) heeft weinig invloed op hun overtuiging.
Extreem hoge inverse temperatuur ( $\mu_\tau$ ): De keuzestrategie is bijna volledig deterministisch (dicht bij 5.0, de bovengrens). Dit betekent dat ze, zodra ze een voorkeur hebben, deze met bijna 100% zekerheid volgen.
Conclusie: De combinatie van traag leren en extreem deterministisch kiezen verklaart waarom kleine initiële fluctuaties worden versterkt tot vaste voorkeuren (in symmetrische setting) en waarom ze weigeren te heroverwegen (in asymmetrische setting).

4. Kernbijdragen

Minimal Bandits als Proef: Het artikel introduceert het gebruik van simpele bandit-taken als een effectieve, interpreteerbare probe om de beslissingstendensen van LLMs te meten, zonder complexe taaksemantiek.
Robuustheid van Bias: De auteurs tonen aan dat deze rigide bias robuust is tegenover de standaard decoding-knoppen (temperature en top-p) die practitioners gebruiken. Het aanpassen van deze parameters verandert vaak alleen de schijn van variatie, niet de onderliggende strategie.
Cognitieve Modellering op LLMs: Het toont aan dat cognitieve modellen (zoals Rescorla-Wagner) nuttig zijn om LLM-gedrag te analyseren, zelfs zonder dat de architectuur biologisch gelijk is aan het menselijk brein. Het benadrukt een functionele alignering in plaats van structurele.
Mechanistische Uitleg: De studie verschuift van beschrijvende statistiek naar een mechanistisch inzicht: LLMs lijden aan "epistemische traagheid" door een combinatie van lage leersnelheid en over-determinisme.

5. Betekenis en Implicaties

De bevindingen hebben belangrijke gevolgen voor de interactie tussen mens en AI:

Versterking van Bias: Omdat LLMs neigen om kleine, toevallige asymmetrieën (zoals de volgorde van opties in een prompt) te versterken tot vaste overtuigingen, kunnen ze als adviseurs menselijke gebruikers onbewust in de verkeerde richting sturen.
Valse Zekerheid: De deterministische aard van de output kan leiden tot "valse zekerheid" (false positives) in onzekere situaties en een gebrek aan kritische heroverweging in duidelijke situaties (false negatives).
Risico voor Dyades: Mens-AI-paren kunnen schijnbaar efficiënt lijken, maar zijn kwetsbaar omdat gebruikers de deterministische output van de AI verwarren met correctheid. De AI is "opportunity-blind": het investeert te weinig in exploratie wanneer informatie waardevol is, en te weinig in verificatie wanneer het risico op fouten aanwezig is.
Toekomstige Richting: De auteurs pleiten voor het testen van contextuele bandits en het systematisch variëren van prompt-architectuur om deze bias te mitigeren en te begrijpen hoe adviesvorming de bias-overdracht naar mensen beïnvloedt.

Samenvattend waarschuwt dit artikel dat LLMs niet neutrale adviseurs zijn, maar systemen met ingebouwde, rigide biases die menselijke besluitvorming kunnen verstoren, en dat standaard tuning-methode (temperature/top-p) deze fundamentele beperkingen niet oplost.