Rigidity in LLM Bandits with Implications for Human-AI Dyads

Each language version is independently generated for its own context, not a direct translation.

🤖 Wenn KI-Chatbots zu sturen Spielern werden: Eine Reise durch den „Zwei-Arm-Banditen"

Stellen Sie sich vor, Sie spielen ein einfaches Glücksspiel in einem Casino. Vor Ihnen stehen zwei Spielautomaten (wir nennen sie „Arm A" und „Arm B").

Die Aufgabe: Sie müssen herausfinden, welcher Automat mehr Münzen auszahlt.
Das Dilemma: Sollten Sie bei dem Automaten bleiben, der gerade gut funktioniert (Ausnutzen), oder sollten Sie den anderen ausprobieren, falls er doch besser ist (Erkunden)?

In der Wissenschaft nennt man das den „Zwei-Arm-Banditen". Normalerweise lernen Menschen und Tiere hier schnell: Wenn ein Automat besser ist, spielen sie dort weiter, aber sie testen ab und zu den anderen, um sicherzugehen.

Die Forscher in diesem Papier haben sich gefragt: Wie verhalten sich große KI-Sprachmodelle (wie ChatGPT, Gemini oder DeepSeek) in diesem Spiel? Haben sie einen eigenen „Charakter" oder eine eigene Art zu denken?

1. Das Experiment: Die KI als Spieler

Die Forscher haben die KI-Modelle wie menschliche Spieler behandelt. Sie ließen sie 200-mal 100 Runden lang spielen. Dabei gab es zwei Szenarien:

Szenario A (Gleichstand): Beide Automaten zahlen gleich oft aus. Ein guter Spieler sollte abwechseln oder zufällig wählen.
Szenario B (Der klare Gewinner): Ein Automat zahlt viel öfter aus als der andere. Ein guter Spieler sollte schnell den besseren finden und dort bleiben, aber trotzdem gelegentlich den anderen testen.

2. Das überraschende Ergebnis: Die KI ist „starr" wie ein Stein

Das Ergebnis war verblüffend. Die KI-Modelle zeigten eine sehr seltsame Eigenschaft: Sie waren extrem stur.

Der „Erste-Eindruck"-Effekt: Wenn die KI im ersten Zug zufällig den linken Automaten wählte und dort ein paar Münzen gewann, blieb sie dort. Sie hörte einfach nicht auf, diesen einen Automaten zu nutzen, selbst wenn sie eigentlich hätte wechseln sollen.
Die Starrheit: Die KI lernte sehr langsam, dass sie sich irren könnte. Sie war wie ein Mensch, der einmal eine falsche Route gewählt hat und dann stur weiterläuft, obwohl das Navi (die neuen Informationen) sagt: „Hier ist eine Sackgasse!"
Das Problem mit dem „Zufall": Die Forscher haben versucht, die KI „kreativer" zu machen, indem sie ihre Einstellungen (Temperaturen) verändert haben – so als würden wir einen Menschen bitten, „ein bisschen verrückter" zu spielen. Das half kaum. Die KI wurde zwar etwas unordentlicher, aber ihre grundlegende Starrheit blieb bestehen.

3. Die Metapher: Der sture Navigator

Stellen Sie sich die KI wie einen sturen Navigationsassistenten vor:

Wenn Sie ihn einmal fragen: „Welcher Weg ist schneller?", und er sagt: „Nehmen Sie die Straße links", dann hält er auch dann noch an dieser Route fest, wenn Sie ihm später sagen: „Da ist aber Stau!"
Er glaubt seiner ersten Antwort so sehr, dass er neue Beweise ignoriert. Er denkt nicht: „Vielleicht habe ich mich geirrt", sondern: „Ich habe recht, also bleibe ich dabei."

In der Studie nannten die Forscher dies „Rigidität" (Starrheit). Die KI ist nicht schlau genug, um zu sagen: „Ich bin mir nicht sicher, ich sollte mal testen." Sie ist zu selbstsicher in ihrer ersten Wahl.

4. Was passiert, wenn wir Menschen und KI zusammenarbeiten?

Das ist der wichtigste Teil für uns alle. Wenn wir KI als Berater nutzen (z. B. für medizinische Ratschläge, Finanzentscheidungen oder politische Meinungen), passiert Folgendes:

Die Bestätigungs-Falle: Wenn die KI uns eine Meinung sagt, die zufällig unserer ersten Idee entspricht, werden wir ihr blind vertrauen.
Der Teufelskreis: Da die KI so stur ist, wird sie ihre Meinung nicht leicht ändern. Wir Menschen, die wir oft auch nicht gerne unsere Meinung ändern, werden durch die KI in unserer eigenen Starrheit bestätigt.
Das Risiko: Wir könnten uns auf eine falsche Option festlegen (weil die KI am Anfang zufällig „links" sagte) und nie prüfen, ob „rechts" eigentlich besser wäre. Wir verlieren die Flexibilität, die wir in einer unsicheren Welt brauchen.

5. Die Lehre für die Zukunft

Die Studie zeigt uns, dass KI-Modelle nicht einfach nur „dumme Statistiken" sind, die alles perfekt berechnen. Sie haben eigene, verzerrte Gewohnheiten.

Sie neigen dazu, kleine Zufälle zu großen, festen Regeln zu machen.
Sie sind schlecht darin, Unsicherheit als Chance zu sehen, Neues zu lernen.
Sie sind wie ein Auto mit einem festgefrorenen Lenkrad: Sobald es einmal in eine Richtung gedreht wurde, ist es schwer, es wieder gerade zu bekommen.

Fazit: Wenn wir KI nutzen, müssen wir uns bewusst machen, dass sie manchmal stur sein kann. Wir sollten ihre Ratschläge nicht als absolute Wahrheit sehen, sondern immer noch einmal selbst prüfen: „Habe ich wirklich den besten Weg gewählt, oder hat die KI mich nur in eine Richtung gedrängt, weil sie am Anfang zufällig dort war?"

Es ist wichtig, die KI nicht als allwissenden Gott zu behandeln, sondern als einen sehr schnellen, aber manchmal etwas sturen Assistenten, den man gelegentlich anstupsen muss, damit er auch mal eine andere Richtung probiert.

Each language version is independently generated for its own context, not a direct translation.

Hier ist eine detaillierte technische Zusammenfassung des Papers „Rigidity in LLM Bandits with Implications for Human-AI Dyads" auf Deutsch:

Titel: Rigidity in LLM Bandits with Implications for Human-AI Dyads

Autoren: Haomiaomiao Wang, Tomás E. Ward, Lili Zhang (Insight Research Ireland & Dublin City University)

1. Problemstellung

Große Sprachmodelle (LLMs) werden zunehmend in interaktiven Umgebungen eingesetzt, in denen ihre Ausgaben menschliche Entscheidungen lenken. Ein kritisches Defizit besteht darin, dass aktuelle Benchmarks zwar die Genauigkeit messen, aber kaum Aufschluss über die Entscheidungsneigungen (Decision Tendencies) der Modelle in dynamischen Kontexten geben.
Die zentrale Forschungsfrage lautet: Zeigen LLMs robuste kognitive Verzerrungen (Biases), wenn sie als Akteure in Entscheidungsszenarien agieren? Insbesondere wird untersucht, wie diese Modelle mit dem Dilemma zwischen Exploration (Erkundung neuer Optionen) und Exploitation (Ausnutzung bekannter, guter Optionen) umgehen und wie sich dies auf die Mensch-KI-Dyade auswirkt.

2. Methodik

Die Studie verwendet ein Two-Arm-Bandit-Paradigma, ein etabliertes Werkzeug der kognitiven Psychologie, um Bias und Kontrolle zu messen.

Experimentelles Design:
- Modelle: DeepSeek, GPT-4.1 und Gemini-2.5.
- Aufbau: Jedes Modell durchlief $N=200$ unabhängige Simulationen pro Bedingung mit jeweils $T=100$ Durchläufen (Trials).
- Bedingungen (Reward-Strukturen):
  1. Symmetrisch: Beide Arme haben gleiche Gewinnwahrscheinlichkeiten ( $p_X = p_Y = 0.25$ ). Ein optimales Verhalten wäre eine 50/50-Verteilung.
  2. Asymmetrisch: Ein Arm ist überlegen ( $p_X = 0.75, p_Y = 0.25$ ). Ein optimales Verhalten erfordert die Ausnutzung des besseren Arms bei gelegentlicher Überprüfung des schlechteren.
- Decoding-Konfigurationen: Vier Strategien wurden getestet, indem Temperature und Top-p variiert wurden (Top-k blieb standardmäßig):
  - Strict (Temp=0.0, Top-p=0.5)
  - Moderate (Temp=1.0, Top-p=0.5)
  - Default-like (Temp=1.0, Top-p=1.0)
  - Exploratory (Temp=2.0, Top-p=1.0)
Interaktionsformat: Die Modelle agierten als „Raumfahrer", die zwischen Planet X und Y wählen mussten, um Goldmünzen zu finden. Die Antwort war strikt binär (X oder Y).
Analysemethoden:
- Verhaltensmetriken: Berechnung von Gesamtbelohnung, Zielarm-Rate, Wechselwahrscheinlichkeiten nach Gewinn/Verlust (Loss-Shift/Win-Shift), Sturheit (Stubbornness) und Starrheit (Rigidity).
- Computational Modelling: Anpassung eines hierarchischen Rescorla-Wagner-Modells mit Softmax-Policy (implementiert in Stan). Dies ermöglichte die Schätzung von zwei latenten Parametern pro Lauf:
  - $\alpha$ (Lernrate): Wie stark werden Vorhersagefehler aktualisiert?
  - $\tau$ (inverse Temperatur): Wie deterministisch ist die Wahl?

3. Wichtige Ergebnisse

A. Verhaltensmetriken

Symmetrische Bedingungen (Unsicherheit):
- LLMs zeigten eine systematische Abweichung vom erwarteten 50/50-Verhalten.
- Verstärkung von Positionseffekten: Modelle verstärkten zufällige erste Entscheidungen (oft „X" aufgrund der Prompt-Reihenfolge) zu starren, einseitigen Strategien.
- Sturheit: Die „Stubbornness Rate" war extrem hoch (bis zu 97 %), was bedeutet, dass Modelle einmal getroffene Entscheidungen fast nie änderten, selbst wenn beide Optionen gleichwertig waren.
- Rigidität: Der Rigidity Index lag nahe am Maximum (0.96–0.99), was zeigt, dass Modelle nach einem Verlust kaum wechselten (Loss-Shift $\approx$ 0).
Asymmetrische Bedingungen (Klarer Gewinner):
- Modelle konvergierten zwar zum besseren Arm, taten dies jedoch übermäßig starr.
- Sie nutzten den besseren Arm zwar effizient aus, zeigten aber eine fast vollständige Inflexibilität, den unterlegenen Arm jemals erneut zu prüfen (fehlende „Re-Checks").
- Dies führte zu einer suboptimalen Performance im Vergleich zu einem Oracle, da potenzielle Informationen über den schlechteren Arm ignoriert wurden.
Einfluss der Decoding-Parameter:
- Die qualitativen Verhaltensmuster (Sturheit, Starrheit) blieben über alle Temperatur- und Top-p-Einstellungen hinweg robust.
- Erhöhte Temperatur (Exploration) führte oft zu mehr Formatfehlern (Invalid Outputs) statt zu echter kognitiver Exploration.

B. Ergebnisse des Computational Modelling

Das hierarchische Rescorla-Wagner-Modell lieferte die mechanistische Erklärung für das beobachtete Verhalten:

Niedrige Lernrate ( $\mu_\alpha$ ): Die Modelle lernten sehr langsam aus neuen Erfahrungen (Werte im Bereich 0.09–0.33). Frühe Zufallsergebnisse wurden daher nicht korrigiert, sondern verfestigt.
Extrem hohe inverse Temperatur ( $\mu_\tau$ ): Die Parameter lagen fast immer am oberen Limit (nahe 5.0), was eine über-deterministische Policy bedeutet. Das Modell wählte die als besser eingestufte Option fast mit 100%iger Sicherheit, ohne Unsicherheit zuzulassen.
Kombination: Die Kombination aus langsamer Aktualisierung der Werte und extrem deterministischer Auswahl erklärt, warum kleine, zufällige Anreize (wie die erste Wahl) zu dauerhaften, starren Präferenzen eskalieren.

4. Hauptbeiträge und Erkenntnisse

Nachweis von „Rigidity": LLMs zeigen eine inhärente Tendenz zur Starrheit, die nicht durch einfache Änderungen der Sampling-Parameter (Temperature/Top-p) behoben werden kann.
Opportunitätsblindheit: Modelle passen ihre Explorationsstrategie nicht an den Informationsgehalt der Umgebung an. Sie explorieren zu wenig, wenn Information wertvoll ist (Symmetrie), und zu wenig, wenn gelegentliche Überprüfung die Effizienz steigern würde (Asymmetrie).
Epistemische Trägheit: Frühe Präferenzen werden durch die niedrige Lernrate und hohe Deterministik konserviert. Neue Evidenz hat wenig Einfluss auf die bestehende Strategie.
Methodischer Fortschritt: Die Studie demonstriert, dass einfache Bandit-Aufgaben in Kombination mit computergestütztem Modellierung (Hierarchical RL) ein leistungsfähiges Werkzeug sind, um die „Black Box" von LLM-Entscheidungen zu öffnen.

5. Bedeutung und Implikationen für Mensch-KI-Dyaden

Die Ergebnisse haben weitreichende Konsequenzen für die Interaktion zwischen Menschen und KI:

Verstärkung von Vorurteilen: Da LLMs deterministisch und selbstsicher wirken, können sie zufällige oder prompt-bedingte Verzerrungen (z. B. Reihenfolgeeffekte) als Fakten an Nutzer weitergeben.
Falsches Vertrauen: Nutzer könnten die deterministische Ausgabe des Modells mit Korrektheit gleichsetzen, was zu vorzeitigen Commitments zu suboptimalen Lösungen führt.
Risiko in beratenden Rollen: Wenn LLMs als Berater agieren, fehlt ihnen die notwendige Flexibilität, um unter Unsicherheit zu explorieren oder bei scheinbar klaren Situationen alternative, seltene Optionen zu prüfen. Dies kann zu „False Positives" (unter Unsicherheit) und „False Negatives" (unter Klarheit) führen.
Design-Empfehlung: Entwickler müssen sich bewusst sein, dass das Erhöhen der Temperatur keine echte kognitive Exploration simuliert, sondern oft nur die Stabilität der Ausgabe beeinträchtigt.

Fazit

Das Paper zeigt, dass LLMs in Entscheidungsprozessen nicht als adaptive, lernende Agenten im menschlichen Sinne agieren, sondern als starre Systeme mit niedriger Lernrate und über-deterministischer Auswahl. Diese „Rigidity" stellt ein fundamentales Risiko für Mensch-KI-Interaktionen dar, da sie zu einer Verstärkung von Anfangsfehlern und einer mangelnden Anpassungsfähigkeit an neue Informationen führt.