The Fragility Of Moral Judgment In Large Language Models

Each language version is independently generated for its own context, not a direct translation.

Stellen Sie sich vor, Sie haben einen sehr klugen, aber etwas verwirrten digitalen Berater, den wir „Künstliche Intelligenz" (KI) nennen. Dieser Berater wird immer öfter gefragt: „Hey, war ich ein Idiot, als ich das getan habe?" oder „Wer hat hier unrecht?" – genau wie auf der berühmten Reddit-Seite „Am I the Asshole?" (Bin ich der Arschloch?).

Die Forscher Tom van Nuenen und Pratik Sachdeva haben sich gefragt: Ist dieser digitale Berater wirklich so weise und stabil, wie er scheint? Oder ist sein Urteil so zerbrechlich, dass es sich ändert, nur weil man die Frage ein bisschen anders formuliert?

Ihre Antwort ist erschreckend einfach: Die KI ist extrem anfällig. Ihr moralisches Urteil hängt weniger von den Tatsachen ab als davon, wie die Geschichte erzählt wird und wie die Frage gestellt wird.

Hier ist die Studie, übersetzt in eine einfache Geschichte mit ein paar kreativen Vergleichen:

1. Der „Verkleidungs"-Effekt (Inhaltliche Änderungen)

Stellen Sie sich vor, Sie erzählen einem Freund ein Problem.

Variante A: „Ich habe meiner Freundin verboten, Kaffee zu trinken, weil sie Angst hat."
Variante B: „Meine Freundin hat sich über mein Verbot beschwert, Kaffee zu trinken."

Die Fakten sind fast identisch. Aber die KI ändert ihr Urteil drastisch, je nachdem, wer im Mittelpunkt der Geschichte steht.

Oberflächliche Änderungen (Das „Rauschen"): Wenn Sie nur ein Wort ändern (z. B. „Kaffee" durch „Tee" ersetzen) oder einen Satz hinzufügen, der nichts mit dem Moralproblem zu tun hat (z. B. „Es war ein sonniger Tag"), bleibt die KI ziemlich stabil. Das ist wie das Hinzufügen von Rauschen zu einem Radiosignal – der Inhalt kommt trotzdem klar an.
Die Perspektive (Der „Kamera-Winkel"): Hier wird es kritisch. Wenn Sie die Geschichte aus der Ich-Perspektive („Ich habe...") in eine Dritte-Person-Perspektive („Die Person hat...") umwandeln, kippt das Urteil der KI oft komplett.
- Die Analogie: Stellen Sie sich vor, Sie schauen ein Theaterstück. Wenn Sie den Hauptdarsteller direkt ansehen (Ich-Perspektive), fühlen Sie vielleicht Mitleid. Wenn Sie ihn aber von hinten durch eine Kamera beobachten (Dritte Person), wirkt er vielleicht distanziert und kalt. Die KI reagiert auf diesen „Kamera-Winkel" so stark, dass sie manchmal sagt: „Er war ein Idiot", obwohl sie in der anderen Version sagte: „Er hatte recht".

2. Der „Überredungs"-Trick (Rhetorische Kniffe)

Die Forscher haben getestet, ob die KI sich manipulieren lässt, wenn der Erzähler bestimmte Tricks anwendet.

Der „Ich bin schuld"-Trick: Wenn der Erzähler sagt: „Ich fühle mich schuldig, ich habe es falsch gemacht", dann stimmt die KI oft zu und sagt: „Ja, du bist schuld." Die KI glaubt, dass Selbstkritik Ehrlichkeit ist.
Der „Ich habe recht"-Trick: Wenn der Erzähler sagt: „Ich habe absolut nichts falsch gemacht, alle anderen sind dumm", dann passiert das Gegenteil. Die KI wird misstrauisch und sagt: „Nein, du bist der Arschloch."
- Die Analogie: Die KI ist wie ein Richter, der auf das Verhalten des Angeklagten achtet. Wenn der Angeklagte sich demütig verbeugt, denkt der Richter: „Er hat Einsicht." Wenn der Angeklagte jedoch laut schreit und die Polizei beschimpft, denkt der Richter: „Er ist aggressiv und hat keine Einsicht." Die KI bewertet also nicht nur die Tat, sondern auch die Art und Weise, wie man sich verteidigt.

3. Der „Baukasten"-Effekt (Die Frage selbst)

Das ist der wichtigste und beunruhigendste Teil der Studie. Es geht nicht nur um die Geschichte, sondern darum, wie man die KI fragt.

Stellen Sie sich vor, Sie haben einen Baukasten für Fragen. Sie können die Bausteine (Anweisungen) in verschiedenen Reihenfolgen anordnen:

Variante A: „Gib mir zuerst eine Bewertung, dann erkläre warum."
Variante B: „Erkläre mir zuerst, warum es passiert ist, und gib dann eine Bewertung."
Variante C: „Hier ist eine Geschichte. Sag mir einfach, was du denkst." (Keine festen Kategorien).

Das Ergebnis: Die KI gibt bei denselben Geschichten völlig unterschiedliche Antworten, je nachdem, wie der Baukasten aufgebaut ist!

Bei Variante A (Bewertung zuerst) ist die KI strenger und sagt öfter: „Du bist schuld."
Bei Variante B (Erklärung zuerst) ist die KI nachsichtiger und sagt öfter: „Niemand ist schuld" oder „Alle sind schuld."
Bei Variante C (Offene Frage) weicht die KI oft aus und sagt gar keine klare Bewertung mehr.
Die Analogie: Stellen Sie sich vor, Sie gehen in ein Restaurant.
- Wenn der Kellner fragt: „Möchten Sie das Essen jetzt oder später?" (Struktur A), bestellen Sie sofort.
- Wenn er fragt: „Wie war Ihr Tag? Möchten Sie etwas trinken?" (Struktur B), bestellen Sie vielleicht erst später.
- Wenn er nur sagt: „Hier ist die Speisekarte" (Struktur C), schauen Sie vielleicht gar nicht erst hin.
  Die KI „isst" nicht das gleiche moralische Gericht; sie „isst" das, was der Kellner (die Fragestellung) ihr serviert.

Was bedeutet das für uns?

Die Studie zeigt uns drei wichtige Dinge:

Keine absolute Wahrheit: Wenn Sie heute eine KI fragen, ob Sie im Recht sind, und morgen dieselbe Frage anders stellen, können Sie zwei völlig entgegengesetzte Antworten bekommen. Die KI hat kein festes „Gewissen", das unabhängig von der Frageform ist.
Die Form ist wichtiger als der Inhalt: Bei moralischen Dilemmata entscheiden oft kleine Details (Wer erzählt die Geschichte? Wie ist die Frage formuliert?), nicht die eigentlichen Fakten.
Vorsicht bei der Nutzung: Wenn wir KI als Ratgeber für echte Lebensprobleme nutzen, müssen wir uns bewusst sein, dass das Ergebnis stark davon abhängt, wie wir die KI „dressieren". Ein geschickter Nutzer könnte die KI dazu bringen, fast alles zu rechtfertigen, indem er die Frage nur ein wenig verändert.

Fazit: Die moralische Urteilskraft dieser KI-Modelle ist wie ein Wackelbild. Es sieht stabil aus, wenn man es von vorne betrachtet. Aber sobald man den Winkel ändert oder den Rahmen verschiebt, kippt das Bild um. Bevor wir uns blind auf KI als moralischen Kompass verlassen, müssen wir lernen, dass dieser Kompass nicht nur die Richtung zeigt, sondern auch stark von dem Wind beeinflusst wird, der ihn antreibt.

The Fragility Of Moral Judgment In Large Language Models

1. Der „Verkleidungs"-Effekt (Inhaltliche Änderungen)

2. Der „Überredungs"-Trick (Rhetorische Kniffe)

3. Der „Baukasten"-Effekt (Die Frage selbst)

Was bedeutet das für uns?

1. Problemstellung

2. Methodik

3. Wichtige Beiträge

4. Ergebnisse

A. Stabilität und Konsistenz

B. Sensitivität gegenüber Perturbationen

C. Der dominante Einfluss der Protokolle

D. Analyse der Erklärungen

5. Bedeutung und Schlussfolgerung

The Fragility Of Moral Judgment In Large Language Models

1. Der „Verkleidungs"-Effekt (Inhaltliche Änderungen)

2. Der „Überredungs"-Trick (Rhetorische Kniffe)

3. Der „Baukasten"-Effekt (Die Frage selbst)

Was bedeutet das für uns?

1. Problemstellung

2. Methodik

3. Wichtige Beiträge

4. Ergebnisse

A. Stabilität und Konsistenz

B. Sensitivität gegenüber Perturbationen

C. Der dominante Einfluss der Protokolle

D. Analyse der Erklärungen

5. Bedeutung und Schlussfolgerung

Mehr davon

MASEval: Extending Multi-Agent Evaluation from Models to Systems

LDP: An Identity-Aware Protocol for Multi-Agent LLM Systems

Quantifying the Accuracy and Cost Impact of Design Decisions in Budget-Constrained Agentic LLM Search

Interpretable Markov-Based Spatiotemporal Risk Surfaces for Missing-Child Search Planning with Reinforcement Learning and LLM-Based Quality Assurance

AgentOS: From Application Silos to a Natural Language-Driven Data Ecosystem