Evaluation of Deontic Conditional Reasoning in Large Language Models: The Case of Wason's Selection Task

Diese Studie zeigt, dass Large Language Models wie Menschen beim Wason-Selektionstest bei deontischen Regeln besser abschneiden als bei deskriptiven und dabei ähnliche Fehlermuster wie die menschliche Matching-Bias aufweisen.

Hirohiko Abe, Kentaro Ozeki, Risako Ando, Takanobu Morishita, Koji Mineshima, Mitsuhiro Okada

Veröffentlicht 2026-03-09
📖 4 Min. Lesezeit☕ Kaffeepausen-Lektüre

Each language version is independently generated for its own context, not a direct translation.

Hier ist eine einfache, bildhafte Erklärung der Studie auf Deutsch:

🕵️‍♂️ Die große Logik-Prüfung: Können KI-Modelle wie Menschen denken?

Stell dir vor, du hast einen riesigen, super-intelligenten Roboter (eine sogenannte „Large Language Model" oder KI), der alles auf der Welt gelesen hat. Er kann Gedichte schreiben, Code programmieren und Gespräche führen. Aber kann er logisch denken? Und denkt er dabei wie ein Mensch?

Das ist genau das, was diese Forscher von der Universität Keio in Tokio herausfinden wollten. Sie haben eine alte, berühmte Logik-Aufgabe namens „Wason-Auswahltest" verwendet, um den KI-Modellen auf die Finger zu schauen.

1. Der Test: Das Karten-Spiel

Stell dir ein Kartenspiel vor. Es gibt vier Karten auf dem Tisch:

  • Eine Karte zeigt eine Zahl (z. B. 7).
  • Eine Karte zeigt einen Buchstaben (z. B. D).
  • Eine Karte zeigt eine andere Zahl (z. B. 12).
  • Eine Karte zeigt einen anderen Buchstaben (z. B. d).

Die Regel lautet: „Wenn auf der einen Seite eine ungerade Zahl steht, dann muss auf der anderen Seite ein großer Buchstaben stehen."

Die Frage ist: Welche Karten musst du umdrehen, um zu prüfen, ob die Regel stimmt?

  • Die logisch korrekte Antwort: Du musst die 7 (weil sie ungerade ist) und das kleine d (weil es kein großer Buchstaben ist) umdrehen. Nur so kannst du beweisen, dass die Regel nicht gebrochen wurde.
  • Der menschliche Fehler: Die meisten Menschen (und leider auch viele KIs) drehen die 7 und das große D um. Warum? Weil sie nur das suchen, was die Regel bestätigt (7 und D passen ja zusammen). Sie vergessen, dass sie auch das suchen müssen, was die Regel widerlegt.

2. Der Trick: Regeln mit „Müssen" vs. Regeln ohne Sinn

Die Forscher haben zwei Arten von Regeln getestet, um zu sehen, ob die KI wie ein Mensch reagiert:

  • Typ A: Die trockene Logik (Beschreibend)
    • Beispiel: „Wenn eine Zahl ungerade ist, dann ist die andere Seite ein großer Buchstaben."
    • Das ist wie eine abstrakte Mathematikaufgabe ohne echten Bezug zum Leben.
  • Typ B: Die Regel mit „Müssen" (Deontisch)
    • Beispiel: „Wenn Blut auf dem Boden ist, muss die Krankenschwester Handschuhe tragen."
    • Das ist eine Regel, die uns aus dem Alltag bekannt ist (Pflichten, Verbote, Gesetze).

Das Ergebnis:
Genau wie Menschen schneiden die KIs bei den Typ-B-Regeln (mit „muss" oder „darf nicht") viel besser ab! Bei den trockenen, abstrakten Regeln machen sie mehr Fehler.

  • Die Metapher: Stell dir vor, die KI ist wie ein Schüler. Bei trockenen Matheaufgaben (Typ A) ist er verwirrt und macht Fehler. Aber wenn es um eine Regel geht, die er versteht (z. B. „Wenn es regnet, muss man einen Regenschirm mitnehmen"), dann ist er plötzlich ein Genie. Die KI scheint also einen speziellen „Menschlichkeits-Modus" für soziale Regeln zu haben.

3. Warum machen sie Fehler? (Der „Passende-Buchstaben"-Effekt)

Die Forscher wollten wissen: Warum machen die KIs Fehler? Gibt es zwei mögliche Gründe?

  • Theorie 1: Der Bestätigungs-Fehler (Confirmation Bias)
    • Die KI sucht nur nach Beweisen, die ihre Regel bestätigen. Sie will nicht sehen, dass sie falsch liegen könnte.
  • Theorie 2: Der „Passende-Buchstaben"-Fehler (Matching Bias)
    • Die KI ist etwas faul beim Lesen. Sie ignoriert kleine Wörter wie „nicht" oder „kein". Sie sucht einfach nur nach den Wörtern, die sie in der Regel gesehen hat.
    • Beispiel: Wenn die Regel lautet „Wenn nicht rot, dann nicht blau", sucht die KI trotzdem nach „rot" und „blau", weil diese Wörter im Satz vorkommen, und ignoriert das wichtige „nicht".

Das Fazit der Studie:
Die KIs machen Fehler eher wegen Theorie 2 (Passende-Buchstaben). Sie schauen auf die Wörter in der Regel und drehen die Karten um, die diese Wörter enthalten, egal ob dort ein „nicht" davor steht oder nicht. Sie übersehen die Verneinung, genau wie Menschen es oft tun.

4. Was bedeutet das für uns?

Diese Studie zeigt uns zwei wichtige Dinge:

  1. KIs sind nicht nur reine Rechenmaschinen: Sie zeigen ähnliche Schwächen und Stärken wie Menschen. Sie sind bei Regeln, die mit Pflichten und Alltag zu tun haben, viel besser als bei abstraktem Unsinn. Das deutet darauf hin, dass sie durch das Lesen unserer Texte (die voller sozialer Regeln sind) gelernt haben, wie wir denken.
  2. KIs können „faul" beim Lesen sein: Sie neigen dazu, wichtige Wörter wie „nicht" zu übersehen, wenn sie nur auf die Hauptwörter achten. Das ist eine wichtige Warnung für alle, die KIs für wichtige Entscheidungen nutzen wollen.

Zusammengefasst:
Die KI ist wie ein sehr gut ausgebildeter Assistent, der bei alltäglichen Regeln („Du musst den Müll rausbringen") brillant ist, aber bei abstrakten Logik-Rätseln manchmal die Verneinung übersieht und einfach nur das sucht, was ihm bekannt vorkommt.