ABD: Default Exception Abduction in Finite First Order Worlds

Die Arbeit stellt ABD vor, einen Benchmark zur Bewertung der Fähigkeit von Sprachmodellen, in endlichen ersten Ordnungs-Welten durch das Ableiten sparsamer Ausnahmeregeln die Satisfiabilität von Theorien wiederherzustellen, und zeigt dabei trotz hoher Validität signifikante Defizite in der Sparsamkeit und Generalisierung auf.

Serafim Batzoglou

Veröffentlicht 2026-03-10✓ Author reviewed
📖 5 Min. Lesezeit🧠 Tiefgang

Each language version is independently generated for its own context, not a direct translation.

Stellen Sie sich vor, Sie sind ein Detektiv in einer kleinen, überschaubaren Stadt. Diese Stadt hat bestimmte Regeln, die normalerweise immer gelten. Zum Beispiel: „Wenn jemand einen Hund hat, dann ist er freundlich." Das ist die Grundregel.

Aber im echten Leben gibt es immer Ausnahmen. Vielleicht ist Herr Müller freundlich, aber Frau Schmidt hat auch einen Hund und ist sehr unfreundlich. Warum? Vielleicht ist sie einfach „besonders" (in der Logik nennen wir das „abnorm").

Das Papier ABD (Default–Exception Abduction) stellt eine neue Art von Rätsel für künstliche Intelligenz (KI) vor, um zu testen, wie gut diese KIs solche Ausnahmen finden können.

Hier ist die einfache Erklärung, wie das funktioniert:

1. Das Rätsel: Die Regel und die Störers

Die KI bekommt eine Liste von Regeln (die „Default-Theorie") und eine Liste von Beobachtungen aus verschiedenen kleinen Welten (Städten).

  • Die Regel: „Alle Vögel können fliegen."
  • Die Beobachtung: In einer Stadt gibt es einen Vogel, der nicht fliegen kann.
  • Die Aufgabe der KI: Sie muss eine Regel für Ausnahmen erfinden. Sie muss sagen: „Welche Vögel sind eigentlich die Ausnahmen?"
    • Eine gute Antwort wäre: „Nur Pinguine sind Ausnahmen." (Das ist einfach und trifft den Kern).
    • Eine schlechte Antwort wäre: „Alle Vögel, die am Dienstag geboren wurden, oder die rote Federn haben, oder die links von einem Baum stehen..." (Das ist zu kompliziert und passt nur zufällig auf die aktuelle Stadt).

Die KI muss also eine Formel finden, die erklärt, warum die Regel manchmal nicht funktioniert, aber dabei so einfach wie möglich bleiben (das nennt man „Sparsamkeit").

2. Die drei Schwierigkeitsstufen (Die drei Szenarien)

Das Papier testet die KI unter drei verschiedenen Bedingungen, wie gut sie die Welt sehen kann:

  • ABD-Full (Der perfekte Blick): Die KI sieht alles. Sie kennt jeden Vogel und jede Eigenschaft in der Stadt. Hier ist das Rätsel: „Finde die Ausnahme, die auf diese genaue Liste passt."
  • ABD-Partial (Der Blick durch den Nebel): Die KI sieht nicht alles. Manche Fakten sind unsichtbar (wie ein Nebel). Die KI darf raten: „Vielleicht ist der Vogel ja doch ein Pinguin, auch wenn ich es nicht sehe." Solange es eine Möglichkeit gibt, dass die Regel stimmt, ist die Antwort erlaubt.
  • ABD-Skeptical (Der vorsichtige Blick): Das ist die härteste Prüfung. Die KI muss eine Regel finden, die funktioniert, egal wie der Nebel sich auflöst. Sie darf nicht auf Glück hoffen. Wenn es irgendeine Möglichkeit gibt, dass die Regel falsch ist, muss die KI die Ausnahme markieren. Das zwingt die KI zu sehr robusten, aber oft vorsichtigeren Regeln.

3. Was haben die Forscher herausgefunden?

Sie haben 11 der fortschrittlichsten KI-Modelle (wie GPT-4, Gemini, Claude etc.) gegen dieses Rätsel getestet. Hier sind die wichtigsten Erkenntnisse, übersetzt in Alltagssprache:

  • Die KI kann die Regel finden, aber sie ist oft zu „fett":
    Viele KIs finden eine Lösung, die funktioniert, aber sie ist unnötig kompliziert. Statt zu sagen „Nur Pinguine sind Ausnahmen", sagen sie: „Ausnahmen sind alle Vögel, die Pinguine sind, ODER die am Montag geboren wurden, ODER die eine blaue Socke tragen..."
    Das funktioniert auf den Trainings-Städten, aber wenn man sie in eine neue Stadt schickt, scheitern sie oft, weil ihre Regel zu spezifisch ist.

  • Der „GPT-5.4"-Effekt:
    Ein Modell (GPT-5.4) war besonders gut darin, die Anzahl der Ausnahmen zu minimieren (es war sehr „sparsam"). Aber der Preis dafür war hoch: Seine Regeln waren riesig und unübersichtlich (wie ein 65-seitiges Gesetz für eine einfache Regel). Wenn man es in eine neue Stadt schickte, funktionierte es fast nie. Es hatte die Lösung auswendig gelernt, statt das Prinzip zu verstehen.

  • Die zwei Arten, zu versagen:

    1. In den einfachen Welten (Full/Partial): Die KI wird zu vorsichtig und markiert zu viele Dinge als Ausnahmen. Sie sagt: „Fast alle sind Ausnahmen!", nur um sicherzugehen.
    2. In den vorsichtigen Welten (Skeptical): Die KI wird zu spezifisch. Sie findet eine Regel, die perfekt auf die Trainings-Städte passt, aber sobald sich der Nebel anders auflöst (in neuen Städten), bricht die Regel zusammen.

4. Warum ist das wichtig?

Bisher haben wir KI oft nur getestet, ob sie „richtig" oder „falsch" liegt. Dieses Papier zeigt, dass das nicht reicht.

  • Eine KI kann „richtig" liegen, aber eine so komplizierte Regel erfinden, dass sie in der echten Welt nutzlos ist.
  • Echte Intelligenz bedeutet nicht nur, eine Lösung zu finden, sondern die einfachste, robusteste Lösung zu finden, die auch in neuen Situationen funktioniert.

Zusammenfassend:
Das Papier ABD ist wie ein neuer, sehr genauer IQ-Test für KIs. Er prüft nicht nur, ob die KI rechnen kann, sondern ob sie kluge, einfache Ausnahmen finden kann, die auch dann noch funktionieren, wenn sich die Welt ein wenig verändert. Die Ergebnisse zeigen: Die besten KIs sind schon sehr gut, aber sie neigen immer noch dazu, ihre Lösungen unnötig kompliziert zu machen oder zu sehr auf die Trainingsdaten zu starren, statt das allgemeine Prinzip zu verstehen.