Learning to Disprove: Formal Counterexample Generation with Large Language Models

Diese Arbeit schließt die Lücke in der KI-gestützten mathematischen Beweissuche, indem sie große Sprachmodelle durch eine symbolische Mutationsstrategie und ein Multi-Belohnungs-Expert-Iteration-Framework darauf trainiert, formal verifizierte Gegenbeispiele in Lean 4 zu generieren.

Zenan Li, Zhaoyu Li, Kaiyu Yang, Xiaoxing Ma, Zhendong Su

Veröffentlicht 2026-03-23
📖 4 Min. Lesezeit☕ Kaffeepausen-Lektüre

Each language version is independently generated for its own context, not a direct translation.

Stellen Sie sich vor, Sie sind ein genialer Mathematik-Lehrer, der versucht, einen sehr klugen, aber noch etwas unerfahrenen Schüler (eine Künstliche Intelligenz) zu unterrichten.

Bisher haben sich die KI-Forscher fast ausschließlich darauf konzentriert, diesem Schüler beizubringen, wie man Beweise führt – also wie man sagt: "Ja, diese Aussage ist wahr, und hier ist der Weg, warum." Das ist wie das Bauen eines perfekten Hauses.

Aber in der Mathematik gibt es eine ebenso wichtige Fähigkeit: Das Zerstören von falschen Aussagen. Wenn jemand behauptet: "Alle Schwäne sind weiß", reicht es nicht, 100 weiße Schwäne zu zählen. Man muss einen schwarzen Schwan finden, um die Aussage zu widerlegen. Das Finden dieses einen schwarzen Schwans nennt man ein Gegenbeispiel.

Bisher war die KI darin ziemlich schlecht. Sie konnte viele Häuser bauen, aber kaum einen schwarzen Schwan finden.

Diese neue Arbeit ("Learning to Disprove") ändert das. Hier ist die Erklärung, wie sie das gemacht haben, mit ein paar einfachen Analogien:

1. Das Problem: Der leere Kühlschrank und der spärliche Lohn

Es gab zwei große Hindernisse, warum die KI das nicht gut konnte:

  • Keine Übungsaufgaben: Es gab kaum Beispiele dafür, wie man Gegenbeispiele findet. Es war, als würde man einem Schüler einen leeren Kühlschrank geben und erwarten, dass er kocht.
  • Kein Feedback: Wenn die KI versuchte, ein Gegenbeispiel zu finden und scheiterte, bekam sie kein Feedback. Es war wie ein Spiel, bei dem man nur gewinnt, wenn man sofort den Jackpot trifft. Wenn man daneben liegt, passiert gar nichts. Das macht es schwer, daraus zu lernen.

2. Die Lösung: Der "Mutations-Generator" (Der kreative Koch)

Um das Problem mit den fehlenden Übungen zu lösen, haben die Forscher einen cleveren Trick angewendet. Sie haben nicht einfach gewartet, bis jemand ein Gegenbeispiel fand. Stattdessen haben sie einen automatischen Generator gebaut.

Stellen Sie sich vor, Sie haben eine perfekte, bewiesene mathematische Regel (z. B. "Wenn es regnet, wird der Boden nass").
Der Generator nimmt diese Regel und nimmt einen wichtigen Teil davon weg (z. B. "Wenn es regnet...").
Jetzt ist die Regel falsch! Der Boden könnte trocken bleiben, wenn es nicht regnet.
Der Generator sagt dann zur KI: "Hey, hier ist eine falsche Regel. Finde mir ein konkretes Beispiel, das zeigt, warum sie falsch ist!"

Durch diesen Prozess haben sie aus wenigen bestehenden Regeln 575.000 neue Übungen geschaffen. Plötzlich hatte der Schüler einen riesigen Übungsheft voller Aufgaben, wie man falsche Aussagen entlarvt.

3. Der "Doppel-Lösegeld"-Trick (Das Belohnungssystem)

Aber wie lernt die KI, wenn sie oft scheitert? Hier kommt der zweite Teil des Tricks ins Spiel: Die Multi-Belohnung.

Stellen Sie sich vor, die KI versucht, einen schwarzen Schwan zu finden.

  • Früher: Wenn sie keinen schwarzen Schwan fand, bekam sie 0 Punkte. Punkt. Ende.
  • Jetzt: Die Forscher haben das Spiel cleverer gemacht.
    1. Die KI muss nicht nur den schwarzen Schwan finden (das ist schwer).
    2. Sie muss auch beweisen, dass der ursprüngliche Teil der Regel (den wir entfernt haben) in diesem Fall nicht gilt.

Das ist wie bei einem Detektiv: Wenn er den Täter nicht sofort findet, bekommt er trotzdem einen kleinen Punkt dafür, wenn er beweisen kann, dass der Verdächtige nicht am Tatort war.
Dieser "kleine Punkt" (die Belohnung) hilft der KI, auch dann weiterzulernen, wenn sie das große Ziel noch nicht erreicht hat. Sie lernt Schritt für Schritt, statt frustriert aufzugeben.

4. Der Zwei-Phasen-Prozess: Erst raten, dann beweisen

Die KI wurde in zwei Schritten trainiert:

  1. Der Träumer (Informelles Denken): Die KI denkt sich eine Idee aus. "Vielleicht ist dieser Schwan schwarz, weil er in einem dunklen Wald lebt." Sie muss keine perfekte Formel haben, nur eine plausible Idee.
  2. Der Richter (Formaler Beweis): Sobald die Idee da ist, muss die KI diese Idee in eine strenge, mathematische Sprache (Lean 4) übersetzen, die ein Computer-Prüfer automatisch überprüfen kann.

Das ist wie beim Schreiben eines Romans: Zuerst schreibt man eine grobe Skizze (die Idee), und dann muss man sie so perfekt formulieren, dass ein strenger Lektor (der Computer) sie akzeptiert.

Das Ergebnis

Das Ergebnis ist ein KI-Modell, das nicht nur gut darin ist, Dinge zu beweisen, sondern auch darin, falsche Dinge zu entlarven.

  • Es ist wie ein Schüler, der nicht nur Hausaufgaben macht, sondern auch lernt, Fehler in den Aufgaben des Lehrers zu finden.
  • In Tests hat dieses neue Modell deutlich besser abgeschnitten als alle bisherigen Modelle. Es hat die Fähigkeit, logisch zu denken, indem es lernt, sich selbst zu hinterfragen und Fehler zu finden.

Zusammenfassend: Die Forscher haben der KI einen riesigen Vorrat an "falschen Regeln" gegeben, um sie zu üben, und ein Belohnungssystem entwickelt, das sie auch für kleine Erfolge lobt. So wurde aus einem KI-Modell, das nur bauen konnte, eines, das auch gut darin ist, zu zerstören – und damit die Mathematik sicherer zu machen.