FormalProofBench: Can Models Write Graduate Level Math Proofs That Are Formally Verified?

Each language version is independently generated for its own context, not a direct translation.

Stellen Sie sich vor, Sie haben einen sehr talentierten, aber manchmal etwas chaotischen Mathematik-Studenten. Er kann brillante Erklärungen auf einem weißen Brett schreiben, die auf den ersten Blick perfekt klingen. Aber wenn Sie diese Erklärung Zeile für Zeile mit einem strengen, unerbittlichen Computerprogramm überprüfen, stellen Sie fest: „Moment mal, hier fehlt ein kleiner Schritt" oder „Dieser Satz existiert gar nicht in der Mathematik."

Genau dieses Problem lösen die Autoren des Papers „FormalProofBench". Sie haben einen neuen, extremen Test entwickelt, um zu sehen, ob künstliche Intelligenz (KI) nicht nur tut, als ob sie Mathematik versteht, sondern ob sie wirklich beweisen kann, dass ihre Antworten korrekt sind.

Hier ist die einfache Erklärung, was sie gemacht haben und was sie herausgefunden haben:

1. Der Test: Ein „Lehrer", der nicht lügt

Normalerweise testen wir KI mit Aufgaben wie „Löse diese Matheaufgabe". Die KI schreibt eine Antwort, und ein Mensch (oder eine andere KI) liest sie und sagt: „Klingt gut!" Aber das ist riskant. Die KI könnte etwas Erfinden, das logisch klingt, aber falsch ist.

FormalProofBench ist anders. Es ist wie ein unbestechlicher Schiedsrichter.

Die Aufgabe: Die KI bekommt eine komplexe mathematische Frage (auf dem Niveau eines Masterstudiums oder einer Promotion).
Die Regel: Die KI darf keine normale Textantwort schreiben. Sie muss den Beweis in einer speziellen Programmiersprache namens Lean 4 schreiben.
Der Trick: Lean 4 ist wie ein mathematisches Gericht. Wenn der Beweis auch nur einen winzigen Fehler hat, lehnt das Programm ihn sofort ab. Es gibt kein „na ja, es klingt fast richtig". Entweder der Beweis läuft durch (Grünes Licht) oder er stürzt ab (Rotes Licht).

2. Die Prüfungssituation: Ein Werkzeugkasten mit Zeitlimit

Stellen Sie sich vor, die KI sitzt in einem Raum mit einer riesigen Bibliothek (Mathlib) und einem Computer.

Sie hat 40 Runden Zeit, um die Aufgabe zu lösen.
In jeder Runde darf sie:
- In der Bibliothek nachschlagen (Such-Tool).
- Code schreiben und testen, um zu sehen, ob es funktioniert (Code-Tool).
- Am Ende ihren Beweis einreichen.

Es ist wie ein Marathon mit Werkzeugen: Die KI muss nicht nur wissen, was sie tun muss, sondern auch wie sie die Werkzeuge benutzt, um Fehler sofort zu finden und zu korrigieren.

3. Die Ergebnisse: Wer besteht die Prüfung?

Die Forscher haben die besten KI-Modelle der Welt (von Firmen wie Anthropic, OpenAI, Google etc.) gegeneinander antreten lassen. Das Ergebnis war überraschend, aber auch ermutigend:

Der Gewinner: Das Modell Claude Opus 4.5 (eine sehr fortschrittliche KI) hat es geschafft, 33,5 % der Aufgaben korrekt zu lösen.
Der Rest: Danach bricht die Leistung rapide ein. Die meisten anderen Modelle lagen weit darunter (oft nur bei 3–15 %).

Was bedeutet das?
Selbst die beste KI der Welt schafft es nur bei etwa einem Drittel der Aufgaben, einen mathematisch wasserdichten Beweis zu liefern. Das zeigt, dass wir noch einen langen Weg vor uns haben, bevor KI wirklich verlässliche Mathematiker ersetzen kann. Aber: Dass sie es überhaupt bei einem Drittel schafft, ist ein riesiger Sprung!

4. Die Geheimwaffe: „Probieren geht über Studieren"

Eine der wichtigsten Entdeckungen des Papers ist, wie die erfolgreichen KIs gearbeitet haben.

Die Verlierer: Viele KIs haben versucht, alles nur durch Nachschlagen in der Bibliothek zu lösen. Sie haben hunderte Male nach Theoremen gesucht, aber nie etwas ausprobiert. Das war wie jemand, der nur die Bedienungsanleitung liest, aber den Motor nie startet.
Die Gewinner: Die erfolgreichen KIs haben viel Code ausgeführt. Sie haben kleine Teile ihres Beweises getestet, gesehen, wo es hakt, und es sofort korrigiert.
- Die Analogie: Stellen Sie sich vor, Sie bauen ein Möbelstück. Die Gewinner bauen erst ein kleines Teil zusammen, schauen, ob es wackelt, und korrigieren es sofort. Die Verlierer versuchen, das ganze Regal im Kopf zu bauen, ohne je ein Schraubenzieher zu benutzen.

Fazit: Was lernen wir daraus?

Dieses Papier ist wie ein Realitätscheck für die KI-Entwicklung.

Vertrauen Sie nicht nur dem „Klingt gut": Ohne formale Überprüfung (wie bei Lean 4) können KIs sehr überzeugende, aber falsche Antworten geben.
Wir sind noch nicht am Ziel: Selbst die smartesten KIs scheitern noch oft an fortgeschrittener Mathematik.
Der Weg nach vorne: Die Zukunft liegt nicht darin, dass KIs einfach nur mehr Text produzieren, sondern darin, dass sie lernen, ihre Ideen aktiv zu testen und zu überprüfen, bevor sie sie abgeben.

Kurz gesagt: KI wird langsam zu einem sehr guten Assistenten für Mathematiker, aber sie ist noch kein Ersatz für einen strengen, prüfenden Professor.

FormalProofBench: Can Models Write Graduate Level Math Proofs That Are Formally Verified?

1. Der Test: Ein „Lehrer", der nicht lügt

2. Die Prüfungssituation: Ein Werkzeugkasten mit Zeitlimit

3. Die Ergebnisse: Wer besteht die Prüfung?

4. Die Geheimwaffe: „Probieren geht über Studieren"

Fazit: Was lernen wir daraus?

Titel: FormalProofBench: Können Modelle graduate-level mathematische Beweise schreiben, die formal verifiziert sind?

1. Problemstellung

2. Methodik

Der Benchmark (FormalProofBench)

Evaluierungs-Harness (Agentic Loop)

3. Wichtige Beiträge

4. Ergebnisse

Leistungsübersicht

Tool-Nutzungs-Analyse

Kosten und Latenz

5. Bedeutung und Ausblick

FormalProofBench: Can Models Write Graduate Level Math Proofs That Are Formally Verified?

1. Der Test: Ein „Lehrer", der nicht lügt

2. Die Prüfungssituation: Ein Werkzeugkasten mit Zeitlimit

3. Die Ergebnisse: Wer besteht die Prüfung?

4. Die Geheimwaffe: „Probieren geht über Studieren"

Fazit: Was lernen wir daraus?

Titel: FormalProofBench: Können Modelle graduate-level mathematische Beweise schreiben, die formal verifiziert sind?

1. Problemstellung

2. Methodik

Der Benchmark (FormalProofBench)

Evaluierungs-Harness (Agentic Loop)

3. Wichtige Beiträge

4. Ergebnisse

Leistungsübersicht

Tool-Nutzungs-Analyse

Kosten und Latenz

5. Bedeutung und Ausblick

Mehr davon