SorryDB: Can AI Provers Complete Real-World Lean Theorems?

Die Arbeit stellt SorryDB vor, ein dynamisches Benchmark-System für reale Lean-Theoreme aus GitHub-Projekten, das zeigt, dass aktuelle KI-Ansätze wie Agenten, große Sprachmodelle und spezialisierte Beweiser komplementär sind und keine einzelne Methode alle anderen vollständig übertrifft.

Austin Letson, Leopoldo Sarra, Auguste Poiroux, Oliver Dressler, Paul Lezeau, Dhyan Aranha, Frederick Pu, Aaron Hill, Miguel Corredera Hidalgo, Julian Berman, George Tsoukalas, Lenny Taelman

Veröffentlicht 2026-03-04
📖 4 Min. Lesezeit☕ Kaffeepausen-Lektüre

Each language version is independently generated for its own context, not a direct translation.

🧱 SORRYDB: Der „Flickschuster"-Test für KI-Mathematiker

Stell dir vor, du hast einen riesigen, komplexen Baukasten (wie Lego), mit dem Mathematiker auf der ganzen Welt zusammenarbeiten, um die schwierigsten Rätsel der Welt zu lösen. Aber es gibt ein Problem: Viele der Bauanleitungen sind unvollständig. An den Stellen, an denen ein wichtiger Baustein fehlt, haben die Architekten ein gelbes Klebeband mit der Aufschrift „SORRY" (Entschuldigung) geklebt. Das bedeutet: „Hier fehlt noch etwas, ich komme später darauf zurück."

Das Paper SORRYDB stellt sich genau diese Frage: Können künstliche Intelligenzen (KI) diese „Entschuldigungen" (Sorry) wirklich entfernen und die Lücken in den echten Bauplänen füllen?

1. Das Problem: Die alten Prüfungen sind zu leicht

Bisher wurden KI-Modelle für Mathematik wie Schüler getestet, die nur für die Olympiade gelernt haben (Wettbewerbsaufgaben). Das ist wie wenn man einen Autofahrer nur auf einer leeren Rennstrecke prüft. Er kann schnell fahren, aber weiß er, wie man im echten Stadtverkehr mit Baustellen, Fußgängern und Regen umgeht?

Die alten Tests sind zudem „abgenutzt". Die KIs haben die Lösungen oft schon auswendig gelernt (wie ein Schüler, der die Antworten im Internet nachschaut), statt wirklich zu verstehen.

2. Die Lösung: SORRYDB – Der echte Baustellen-Test

Die Autoren haben SORRYDB erfunden. Das ist keine statische Liste von Aufgaben, sondern ein lebendiger, sich ständig aktualisierender Markt.

  • Wie es funktioniert: Sie scannen 78 echte, aktive Projekte auf GitHub (wo die Mathematiker wirklich arbeiten). Sie suchen nach allen Stellen, an denen ein „SORRY" steht.
  • Der Vergleich: Stell dir vor, du hast einen riesigen Haufen unvollendeter Hauspläne. SORRYDB ist wie ein Test, bei dem du der KI einen Plan gibt und sagst: „Hier fehlt der Dachstuhl. Baue ihn jetzt, aber du musst die anderen Wände, die schon stehen, mit einbeziehen."
  • Der Vorteil: Da die Projekte immer weiterentwickelt werden, gibt es immer neue, frische Aufgaben. Die KI kann nicht einfach alte Lösungen auswendig lernen, weil die Aufgaben sich jeden Monat ändern.

3. Der Test: Wer ist der beste Handwerker?

Die Forscher haben verschiedene Arten von „KI-Handwerkern" getestet, um zu sehen, wer die Lücken am besten füllen kann:

  • Die „Basis-Tools" (Tactics): Das sind wie ein Hammer und eine Schraubzange. Sie können einfache Reparaturen schnell erledigen, aber bei komplexen Dingen versagen sie.
  • Die „Allrounder" (Große Sprachmodelle wie Gemini, Claude, GPT): Das sind die klugen Studenten. Sie können viel, aber manchmal halluzinieren sie (erfinden Bauteile, die es gar nicht gibt).
  • Die „Spezialisten" (Trainierte Mathematik-KIs): Das sind die Meisterhandwerker, die nur Mathematik gelernt haben. Sie sind gut, aber manchmal zu starr.
  • Die „Agenten" (KI mit Feedback-Schleife): Das ist der wichtigste Teil des Papers. Stell dir vor, ein Handwerker baut etwas, prüft es, sieht, dass es wackelt, und baut es nochmal.
    • Ergebnis: Die KIs, die iterativ arbeiten (bauen -> prüfen -> Fehlermeldung lesen -> neu bauen), waren mit Abstand am besten. Sie haben gelernt, aus ihren Fehlern zu lernen, genau wie ein echter Mensch.

4. Die überraschende Erkenntnis: Teamwork ist alles

Das Paper zeigt etwas Wundervolles: Keine einzelne KI ist perfekt.

  • Die eine KI ist gut bei einfachen Aufgaben aus Lehrbüchern.
  • Die andere ist gut bei komplexen, neuen Theorien.
  • Die dritte ist gut darin, bestehende Bibliotheken zu nutzen.

Wenn man alle zusammenwirft (wie ein Team von Handwerkern), können sie viel mehr Aufgaben lösen als jeder einzelne für sich. Es ist wie bei einem Orchester: Die Geige allein klingt schön, aber das ganze Orchester schafft die Symphonie.

5. Warum ist das wichtig?

Früher haben wir KI nur an künstlichen Aufgaben gemessen. Mit SORRYDB testen wir sie im echten Leben.

  • Es zeigt uns, wo die KI heute schon hilft (z. B. beim Überprüfen von Code).
  • Es zeigt uns, wo sie noch scheitert (z. B. wenn sie zu sehr auf Suchwerkzeuge vertraut und die eigentliche Logik vergisst).

Fazit:
SORRYDB ist wie ein lebendiger Fitness-Test für KI-Mathematiker. Er zeigt uns nicht nur, wie stark sie sind, sondern zwingt sie, sich an die chaotische, echte Welt der Mathematik anzupassen. Und das Beste: Je besser die KI wird, desto schwieriger werden die Aufgaben in der Datenbank, sodass wir nie aufhören müssen, sie zu trainieren.

Kurz gesagt: Wir haben aufgehört, die KI nur in der Turnhalle trainieren zu lassen, und schicken sie jetzt direkt auf die Baustelle. Und sie lernt dort tatsächlich etwas! 🏗️🤖✨

Erhalten Sie solche Paper in Ihrem Posteingang

Personalisierte tägliche oder wöchentliche Digests passend zu Ihren Interessen. Gists oder technische Zusammenfassungen, in Ihrer Sprache.

Digest testen →