A Minimal Agent for Automated Theorem Proving

Each language version is independently generated for its own context, not a direct translation.

Ein einfacher Beweis-Assistent: Wie ein schlauer Roboter Mathe-Hausaufgaben macht

Stellen Sie sich vor, Sie versuchen, ein sehr schwieriges Mathe-Rätsel zu lösen, aber Sie haben keine Ahnung, wo Sie anfangen sollen. Früher brauchten Sie dafür einen genialen Mathematiker, der Jahre studiert hat. Heute versuchen Forscher, künstliche Intelligenz (KI) dafür einzusetzen. Das Problem ist: Die meisten dieser KI-Systeme sind so komplex wie ein riesiger, schwer zu bedienender Supercomputer, der extrem teuer ist und ständig neue Software-Updates braucht, um zu funktionieren.

Die Autoren dieses Papers haben sich gedacht: „Warum bauen wir einen solchen Riesen, wenn wir es auch mit einem schlanken, cleveren Werkzeug schaffen können?"

Sie haben AxProverBase entwickelt – einen „minimalen Agenten" für mathematische Beweise. Hier ist, wie er funktioniert, erklärt mit einfachen Bildern:

1. Der Dreiklang des Erfolgs: Ein Team aus drei Figuren

Stellen Sie sich den Beweisprozess nicht als einen einsamen Denker vor, sondern als ein kleines Team mit drei Rollen:

Der Erfinder (Proposer): Das ist der KI-Teil, der versucht, den Beweis zu schreiben. Er ist wie ein Student, der versucht, eine Hausaufgabe zu lösen. Er schreibt Code in einer speziellen Sprache namens „Lean" (eine Sprache, die Computer verstehen können, um Mathematik zu prüfen).
Der Prüfer (Compiler & Reviewer): Das ist der strenge Lehrer.
- Der Compiler schaut sofort: „Hast du einen Tippfehler gemacht? Funktioniert das überhaupt?" Wenn nein, gibt er eine Rückmeldung: „Hier ist ein Fehler."
- Der Reviewer ist wie ein Detektiv, der prüft: „Hast du wirklich alles bewiesen oder hast du nur geschummelt und Lücken gelassen?"
Das Gedächtnis (Memory): Das ist das wichtigste neue Element. Wenn der Erfinder scheitert, vergisst er nicht einfach. Er schreibt sich in ein kleines Notizbuch (sein „Gedächtnis"), was schiefgelaufen ist und was er daraus gelernt hat. Beim nächsten Versuch liest er dieses Notizbuch, damit er denselben Fehler nicht noch einmal macht.

2. Der Prozess: Lernen durch Ausprobieren

Stellen Sie sich vor, Sie versuchen, ein Schloss zu öffnen, ohne den Schlüssel zu kennen.

Der alte Weg (Einmaliger Versuch): Die meisten KIs versuchen, das Schloss mit einem einzigen, perfekten Ruck zu öffnen. Wenn sie scheitern, geben sie auf. Das funktioniert selten bei schwierigen Aufgaben.
Der neue Weg (AxProverBase): Unser Agent versucht es. Er scheitert. Der Prüfer sagt: „Der Schlüssel passt nicht, weil er zu dick ist." Der Agent schreibt sich das auf: „Aha, ich brauche einen dünneren Schlüssel." Er versucht es erneut. Scheitert wieder. „Okay, der Schlüssel ist zu dünn, aber der Griff ist falsch." Er schreibt es auf.
- Nach ein paar Versuchen hat er aus seinen Fehlern gelernt und findet schließlich den perfekten Weg, das Schloss zu öffnen.

Das Paper zeigt, dass dieser iterative Prozess (Versuch, Fehler, Lernen, neuer Versuch) der wichtigste Faktor ist. Es ist viel effektiver als einfach nur 100 verschiedene Versuche gleichzeitig zu starten, ohne daraus zu lernen.

3. Warum ist das so besonders?

Bisher waren die besten KI-Mathe-Systeme wie riesige, teure Fabriken, die man nur mit viel Geld und Spezialisten betreiben konnte. AxProverBase ist hingegen wie ein schlanker, intelligenter Werkzeugkasten.

Einfachheit: Er braucht keine riesige Infrastruktur.
Kosten: Er ist viel günstiger, weil er effizienter arbeitet.
Flexibilität: Da er so einfach aufgebaut ist, kann man ihn leicht anpassen. Wenn es in Zukunft bessere KI-Modelle gibt (die „intelligentere Schüler"), kann man sie einfach in dieses System stecken, und es wird automatisch besser, ohne dass man das ganze System neu bauen muss.

4. Das Ergebnis: Ein kleiner Riese

Die Autoren haben ihren einfachen Agenten gegen die größten, kompliziertesten Systeme getestet (die oft Tausende von Versuchen pro Aufgabe machen). Das Ergebnis war überraschend:

AxProverBase hat fast genauso gut abgeschnitten wie die riesigen Systeme.
Er hat besonders gut bei schwierigen Aufgaben aus der Hochschulmathematik (wie dem Putnam-Wettbewerb) und sogar bei sehr abstrakter Forschungsmathematik funktioniert.
Er ist so effizient, dass er mit einem Bruchteil der Rechenleistung und Kosten auskommt.

Fazit

Dieses Paper ist wie eine Einladung an alle: „Ihr braucht keinen Supercomputer, um Mathematik zu beweisen. Ihr braucht nur einen klugen Prozess, der aus Fehlern lernt."

AxProverBase ist ein offenes, kostenloses Werkzeug, das zeigt, dass man mit einem einfachen, aber cleveren Ansatz (Iterieren, Gedächtnis, Prüfen) bereits sehr weit kommen kann. Es ist ein Beweis dafür, dass manchmal weniger mehr ist – solange das Wenige schlau organisiert ist.

Each language version is independently generated for its own context, not a direct translation.

Hier ist eine detaillierte technische Zusammenfassung des Papers „A Minimal Agent for Automated Theorem Proving" auf Deutsch:

1. Problemstellung und Motivation

Automatisierte Theorembeweiser (ATP) sind ein vielversprechender Weg für verifizierbares wissenschaftliches Schließen in der KI. Das Programmiersprache Lean 4 und seine Bibliothek Mathlib haben sich als Standard für formale Mathematik etabliert. Trotz großer Fortschritte bei KI-Systemen (wie AlphaProof oder Hilbert) bestehen jedoch erhebliche Hürden für die breite Adoption:

Komplexität: Viele State-of-the-Art-Systeme basieren auf komplexen Architekturen mit Reinforcement Learning (RL), großen synthetischen Datensätzen und aufwendigen Infrastrukturen.
Kosten und Skalierbarkeit: Diese Systeme sind oft teuer in der Ausführung und schwer an neue Versionen von Lean und Mathlib anzupassen.
Fehlende Vergleichbarkeit: Es ist schwierig zu unterscheiden, ob Leistungssteigerungen durch architektonische Innovationen oder einfach durch die Nutzung leistungsfähigerer Basis-LLMs (Large Language Models) entstehen.

Das Ziel der Autoren ist es, eine minimalistische, aber wettbewerbsfähige Agenten-Architektur zu entwickeln, die die wesentlichen Erfolgsfaktoren isoliert und als offene Referenz für die Community dient.

2. Methodik: AxProverBase

Die Autoren stellen AxProverBase vor, einen minimalen Agenten, der auf drei Kernkomponenten basiert (siehe Abbildung 1 im Paper):

Iterative Beweisverfeinerung (Iterative Proof Refinement):
- Anstatt einen Beweis in einem einzigen Durchgang („Single-Shot") zu generieren, nutzt der Agent einen Feedback-Schleifen-Mechanismus.
- Ein Proposer-Agent (basierend auf einem allgemeinen LLM) schlägt Lean-Code vor.
- Ein Compiler überprüft den Code. Bei Fehlern oder ungelösten Zielen (erkennbar durch sorry-Taktiken) wird eine detaillierte Fehlermeldung zurückgegeben.
- Der Agent nutzt dieses Feedback, um den Beweis schrittweise zu verbessern.
Speichersystem (Memory System):
- Um zu verhindern, dass der Agent in Zyklen feststeckt (dieselben Fehler wiederholt), wird ein Kontextmanagement eingeführt.
- Die Autoren vergleichen verschiedene Ansätze: Keine Erinnerung, Historie der letzten $n$ Versuche und ein selbstverwalteter Kontext („Self-Managed Context").
- Beim selbstverwalteten Kontext reflektiert der Agent nach jedem Versuch und fasst die wichtigsten Erkenntnisse („Lessons Learned") in einem Notizbuch zusammen, das in den nächsten Iterationen als Kontext dient. Dies erwies sich als am effektivsten.
Werkzeugzugriff (Tools):
- Der Agent kann auf externe Ressourcen zugreifen, um Informationen zu finden:
  - Library Search: Eine eigene Implementierung von LeanSearch zur Suche in Mathlib (Vektor-Embeddings für Prämissen).
  - Web Search: Nutzung von Tavily, um Beweissstrategien zu finden (wichtig für die praktische Anwendbarkeit, weniger für das reine logische Schließen).

Der Prozess wird durch einen Reviewer-Agenten überwacht, der sicherstellt, dass die Theoremaussage nicht verändert wurde und keine Tricks (wie das Verstecken von sorry) verwendet wurden.

3. Schlüsselbeiträge und Erkenntnisse

Die Studie führt umfangreiche Ablationsstudien durch, um den Einfluss der einzelnen Komponenten zu quantifizieren:

Iterative Verfeinerung ist der Haupttreiber: Die Fähigkeit, Beweise basierend auf Compiler-Feedback iterativ zu verbessern, ist der wichtigste Faktor für den Erfolg. Allein dieser Mechanismus reicht aus, um viele komplexe State-of-the-Art-Systeme zu übertreffen.
Speichermechanismen verhindern Zyklen: Ein effektives Gedächtnis (insbesondere der selbstverwaltete Kontext) ist der zweitwichtigste Faktor. Es reduziert die Wahrscheinlichkeit, dass der Agent in Schleifen gerät, und verbessert die Stabilität und Kosteneffizienz signifikant.
Werkzeuge sind hilfreich, aber sekundär: Die Suche in Bibliotheken und im Web verbessert die Leistung, hat aber einen geringeren Einfluss als Iteration und Speicher.
Synergie mit starken LLMs: Einfache Agenten-Architekturen ermöglichen es leistungsfähigen Modellen (wie Claude Opus 4.5), ihr volles Potenzial auszuschöpfen. Stärkere Modelle profitieren überproportional von dieser „Scaffolding"-Struktur.
Vergleichbarkeit: Die Architektur ist so modular, dass sie als Baseline dient, um den Einfluss neuer LLM-Versionen von architektonischen Änderungen zu trennen.

4. Ergebnisse

Die Evaluation erfolgte auf mehreren Benchmarks, darunter PutnamBench (Wettbewerbsmathematik), FATE (Algebra) und LeanCat (Kategorientheorie).

Leistung: AxProverBase erreicht mit einem einfachen Setup (Claude Opus 4.5, 32k Token „Thinking Budget", 50 Iterationen) auf PutnamBench eine Erfolgsrate von 54,7 % (pass@1).
Vergleich: Dies ist vergleichbar mit oder besser als viele hochkomplexe Systeme (z. B. Hilbert, Goedel-Prover V2), die oft tausende Versuche (pass@k) oder aufwendiges Fine-Tuning benötigen.
- Beispiel: Auf PutnamBench löst AxProverBase 54,7 % der Probleme im ersten Versuch, während Hilbert (mit pass@1840) 70 % erreicht, aber AxProverBase mit nur 50 Iterationen und ohne Fine-Tuning bereits dreimal so gut abschneidet wie Hilberts pass@1-Leistung.
Kosten und Effizienz: Die durchschnittlichen Kosten pro Probe liegen bei ca. 12,60 $, und die Ausführungszeit ist um eine Größenordnung niedriger als bei komplexen Systemen wie Hilbert.
Robustheit: Das System funktioniert gut über verschiedene mathematische Domänen hinweg und passt sich automatisch an Fortschritte bei den Basis-LLMs an, ohne neu trainiert werden zu müssen.

5. Bedeutung und Fazit

Das Paper demonstriert, dass für automatisches Theorembeweisen keine extrem komplexen Architekturen oder massives Reinforcement Learning mehr zwingend erforderlich sind. Ein einfacher, iterativer Agenten-Ansatz mit gutem Kontextmanagement und Feedback-Schleifen reicht aus, um wettbewerbsfähige Ergebnisse zu erzielen.

Praktische Relevanz: Die Lösung ist kosteneffizient, leicht zu implementieren und direkt auf reale Forschungsprojekte anwendbar.
Open Source: Der Code und die Evaluierungsinfrastruktur wurden als Open-Source-Projekt veröffentlicht (ax-prover-base), um als Referenz für zukünftige Forschung zu dienen.
Zukunftsperspektive: Da das System modular ist, können einzelne Komponenten (Speicher, Tools, Verifizierer) unabhängig weiterentwickelt werden. Es stellt eine solide Basis dar, die mit der Verbesserung der zugrundeliegenden LLMs automatisch leistungsfähiger wird.

Zusammenfassend zeigt AxProverBase, dass „weniger oft mehr" ist: Durch die Fokussierung auf die essenziellen Mechanismen (Iteration, Gedächtnis, Tools) kann ein einfacher Agent komplexe, teure Systeme in Bezug auf Effizienz und Kosten übertreffen.

A Minimal Agent for Automated Theorem Proving

1. Der Dreiklang des Erfolgs: Ein Team aus drei Figuren

2. Der Prozess: Lernen durch Ausprobieren

3. Warum ist das so besonders?

4. Das Ergebnis: Ein kleiner Riese

Fazit

1. Problemstellung und Motivation

2. Methodik: AxProverBase

3. Schlüsselbeiträge und Erkenntnisse

4. Ergebnisse

5. Bedeutung und Fazit

Mehr davon

DIVE: Scaling Diversity in Agentic Task Synthesis for Generalizable Tool Use

A Survey of Reasoning in Autonomous Driving Systems: Open Challenges and Emerging Paradigms

PACED: Distillation at the Frontier of Student Competence

Measuring AI Agents' Progress on Multi-Step Cyber Attack Scenarios

Reversible Lifelong Model Editing via Semantic Routing-Based LoRA