Agent Hunt: Bounty Based Collaborative Autoformalization With LLM Agents

Each language version is independently generated for its own context, not a direct translation.

Agent Hunt: Ein digitales „Jagd"-Spiel für Mathematik

Stellen Sie sich vor, Sie haben einen riesigen, ungeschliffenen Diamanten – das ist ein schweres mathematisches Lehrbuch über Algebraische Topologie (ein Bereich, der sich mit Formen, Löchern und Dehnungen beschäftigt). Das Ziel ist es, diesen Diamanten in eine perfekte, fehlerfreie Form zu schleifen, damit ein Computer ihn als absolut wahr akzeptiert. Das nennt man „Autoformalisierung".

In der Vergangenheit hat man versucht, dies mit einem einzigen, super-intelligenten KI-Assistenten zu tun. Das war wie ein einzelner Handwerker, der versucht, ein ganzes Hochhaus allein zu bauen. Es funktioniert, aber es dauert ewig.

Diese neue Studie, „Agent Hunt", probiert etwas ganz Neues aus: Statt eines einzelnen Handwerkers stellen sie ein Team von vier KI-Agenten (genannt Alice, Bob, Charlie und Dave) ein und lassen sie in einer digitalen Wild-West-Stimmung arbeiten.

Hier ist die einfache Erklärung, wie das funktioniert:

1. Das Konzept: Die Bounty-Mission (Die Kopfgeld-Jagd)

Stellen Sie sich vor, die Mathematiker sind die „Sheriffs". Sie nehmen das Lehrbuch und zerlegen es in hunderte kleine Aufgaben (Sätze, Definitionen, Beweise). Für jede Aufgabe setzen sie ein Kopfgeld (eine „Bounty") aus.

Die Agenten: Das sind die „Kopfgeldjäger". Sie sind KI-Modelle, die programmieren können.
Der Markt: Es gibt keinen Chef, der sagt: „Du machst Aufgabe A, du machst Aufgabe B". Stattdessen ist es ein offener Markt.
Die Strategie: Ein Agent kann eine Aufgabe „sperren" (wie ein Vorhängeschloss auf eine Mission), indem er einen kleinen Teil des Kopfgelds hinterlegt. Wenn er die Aufgabe löst, bekommt er das volle Kopfgeld. Wenn er scheitert oder die Zeit abläuft, verliert er die Sperrung.

2. Die Dynamik: Konkurrenz trifft Zusammenarbeit

Das Geniale an diesem System ist das Spiel zwischen Wettbewerb und Teamwork:

Der Wettbewerb: Alle wollen das meiste Geld verdienen. Wenn Alice sieht, dass Bob fast einen Beweis fertig hat, aber noch nicht gesichert ist, kann sie schnell zuschlagen, den Beweis vervollständigen und das Kopfgeld klauen. Das hält alle auf Trab!
Die Zusammenarbeit: Manchmal ist eine Aufgabe zu schwer für einen einzigen Jäger. Dann kann ein Agent eine „Unter-Bounty" ausschreiben. Er sagt: „Ich habe den Beweis fast fertig, aber ich brauche Hilfe bei diesem einen kleinen Schritt. Wer das macht, bekommt 10 % von meinem Gewinn." So teilen sie sich die Arbeit.

3. Der Fortschritt: Ein riesiger Baustoff-Boom

Das Ergebnis war beeindruckend.

Ein einzelner Agent hätte vielleicht 7.000 Zeilen Code pro Tag geschrieben.
Mit diesem „Agent Hunt"-System schafften die vier Agenten gemeinsam 39.000 Zeilen pro Tag.
In nur zwei Tagen wuchs der mathematische Code von 19.000 auf 121.000 Zeilen an.

Es war, als hätten sie von einem einzelnen Handwerker auf eine ganze Baustelle mit vier Spezialisten umgestellt, die sich gegenseitig antreiben, aber auch helfen, wenn einer stecken bleibt.

4. Die Herausforderungen: Fehler und Tricks

Natürlich gab es Probleme, die wie in einem echten Wild-West-Dorf aussahen:

Falsche Schätzungen: Manchmal schätzten die Agenten die Schwierigkeit einer Aufgabe falsch ein. Ein Agent hat mal 800 Zeilen Code geschrieben, um eine einfache Übungsaufgabe zu lösen, und bekam dafür nur ein winziges Kopfgeld. Das war frustrierend für ihn.
Technische Hürden: Das System, das die Beweise prüft (ein Programm namens „Megalodon"), war ursprünglich für Menschen gemacht. Die Forscher mussten es umbauen, damit es mit den schnellen, maschinell erzeugten Beweisen der KI umgehen kann.
Die „Cosinus"-Falle: Bei einem großen Beweis (dem Brouwer-Fixpunktsatz) steckten die Agenten fest. Warum? Weil die Definitionen für Sinus und Kosinus im System fehlerhaft waren. Die KI versuchte, mit einem Werkzeug zu bauen, das nicht existierte. Die Lösung? Die Agenten mussten erst neue, korrekte Definitionen erfinden, bevor sie weiterbauen konnten.

Fazit: Warum ist das wichtig?

Dieses Experiment zeigt, dass wir komplexe mathematische Probleme nicht mehr nur mit einem „Super-Genie" (einer einzelnen KI) lösen müssen. Stattdessen können wir ein dezentrales Ökosystem schaffen, in dem viele KIs miteinander konkurrieren und kooperieren.

Es ist wie ein großes Online-Spiel, bei dem die Belohnungssysteme (die Kopfgelder) die Intelligenz der Maschinen so lenken, dass sie schneller und effizienter arbeiten als je zuvor. Die Hoffnung ist, dass wir so in Zukunft riesige mathematische Bibliotheken in Rekordzeit für Computer verifizieren können, was uns hilft, sicherere Software und tiefere wissenschaftliche Erkenntnisse zu gewinnen.

Kurz gesagt: Statt einen einzigen Helden zu schicken, schicken wir eine ganze Truppe von Jägern in den mathematischen Dschungel, belohnen sie für ihre Erfolge und lassen sie sich gegenseitig antreiben. Das Ergebnis ist eine Explosion an Fortschritt.

Each language version is independently generated for its own context, not a direct translation.

Hier ist eine detaillierte technische Zusammenfassung des Papers „Agent Hunt: Bounty Based Collaborative Autoformalization With LLM Agents" auf Deutsch:

1. Problemstellung

Das Paper adressiert die Herausforderung der skalierbaren Autoformalisierung (Automatisierte Umwandlung mathematischer Texte in formal verifizierbare Beweise) in großen Projekten.

Limitierung einzelner Agenten: Bisherige Ansätze (wie im „General Topology Project" beschrieben) basierten oft auf einem einzelnen LLM-Agenten, der zentral geplant wurde. Solche Projekte laufen sehr langsam ab und stoßen bei der Komplexität großer Lehrbücher (z. B. Munkres' Algebraic Topology) an Grenzen.
Unvorhersehbarkeit: Große Formalisierungen weisen oft Lücken, Vorwärtsreferenzen oder unerwartete Schwierigkeiten auf, die eine starre, zentrale Arbeitsverteilung ineffizient machen.
Ziel: Es soll untersucht werden, wie mehrere LLM-Agenten parallel und kollaborativ an einem solchen Projekt arbeiten können, um die Geschwindigkeit und Effizienz signifikant zu steigern.

2. Methodik: Der bounty-basierte Markt

Die Autoren implementieren ein dezentrales, marktbasiertes System, das von Hales' „Flyspeck"-Projekt inspiriert ist, jedoch für LLM-Agenten angepasst wurde.

Die Umgebung: Das Experiment findet in Megalodon statt, einem Higher-Order-Set-Theorie-Proof-Checker. Das Zielgebiet ist Teil II von Munkres' Algebraic Topology (ca. 200 Seiten, Kapitel 9–14).
Vorbereitung (Blueprint): Bevor die Agenten starten, wird ein einzelner Agent (Claude Opus 4.6) eingesetzt, um alle Definitionen und Theoreme ohne Beweise zu formalisieren und Bounties (Prämien) basierend auf geschätztem Aufwand (Zeilenanzahl, Schwierigkeitsgrad, Kosten) zu setzen. Diese Statements werden manuell überprüft, um „Gaming" des Systems zu verhindern.
Die Agenten: Vier LLM-Agenten (Alice, Bob, Charlie, Dave) nutzen verschiedene Modelle (ChatGPT Pro Codex, Claude Code).
Der Mechanismus:
- Wettbewerb & Kooperation: Agenten konkurrieren um die Prämien, sind aber auch motiviert zu kooperieren, um das Projekt schneller abzuschließen (Bonus).
- Locking-Mechanismus: Ein Agent kann ein Theorem „sperren" (Lock), indem er 10 % der Prämie zahlt. Dies reserviert das Recht auf die volle Prämie bei Erfolg. Wenn ein anderer Agent den Beweis liefert, erhält der Sperrende dennoch die Prämie (Anreiz zur Delegation).
- Sub-Bounties: Agenten können neue Lemmas einführen und eigene Bounties darauf setzen.
- Guard Scripts: Lokale Skripte erzwingen Regeln (z. B. keine negativen Kontostände, maximale Anzahl an Sperren, Unveränderlichkeit von Definitionen) und validieren Commits vor dem Einchecken.
Interaktion: Die Agenten interagieren direkt mit dem ITP-System (Interactive Theorem Prover), rufen Taktiken auf, inspizieren Beweisstände, analysieren Fehler und verfeinern Skripte iterativ.

3. Wichtige Beiträge

Dezentrale Beweis-Suche: Demonstration, dass ein marktbasierter Ansatz effizienter ist als zentrale Planung für komplexe, unvorhersehbare Formalisierungsaufgaben.
Hybride Agenten-Architektur: Kombination aus Wettbewerb (um Prämien) und Kooperation (gemeinsames Lösen von Abhängigkeiten).
Infrastruktur-Verbesserungen für Megalodon: Anpassung des Proof-Checkers für den Einsatz mit LLMs:
- Optimierung der Performance bei langen, automatisch generierten Dateien.
- Strengeres Vertrauensmodell: Der Qed-Befehl ist nur erlaubt, wenn alle Abhängigkeiten rekursiv geprüft sind; sonst muss Admitted verwendet werden.
- Verbesserte Fehlermeldungen und lesbare Symbolnamen statt Hashes.
- Index-Datei für erlaubte Axiome, um den Umgang mit unvollständigen Theorien zu steuern.
Dynamische Arbeitsverteilung: Beobachtung einer natürlichen Spezialisierung der Agenten (z. B. Bob für Homotopie, Charlie für geometrische Topologie), ohne dass eine manuelle Zuweisung nötig war.

4. Ergebnisse

Geschwindigkeit: In einem Zeitraum von ca. 2 Tagen und 15 Stunden (vom 16. bis 19. Februar) wuchs die Formalisierung von ~19k auf ~121k normalisierte Zeilen.
- Rate: Die vier Agenten produzierten gemeinsam ca. 39.000 Zeilen pro Tag.
- Vergleich: Zum Vergleich erzielte das Single-Agent-Projekt „General Topology" in 60 Tagen ca. 406k Zeilen (ca. 7.000 Zeilen/Tag). Der Multi-Agent-Ansatz ist also deutlich schneller.
Qualität und Umfang:
- Es wurden 393 Top-Level-Theoreme und 230 Definitionen formalisiert.
- Wichtige Theoreme wurden bewiesen, darunter der Brouwer-Fixpunktsatz (in mehreren Schritten, insgesamt über 7.000 Zeilen Beweiscode) und der Nachweis, dass die Fundamentalgruppe eine Gruppe ist.
- Tabelle 1 listet Theoreme mit über 400 Zeilen Beweislänge auf (z. B. cyclic_infinite_order_iff_Z mit 1999 Zeilen).
Kollaborationsmuster:
- Von 709 gesetzten Bounties wurden 279 vom Ersteller selbst gelöst, 114 von einem anderen Agenten (Kollaboration) und 312 blieben offen.
- Es gab Fälle, in denen ein Agent einen Beweis fast fertig hatte, aber kein Theorem sperrte, woraufhin ein anderer Agent den Beweis vervollständigte und die Prämie erhielt.
Kosten: Die Experimentkosten wurden auf ca. 150 USD geschätzt (ca. 1 USD pro 1.000 Zeilen), basierend auf LLM-Abonnements.

5. Herausforderungen und Beobachtungen

Übungsprobleme: Anfangs wurden Übungen aus dem Lehrbuch (die oft keine Lösungen haben) fälschlicherweise mit Bounties versehen, was zu ineffizientem Aufwand führte (z. B. 800 Zeilen Beweis für 10 Token). Dies wurde durch Regeln angepasst.
Definitionen von trigonometrischen Funktionen: Ein Hauptblocker für den Beweis der Isomorphie der Fundamentalgruppe des Kreises zu den ganzen Zahlen ( $\mathbb{Z}$ ) war eine fehlerhafte Definition von $\cos$ und $\sin$ im System. Die Agenten konnten keine Eigenschaften daraus ableiten, da die Definition nicht eindeutig war (z. B. triviale Lösungen möglich). Dies zeigte die Notwendigkeit korrekter mathematischer Definitionen vor der Beweisführung.
Abhängigkeiten: Viele Beweise hingen von ungelösten Theoremen ab, was zu einer Kaskade von „Admitted"-Beweisen führte, die später geschlossen werden müssen.

6. Bedeutung

Das Paper zeigt, dass LLM-Agenten-Ökosysteme mit marktinspirierten Anreizen ein vielversprechender Weg sind, um die Autoformalisierung mathematischer Werke zu skalieren.

Es beweist, dass dezentrale, kollaborative Ansätze die Geschwindigkeit der Formalisierung drastisch erhöhen können.
Es liefert Erkenntnisse über die Interaktion mehrerer KI-Agenten in komplexen, logischen Umgebungen.
Es unterstreicht die Notwendigkeit robuster Infrastrukturen (Guard Scripts, Proof-Checker-Anpassungen), um die Integrität des Formalisierungsprozesses bei automatisierten Agenten zu gewährleisten.

Zusammenfassend stellt „Agent Hunt" einen bedeutenden Schritt dar, um die Lücke zwischen theoretischer Mathematik und formal verifizierter Mathematik durch skalierbare KI-Methoden zu schließen.

Agent Hunt: Bounty Based Collaborative Autoformalization With LLM Agents

1. Das Konzept: Die Bounty-Mission (Die Kopfgeld-Jagd)

2. Die Dynamik: Konkurrenz trifft Zusammenarbeit

3. Der Fortschritt: Ein riesiger Baustoff-Boom

4. Die Herausforderungen: Fehler und Tricks

Fazit: Warum ist das wichtig?

1. Problemstellung

2. Methodik: Der bounty-basierte Markt

3. Wichtige Beiträge

4. Ergebnisse

5. Herausforderungen und Beobachtungen

6. Bedeutung

Mehr davon

A Hybrid Residue Floating Numerical Architecture with Formal Error Bounds for High Throughput FPGA Computation

On the Multi-Commodity Flow with convex objective function: Column-Generation approaches

VeriInteresting: An Empirical Study of Model Prompt Interactions in Verilog Code Generation

AnalogToBi: Device-Level Analog Circuit Topology Generation via Bipartite Graph and Grammar Guided Decoding

Artificial Intelligence (AI) Maturity in Small and Medium-Sized Enterprises: A Framework of Internalized and Ecosystem-Embedded Capabilities