LLM2SMT: Building an SMT Solver with Zero Human-Written Code

Each language version is independently generated for its own context, not a direct translation.

🤖 Der KI-Architekt, der einen Logik-Meister baute – ohne menschliche Hand

Stell dir vor, du gibst einem extrem talentierten, aber noch unerfahrenen Bauingenieur (einer KI) den Auftrag: „Baue mir eine Maschine, die mathematische Rätsel lösen kann."

Normalerweise würde ein Mensch diese Maschine Stück für Stück aus Schrauben und Zahnrädern (Code) zusammenbauen. In diesem Experiment hat jedoch niemand einen einzigen Schraubenzieher in die Hand genommen. Stattdessen hat eine KI (ein sogenannter „Coding-Agent") die gesamte Maschine aus dem Nichts erschaffen.

Das Ziel war es, einen SMT-Löser zu bauen. Klingt kompliziert? Stell dir das wie einen super-intelligenten Detektiv vor, der prüfen soll, ob eine lange Liste von Aussagen logisch zusammenpasst oder ob sie sich widersprechen.

1. Die Aufgabe: Ein Rätsel für den Detektiv

Der Detektiv muss mit einer speziellen Art von Rätseln umgehen, die QF_UF genannt werden. Das klingt nach Geheimsprache, ist aber im Grunde wie ein Spiel mit unbekannten Objekten und Gleichungen.

Beispiel: „Wenn A wie B aussieht und B wie C aussieht, dann muss A wie C aussehen."
Die KI musste einen Detektiv bauen, der solche Regeln automatisch anwendet, um herauszufinden, ob eine Geschichte (ein mathematisches Problem) wahr oder unmöglich ist.

2. Der Bauprozess: Lernen durch Ausprobieren

Die Forscher gaben der KI nur eine grobe Anleitung: „Baue einen Detektiv, der diese Regeln kennt."
Das Ergebnis war am Anfang chaotisch, wie bei einem Lehrling, der zum ersten Mal einen Motor baut:

Fehler 1: Der Detektiv vergaß, wie man „Oder"- und „Und"-Verbindungen verarbeitet. (Wie ein Koch, der Salz und Pfeffer kennt, aber nicht, wie man sie mischt).
Fehler 2: Der Detektiv baute sich seine eigene, sehr langsame Suchmaschine, obwohl es eine fertige, schnelle gab (CaDiCaL). Die Forscher mussten ihm sagen: „Benutze das fertige Werkzeug!"
Fehler 3: Der Detektiv lief manchmal endlos weiter, ohne aufzuhören. Die Forscher mussten ihm eine Stoppuhr (Timeout) an die Hand geben.

Die Lösung: Die Forscher gaben der KI keine fertigen Lösungen, sondern zeigten ihr Fehlerbeispiele. Wenn der Detektiv ein Rätsel falsch löste, sagte die KI: „Oh, da habe ich einen Fehler gemacht" und korrigierte ihren eigenen Code. Sie nutzte sogar eine Art „Fuzzing" (das Werfen von zufälligen Rätseln), um Schwachstellen zu finden, genau wie ein Sicherheitsprüfer, der versucht, eine Festung zu knacken.

3. Der Clou: Der „Diamond"-Trick

Es gab eine spezielle Art von Rätseln (die „equational diamond problems"), bei denen der Detektiv normalerweise in einer endlosen Schleife stecken bleibt. Er musste alle möglichen Kombinationen durchprobieren, wie ein Wanderer, der in einem Labyrinth jede einzelne Gasse abläuft.

Die KI entwickelte jedoch eine clevere Vorverarbeitung. Stell dir vor, der Detektiv schaut sich das Labyrinth von oben an und sagt: „Aha! Egal welchen Weg ich nehme, ich muss hier und hier durchgehen." Er fügt diese Erkenntnisse sofort als neue Hinweise in die Liste ein.
Dadurch löste er diese schwierigen Rätsel sofort, während andere Detektive Stunden brauchen würden.

4. Der Beweis: Der KI-Notar

Das Coolste an der Geschichte: Wenn der Detektiv sagt „Das ist unmöglich!", muss er es beweisen können.
Die KI baute nicht nur den Detektiv, sondern schrieb auch einen formalen Beweis in einer speziellen Sprache (Lean), die von einem Computer-Notar geprüft werden kann.

Das Problem: Die KI hatte am Anfang Schwierigkeiten, den Beweis so zu strukturieren, dass der Notar ihn verstand. Es war, als würde jemand versuchen, ein komplexes juristisches Dokument zu schreiben, aber die Absätze falsch zu setzen.
Das Ergebnis: Nach viel Nachhilfe und Beispielen gelang es der KI, perfekte Beweise zu schreiben, die der Notar akzeptierte. Kein einziger falscher Beweis wurde gefunden!

5. Das Ergebnis: Ein echter Wettbewerber

Am Ende wurde der von der KI gebaute Detektiv gegen die besten menschlich gebauten Detektive der Welt (namens Z3 und cvc5) getestet.

Ergebnis: Der KI-Detektiv löste fast genauso viele Rätsel wie die Profis.
Er war zwar nicht in jedem Fall der Schnellste, aber er war wettbewerbsfähig.

🎯 Was lernen wir daraus?

KI kann Software schreiben, die logisch denkt: Es ist nicht nur möglich, KI Texte schreiben zu lassen, sondern auch komplexe Logik-Maschinen zu bauen.
Aber sie braucht Aufsicht: Die KI macht Fehler, besonders bei kleinen, tückischen Details (wie dem Umgang mit „Wahr/Falsch"-Werten). Sie braucht menschliche Anleitung, um Fehler zu finden und zu korrigieren.
Der „Jagged Intelligence"-Effekt: Die KI kann Genialität zeigen (sie fand den cleveren Vorverarbeitungs-Trick), aber dann bei einer simplen Aufgabe scheitern (sie vergaß, dass „x = x" immer „wahr" ist). Das ist wie ein Wunderkind, das eine Symphonie komponiert, aber vergisst, wie man Schuhe bindet.

Fazit:
Dieses Papier zeigt, dass wir bald KI-Agenten haben könnten, die uns helfen, komplexe Software zu bauen und zu prüfen. Aber wir müssen sie nicht als Magier betrachten, die alles perfekt machen, sondern als hochintensive Praktikanten, die wir anleiten, testen und bei Bedarf korrigieren müssen. Wenn wir das richtig machen, können sie uns Werkzeuge bauen, die so gut sind wie die besten, die Menschen je erschaffen haben.

Each language version is independently generated for its own context, not a direct translation.

Hier ist eine detaillierte technische Zusammenfassung des Papers „LLM2SMT: Building an SMT Solver with Zero Human-Written Code" auf Deutsch:

1. Problemstellung

Die Arbeit untersucht eine bisher weitgehend unerforschte Frage: Können Large Language Models (LLMs) nicht nur Software schreiben, sondern Automatisierte-Reasoning-Tools (wie SMT-Solver) entwickeln, die selbst logisches Schließen durchführen?
Während LLMs bereits für das Schreiben von Code und das Formalisieren von Beweisen eingesetzt werden, ist die Zuverlässigkeit bei der Entwicklung komplexer logischer Systeme fraglich. Kleine Fehler können zu subtilen, schwer erkennbaren Inkonsistenzen führen. Das Ziel war es, einen vollständigen SMT-Solver für die Theorie der uninterpretierten Funktionen ohne Quantoren (QF_UF) zu erstellen, wobei kein einziger Zeile Code von einem Menschen geschrieben wurde.

2. Methodik

Das Projekt wurde vollständig mit dem KI-Agenten Claude Code (Modell Sonnet 4.6) durchgeführt. Der menschliche Eingriff beschränkte sich auf die Definition der Anforderungen, die Bereitstellung von Referenzmaterial und die externe Evaluierung.

Architektur: Der entwickelte Solver ist ein DPLL(T)-Solver für QF_UF.
- Er nutzt CaDiCaL als SAT-Backend über die IPASIR-UP-Schnittstelle.
- Er implementiert den Nieuwenhuis-Oliveras-Kongruenzabschluss-Algorithmus (Congruence Closure) für die Theorie der Gleichheit.
- Er enthält eine Vorverarbeitungsphase (Preprocessing) und generiert Beweise in der Sprache Lean.
Entwicklungsprozess:
- Prompting: Der Prozess startete mit einer groben Beschreibung. Der Agent musste jedoch durch gezielte Hinweise (z. B. zur Behandlung von booleschen Connectives oder zur Integration von CaDiCaL) korrigiert werden.
- Debugging: Der Agent wurde angewiesen, eigene Fuzzing-Tools und Differential-Testing-Skripte zu erstellen, um Fehler autonom zu finden und zu beheben. Dies reduzierte den Token-Verbrauch im Vergleich zum manuellen Debugging.
- Ressourcenmanagement: Da der Agent Prozesse ohne Timeouts starten konnte, wurden permanente Anweisungen eingefügt, um den Solver immer unter einem timeout-Befehl laufen zu lassen.
Zertifizierung: Für unerfüllbare Instanzen (UNSAT) generiert der Solver Beweise in Lean.
- Für erfüllbare Instanzen (SAT) wird das Modell zurück in ein SMT-Problem kodiert und mit einem Referenz-Solver verifiziert.
- Die Lean-Beweise nutzen Automatisierungstools wie grind (für Kongruenzabschluss-Lemmata) und bv_decide (für den propositionellen Teil).

3. Wichtige Beiträge und Erkenntnisse

A. Der Solver selbst

Der entstandene Solver ist funktionsfähig und konkurrenzfähig. Er beherrscht Parsing, SAT-Lösung, Kongruenzabschluss und Vorverarbeitung.

B. Herausforderungen und „Jagged Intelligence"

Das Papier hebt das Phänomen der „Jagged Intelligence" (unregelmäßige Intelligenz) hervor:

Der Agent konnte komplexe Algorithmen implementieren, scheiterte aber an trivialen Aufgaben (z. B. das Vereinfachen von t = t zu true oder die korrekte Behandlung von XOR als n-stelliger Operator).
Ein subtiler Fehler bestand darin, dass Boolesche Werte sowohl als Propositionen als auch als Terme behandelt wurden, was zu falschen Ergebnissen führte.
Lösung: Strukturierte Unterstützung durch Fuzzing, Delta-Debugging und konkrete Beispiele (Few-Shot-Prompting) waren entscheidend für die Stabilität.

C. Vorverarbeitung (Preprocessing)

Ein bedeutender Erfolg war die Entwicklung einer Vorverarbeitungstechnik für „equational diamond problems" (Problemstellungen der Form $(x_i = z_i \land z_i = x_{i+1}) \lor (x_i = v_i \land v_i = x_{i+1})$ ).

Ohne Vorverarbeitung müsste der Solver exponentiell viele Kombinationen prüfen.
Der Agent entwickelte eine Methode, die Schnittmengen der Kongruenzabschlüsse der Disjunkte zu berechnen und diese als neue Einheitsgleichungen hinzuzufügen. Dies löste die Probleme instantan.

D. Beweisgenerierung

Die Generierung von Lean-Beweisen war die größte Hürde. Der Agent hatte Schwierigkeiten, die Trennung zwischen Theorie-Lemmata und dem finalen Beweis zu verstehen. Erst nachdem ein korrektes Beispiel für einen Lean-Beweis bereitgestellt wurde, konnte der Agent die Beweise erfolgreich exportieren.

4. Ergebnisse

Benchmark-Leistung: Der Solver wurde auf QF_UF-Benchmarks aus SMT-LIB getestet und mit z3 und cvc5 verglichen.
- Gelöste Instanzen: llm2smt löste 7.468 von 7.500 Instanzen (z3: 7.500, cvc5: 7.494).
- Geschwindigkeit: In Bezug auf die Zeit war der Solver konkurrenzfähig, wobei die Version ohne Theorie-Propagation (Theory Propagation) auf diesen Benchmarks sogar leicht schneller war, da der Overhead der Propagation hier nicht durch Gewinne kompensiert wurde.
Zertifizierung: Von den gelösten Instanzen wurden 285 erfolgreich in Lean zertifiziert. Es wurden keine falschen Beweise gefunden, obwohl viele Versuche aufgrund von Ressourcenlimits (Stack Overflow, Timeouts in Lean) scheiterten.
Code-Qualität: Der gesamte Code wurde ohne menschliches Schreiben erstellt und ist als Open-Source-Repository verfügbar.

5. Bedeutung und Fazit

Das Paper liefert einen qualifizierten „Ja"-Antwort auf die Frage, ob LLMs Automatisierte-Reasoning-Tools entwickeln können.

Potenzial: Mit geeigneter „Scaffolding" (systematisches Fuzzing, explizite Ressourcenlimits, klare Spezifikationen) kann ein KI-Agent einen wettbewerbsfähigen SMT-Solver von Grund auf neu erstellen.
Warnung: Korrektheit kann nicht vorausgesetzt werden. Subtile Fehler (insbesondere bei der Semantik von Booleschen Werten) bleiben ohne systematische Fuzzing-Tests oft unentdeckt.
Zukunft: Die größte Herausforderung bleibt die Beweisgenerierung, da der Agent nicht nur die Logik des Solvers, sondern auch die spezifischen Anforderungen des Beweisprüfers (Lean) verstehen muss.

Die Studie demonstriert, dass LLMs in der Lage sind, wissenschaftlich beschriebene Algorithmen zu implementieren und eigenständig zu debuggen, wenn sie mit konkreten Fehlbeispielen konfrontiert werden. Dies öffnet neue Wege für die schnelle Integration neuer Techniken in die Automatisierte-Reasoning-Forschung.