Stellen Sie sich vor, Sie versuchen, ein komplexes mathematisches Problem zu lösen, aber anstatt einen brillanten, aber manchmal übermütigen Genies zu fragen, fragen Sie einen sehr organisierten, leicht rigiden, aber unglaublich ehrlichen Bibliothekar.

Das ist der Kern von AXIOM, einem neuen System, das darauf ausgelegt ist, mathematisches Denken mit einer „Trust-First“-Mentalität (Vertrauen zuerst) durchzuführen. Hier ist die Funktionsweise, unterteilt in einfache Konzepte und Analogien.

Das Problem: Der „selbstbewusst falsche“ Genie

Aktuelle KI-Modelle (wie die, mit denen Sie chatten) sind wie brillante Studenten, die gerne raten. Wenn sie die Antwort nicht wissen, erfinden sie sie vielleicht einfach dazu und präsentieren sie mit totaler Zuversicht. In der Mathematik ist das gefährlich, denn eine falsche Antwort sieht exakt so aus wie eine richtige. Sie haben keine Möglichkeit zu wissen, ob die KI lügt oder nur halluziniert.

Die AXIOM-Lösung: Die „spezialisierte Fließbandfertigung“

AXIOM versucht nicht, ein Genie zu sein, das alles von Grund auf neu löst. Stattdessen agiert es wie eine hocheffiziente Fabrik-Fließbandfertigung mit vier strengen Regeln:

1. Der Sortierer (Der Regex-Router)

Wenn eine Frage eintrifft, geht sie nicht direkt an die KI. Zuerst trifft sie auf einen Sortierer. Denken Sie an einen Postboten im Posteingang, der die Form des Umschlags prüft.

Wenn der Brief wie eine Notiz zur „einfachen Arithmetik“ aussieht, wird er auf die Schnellspur geleitet.
Wenn er wie eine „Algebra“-Notiz aussieht, geht er zur Algebra-Station.
Wenn die Form keiner bekannten Kategorie entspricht, stempelt der Beamte ihn sofort als „Unbekannt“ ab und stoppt. Er rät nicht.

2. Der Übersetzer (Die KI als „Umschreiber“)

Wenn der Brief eine Station erreicht, wird die KI nicht gebeten, das Problem zu lösen. Stattdessen agiert die KI als Übersetzer.

Alter Weg: „Hier ist eine Textaufgabe, bitte löse sie.“ (Die KI rät die Schritte).
AXIOM-Weg: „Hier ist eine Textaufgabe. Bitte schreibe sie in dieses spezifische, eng gefasste Format um, das unser Taschenrechner versteht.“
Der KI ist es strengstens untersagt, die Mathematik selbst durchzuführen. Sie bereinigt lediglich den Satz, damit der nächste Schritt ihn perfekt lesen kann.

3. Der Taschenrechner (Die deterministische Engine)

Sobald die KI das Problem umgeschrieben hat, übergibt sie es an einen Taschenrechner (ein Computer-Algebra-System). Dies ist ein Roboter, der niemals rät, niemals müde wird und niemals halluziniert.

Er nimmt das umgeschriebene Problem und berechnet die Zahlen.
Wenn er es lösen kann, gibt er die Antwort.
Wenn er es nicht kann (vielleicht ist die Mathematik zu seltsam oder die Eingabe war leicht fehlerhaft), stoppt er und sagt: „Ich kann dies nicht verifizieren.“

4. Die „Ehrlichkeit“-Regel (Abstinenz)

Dies ist der wichtigste Teil. In den meisten Systemen versucht die KI nach dem Scheitern des Taschenrechners trotzdem zu raten. In AXIOM ist „Ich weiß es nicht zu sagen“ eine gültige, strukturierte Antwort.
Wenn irgendein Teil der Linie fehlschlägt (der Sortierer hat die Form nicht erkannt, der Übersetzer konnte sie nicht umschreiben oder der Taschenrechner konnte sie nicht lösen), gibt das System eine klare Nachricht aus: „Ich verzichte auf eine Antwort (Abstention).“ Es gibt niemals eine selbstbewusste falsche Antwort.

Die Ergebnisse: Geschwindigkeit und Sicherheit

Das Paper berichtet über beeindruckende Statistiken bei der Testung dieses Systems:

Null selbstbewusste Fehler: Über tausende Tests hinweg gab das System nie eine falsche Antwort, die wie eine richtige aussah. Wenn es eine Antwort gab, war diese verifiziert.
Hohe Genauigkeit: Bei Standard-Mathematiktests erreichte es etwa 94 % der Fragen richtig.
Geschwindigkeit: Für einfache Mathematik (wie „2 + 2“) überspringt es den KI-Übersetzer komplett und löst es in 1 Millisekunde (schneller als Sie blinzeln können). Für schwierigere Aufgaben ist es immer noch schneller, als eine Standard-KI zu bitten, „Schritt für Schritt zu denken“.
Kosten: Da die KI nicht aufgefordert wird, lange Essays zu schreiben oder zu raten, kostet der Betrieb fast nichts.

Das „Vorwärts-Dynamik“: Besser werden, ohne kaputtzugehen

Die Autoren betonen, dass dieses System darauf ausgelegt ist, zu wachsen.

Stellen Sie sich vor, das System stößt auf eine neue Art von mathematischem Problem, das es nicht kennt. Anstatt stillschweigend zu scheitern oder zu raten, protokolliert es: „Ich habe diese Form gesehen, aber ich habe keine Station dafür.“
Die Entwickler können dann eine neue „Station“ (eine neue Regel) speziell für diese Form bauen.
Da jede Station isoliert ist, zerstört das Hinzufügen einer neuen niemals die alten. Es ist wie das Hinzufügen einer neuen Spur zu einer Autobahn; es verursacht keine Staus in den bestehenden Spuren.

Zusammenfassende Analogie

Betrachten Sie eine Standard-KI als einen Magier, der Antworten aus einem Hut zieht. Manchmal ist das Kaninchen da, manchmal ist es eine Socke, aber der Magier tut so, als wäre es ein Kaninchen.

AXIOM ist ein Qualitätskontrolleur.

Er prüft, ob der Artikel in den Karton passt.
Er beschriftet den Artikel klar.
Er führt ihn durch eine Maschine, die ihn vermisst.
Wenn die Maschine ihn nicht messen kann, setzt er ein „Abgelehnt“-Etikett darauf.

Es mag mehr Artikel ablehnen als ein Magier, aber jeder Artikel, der die Fabrik mit einem „Bestanden“-Etikett verlässt, ist garantiert korrekt.

Technisches Resümee: AXIOM – Eine vertrauensorientierte neuro-symbolische Ausführungsarchitektur

1. Problemstellung

Die Arbeit befasst sich mit dem grundlegenden Mangel an Verifizierbarkeit in der mathematischen Argumentation von Frontier-LLMs. Während LLMs bei Benchmarks hohe Genauigkeiten erzielen, operieren sie über eine „Prompt-in-Text-out“-Schnittstelle, bei der eine selbstbewusst falsche Antwort strukturell nicht von einer korrekten zu unterscheiden ist. Bestehende Alternativen weisen signifikante Kompromisse auf:

Lean-basierte Beweiser erfordern, dass Probleme in einer spezifischen Syntax (z. B. Lean) vorformuliert werden, was einen Flaschenhals für natürliche Sprachabfragen schafft.
Geschlossene Expertensysteme (z. B. Wolfram Alpha) bieten symbolische Backends, verfügen jedoch nicht über eine LLM-Augmentierung an der Eingangsseite und liefern keine inspizierbaren Ableitungspfade.

Die Autoren argumentieren, dass „selbstbewusst falsch“ (confident-wrong) der schlimmste Ausfallmodus in der mathematischen Argumentation ist. Sie schlagen vor, das Designziel von „Genauigkeit zuerst“ (accuracy-first) zu „Vertrauen zuerst“ (trust-first) zu verschieben, wobei Vertrauen definiert wird als $1 - \frac{\text{falsch}}{\text{versucht}}$ , wobei „falsch“ jene Datensätze ausschließt, bei denen das System explizit die Antwort verweigert (abstain).

2. Methodik: Die AXIOM-Architektur

AXIOM ist eine neuro-symbolische Ausführungsarchitektur, in der das LLM strikt als Kannonisierer fungiert, nicht als Solver. Das System leitet natürliche Sprache (NL) durch eine deterministische Computer-Algebra-System (CAS)-Pipeline. Das Kerndesign beruht auf vier Verpflichtungen:

2.1 1:1:1 Task-Routing-Ausrichtung

Anstatt eines monolithischen LLMs oder eines generischen Handlers verwendet AXIOM eine 1:1:1-Invariante:

Trigger: Ein Regex für die Problemform, der genau eine Aufgabe auswählt.
Prompt: Ein schemaspezifischer Prompt mit Few-Shot-Beispielen, die auf diese spezifische Form zugeschnitten sind.
Handler: Ein deterministischer CAS-Handler, der nur dieses spezifische Schema konsumiert.

Diese Ausrichtung stellt sicher, dass das Hinzufügen einer neuen Aufgabe ( $T_{N+1}$ ) bestehende Aufgaben ( $T_1 \dots T_N$ ) nicht beeinträchtigen kann, da ihre Code-Pfade disjunkt sind. Dies verhindert die Konkurrenz um das „repräsentative Budget“, wie sie in monolithischen Modellen vorkommt.

2.2 „Abstain“ als erstklassiger Output

Das System behandelt answer=null als einen strukturellen, gültigen Output und nicht als Fehler. Drei unabhängige Kanäle können ein „Abstain“ (Verzicht auf Antwort) auslösen:

Router Miss: Kein Regex-Trigger passt auf die Eingabe.
Translator Abstain: Das LLM gibt explizit unknown zurück (erlernt durch Few-Shot-Beispiele), wenn es die Eingabe nicht in das Schema umschreiben kann, ohne zu raten.
Handler Abstain: Die CAS-Pipeline kann keine verifizierte Antwort ableiten (z. B. beim Auftreten eines nicht erkannten Prädikats oder eines ConditionSet).

Entscheidend ist, dass das System eine Whitelist-Guard erzwingt: Wenn ein Handler auf ein nicht erkanntes Prädikat stößt, muss er die Antwort verweigern (abstain), anstatt auf einen Standardwert (z. B. Null) zurückzufallen, um „selbstbewusst falsche“ Ausgaben zu verhindern.

2.3 Composed-Task Chain Framework

Für mehrstufige Probleme (z. B. stückweise Funktionen, die Parsing, Lösung pro Zweig und Aggregation erfordern) nutzt AXIOM ein ComposedTask-Framework. Dieses verknüpft deterministische Operatoren (reine Funktionen), wobei das LLM nur einmal zu Beginn (InitialExtractor) aufgerufen wird. Die Kette validiert Abhängigkeiten zum Zeitpunkt der Registrierung, um sicherzustellen, dass ein Fehler in einem beliebigen Schritt zu einem sauberen „Abstain“ statt zu einem stillen Fehler führt.

2.4 Rule-Only Path (Regelbasierter Pfad)

Für geschlossene, rein arithmetische Formen (Ziffern und Operatoren ohne Prosa) wird der LLM-Schritt vollständig umgangen. Das System routet direkt zu einem deterministischen CAS-Evaluator. Dieser Pfad garantiert Bit-Äquivalenz über verschiedene Durchläufe hinweg und verursacht keine Inferenzkosten.

3. Kernbeiträge

Die Arbeit betont die vorwärtsgerichtete Dynamik (forward dynamic) der Architektur statt einer statischen Genauigkeitszahl. Die primären Beiträge sind:

Architektonischer Rahmen: Ein 1:1:1-Routing-System mit einem Regel-Bypass und einer Composed-Task-Kette für mehrstufige Logik.
Operative Disziplin: Ein Satz von Prinzipien für vertrauenswürdige neuro-symbolische Systeme, einschließlich:
- Math-Template Bucketing: Routing basierend auf der Solver-Struktur, nicht auf der Oberflächenformulierung.
- LOST_CORRECT Scan: Ein Pre-Commit-Regressions-Orakel, das archivierte Benchmarks erneut spielt, um sicherzustellen, dass neue Aufgaben bestehende Leistungen nicht beeinträchtigen.
- Prädikat-nicht-erkannt = Abstain: Eine strukturelle Verteidigung gegen selbstbewusst falsche Ausgaben.
- Parseable-first Onboarding: Optimierung der Rate parsbare Eingaben vor der Optimierung des Vertrauens in neue Domänen.
Lineare-additive Erträge: Im Gegensatz zu monolithischen LLMs, die eine logarithmische Rendite (sinkende Genauigkeitsgewinne) zeigen, wächst die Abdeckung von AXIOM linear mit der Anzahl der registrierten Aufgaben, da Aufgaben einander nicht unterdrücken.

4. Empirische Ergebnisse

Die Architektur wurde auf dem MATH-Benchmark (4 Kategorien), der lm-eval-harness Arithmetic Suite und einem öffentlichen Produktionseinsatz (~30.000 Abfragen) evaluiert.

MATH Benchmark (4 Kategorien):
- Kumulative Korrektheit: 94,36 % (2.592/2.747).
- Vertrauen auf Parsbarkeit: 100,00 % über alle vier Domänen (Algebra, Zahlentheorie, Zählen & Wahrscheinlichkeit, Vorkalkül). Es gab null selbstbewusst falsche Antworten.
- Latenz: Median 446 ms für LLM-gebundene Aufgaben; 1 ms für regelbasierte Aufgaben.
lm-eval-harness Arithmetic:
- Korrektheit: 100,0 % (20.000/20.000).
- Kosten: Null LLM-API-Aufrufe; 21,6 s Wandzeit auf Standard-CPU.
Produktionseinsatz:
- Bediente ~30.000 Abfragen mit null Vorfällen von selbstbewusst falschen Antworten an der API-Grenze.
- Latenztrennung: ~400-facher Unterschied zwischen dem regelbasierten (1 ms) und dem LLM-gebundenen Pfad (446 ms).
Vergleich mit reinem LLM (Qwen 2.5 7B CoT):
- AXIOM übertraf die reine CoT-Baseline in der Genauigkeit bei schwierigeren Domänen signifikant (z. B. +38,2 Prozentpunkte in Vorkalkül), während es im Vergleich zu den hunderten Fehlern der CoT-Baseline null falsche Antworten lieferte.
- AXIOM war im Durchschnitt ~24-mal bis ~40-mal schneller aufgrund des engen Prompting und des Fehlens iterativer Denkprozesse.

5. Bedeutung und Ansprüche

Die Arbeit behauptet, dass AXIOM eine Laufzeit-Vertrauensgarantie etabliert, die monolithischen LLMs oder vorformulierten Provern fehlt. Die Bedeutung liegt nicht darin, eine spezifische Genauigkeitszahl zu erreichen, sondern die ermöglichte vorwärtsgerichtete Dynamik:

Monotone Verbesserung: Jedes protokollierte „Abstain“ in der Produktion ist ein Kandidat für eine korrekte Antwort im nächsten Release-Zyklus. Das System ist darauf ausgelegt, „Abstains“ durch gezielte Aufgabenerstellung in korrekte Antworten umzuwandeln, ohne die bestehende Leistung zu verschlechtern.
Verifizierbarkeit: Vertrauen ist eine architektonische Eigenschaft, die aus dem Verifizierungspfad (deterministisches CAS) abgeleitet wird, nicht eine Eigenschaft des zugrunde liegenden Modells.
Skalierbarkeit: Die Architektur unterstützt die inkrementelle Hinzufügung von tausenden Task-Triples (über 3.100 ausgeliefert) mit null LOST_CORRECT-Regressionen über 250+ Commits hinweg.

Die Autoren räumen Einschränkungen ein, darunter eine Obergrenze bei visuell gebundenen Geometrie-Problemen (aufgrund fehlender Vision-Integration) und NLP-irreduzible Wortprobleme, betrachten dies jedoch als nächste Wendepunkte für das Register und nicht als asymptotische Barrieren. Der Kernbeitrag ist das Framework, das es ermöglicht, dass das heutige „Abstain“ durch einen disziplinierten, verifizierbaren Engineering-Prozess zum morgigen „Correct“ wird.

AXIOM: A Trust-First Neuro-Symbolic Execution Architecture for Verifiable Mathematical Reasoning