Agentified Assessment of Logical Reasoning Agents

Each language version is independently generated for its own context, not a direct translation.

Stellen Sie sich vor, Sie haben einen sehr klugen, aber manchmal etwas chaotischen Schüler (den KI-Agenten), der Mathematikaufgaben lösen soll. Die Aufgabe ist es, logische Rätsel zu knacken: „Wenn A wahr ist und B falsch, ist dann C wahr?"

Das Problem bei bisherigen Tests war, dass man den Schüler oft nur nach dem Endergebnis fragte. Wenn er die Antwort nicht aufschrieb, weil er sich im Rechenheft vertippt hatte oder die Uhr abgelaufen war, galt er einfach als „schlecht". Man wusste nicht, ob er die Logik nicht verstand oder nur einen technischen Fehler hatte.

Diese neue Arbeit von den Forschern der UC Berkeley schlägt einen völlig neuen Weg vor, um solche KI-Systeme zu testen. Hier ist die Erklärung, wie ein Alltagsheld und ein strenger Prüfer zusammenarbeiten:

1. Der neue Prüfer: Der „Agentified Assessor"

Stellen Sie sich vor, statt eines statischen Antwortbogens gibt es einen automatischen Prüfer-Avatar (den Assessor-Agenten).

Die alte Methode: Der Lehrer (der Test) ist fest mit dem Schüler (dem KI-Modell) verbunden. Wenn der Lehrer wechselt, muss der Schüler alles neu lernen. Das ist wie ein Festmahl, bei dem jeder Gast sein eigenes Besteck mitbringen muss.
Die neue Methode (Agentified Assessment): Der Prüfer ist ein eigenständiger Charakter. Er gibt dem Schüler die Aufgabe, schaut zu, wie er arbeitet, und bewertet nicht nur das Ergebnis, sondern auch warum etwas schiefgelaufen ist.
- Wenn der Schüler die Uhr vergisst (Timeout), merkt der Prüfer: „Aha, Zeitüberschreitung!"
- Wenn der Schüler die Antwort in Kauderwelsch schreibt (Parse Error), merkt er: „Ich konnte das nicht lesen!"
- Der Schüler muss sich nur an eine einfache Regel halten: „Sprich mit mir so, wie ich mit dir spreche." Das macht den Test viel flexibler und fairer.

2. Die saubere Aufgabe: Der „FOLIO"-Bereinigungs-Service

Die Forscher nutzten einen bestehenden Datensatz namens FOLIO, der wie ein riesiges Rätselheft aus Wikipedia-Artikeln ist. Aber das Heft war voller Fehler!

Das Problem: Manchmal passte die formale Logik-Notation nicht zum deutschen Text. Es war wie ein Kochrezept, bei dem im Text „1 Tasse Zucker" steht, aber in der Zutatenliste „1 Tasse Salz" geschrieben ist.
Die Lösung: Sie bauten eine Reinigungs-Maschine.
1. Ein Kritiker-Roboter schaut sich die Rätsel an und findet Fehler (z. B. fehlende Klammern oder falsche Wörter).
2. Ein Reparatur-Roboter fixiert diese Fehler.
3. Ein Logik-Experte (ein Computerprogramm namens Vampire) prüft am Ende, ob die Lösung wirklich stimmt.
  Nur die Rätsel, die nach dieser Reinigung absolut wasserdicht sind, kamen in den finalen Test.

3. Die zwei Kandidaten: Der „Träumer" vs. der „Ingenieur"

Auf diesem sauberen Test setzten die Forscher zwei verschiedene KI-Strategien gegeneinander an:

Kandidat A: Der „Chain-of-Thought" (Der Denker)
Dieser KI-Modell wird gebeten, einfach laut zu denken: „Schritt 1: Das ist so. Schritt 2: Das ist so. Also ist die Antwort X." Es ist wie ein Schüler, der versucht, die Aufgabe im Kopf zu lösen und alles aufzuschreiben. Das funktioniert oft gut, aber bei komplexen Logik-Fallen stolpert er leicht.
Kandidat B: Der „Auto-Formalization" (Der Ingenieur)
Dieser KI-Modell ist schlauer. Er übersetzt die Rätsel nicht nur in Worte, sondern baut sofort eine kleine Maschine (ein Computerprogramm in einer Sprache namens Z3Py).
- Er baut die Logik wie einen Lego-Turm.
- Dann lässt er einen Super-Computer (einen Solver) den Turm prüfen.
- Wenn der Turm wackelt (Fehler), repariert er ihn sofort und prüft ihn noch einmal.
- Das ist wie ein Architekt, der nicht nur skizziert, sondern das Gebäude am Computer simuliert, bevor er es baut.

4. Das Ergebnis: Warum der Ingenieur gewinnt

Das Ergebnis war eindeutig:

Der Denker (Chain-of-Thought) hatte eine Trefferquote von 74 %.
Der Ingenieur (Auto-Formalization) landete bei 87 %.

Der größte Unterschied zeigte sich bei den „Falsch"-Fragen (Widersprüchen). Der Denker verwechselte hier oft Dinge (44 %), während der Ingenieur mit seiner präzisen Maschine fast immer recht hatte (77 %).

Fazit: Was lernen wir daraus?

Die Botschaft der Arbeit ist wie folgt:
Um KI-Systeme wirklich gut zu testen, brauchen wir nicht nur einen neuen Test, sondern einen neuen Prüfer, der genau hinschaut, wie die KI arbeitet und wo sie hakt. Und wenn es um harte Logik geht, ist es oft besser, wenn die KI nicht nur „rät" oder „denkt", sondern wenn sie ihre Gedanken in eine überprüfbare Maschine verwandelt, die keine Fehler durchschlüpfen lässt.

Es ist der Unterschied zwischen jemandem, der behauptet, er könne ein Haus bauen, und jemandem, der den Bauplan am Computer durchrechnet, bevor der erste Stein gelegt wird.

Each language version is independently generated for its own context, not a direct translation.

Titel: Agentifiziertes Assessment von logischen Schlussfolgerungs-Agenten

Veröffentlicht bei: ICLR 2026 Agents in the Wild (AIWILD) Workshop

1. Problemstellung

Die Bewertung und das Benchmarking von logischen Schlussfolgerungs-Agenten (Reasoning Agents) sind derzeit mit erheblichen Herausforderungen verbunden:

Verschmelzung von Fehlerarten: Herkömmliche statische Evaluierungsrahmenwerke verwechseln oft operative Fehler (z. B. Zeitüberschreitungen, Laufzeitfehler, Parsing-Fehler) mit eigentlichen logischen Schlussfolgerungsfehlern. Dies führt dazu, dass Fehlermodi hinter einer einzigen Genauigkeitszahl verborgen bleiben.
Hoher Integrationsaufwand: Traditionelle Benchmarks koppeln die Benchmark-Logik eng an die Implementierung der Agenten. Mit der Anzahl der Benchmarks wächst der Aufwand für die Integration linear ( $O(n)$ ).
Mangelnde Reproduzierbarkeit und Auditierbarkeit: Es fehlt an robusten Mechanismen, um die Ausführung von Aufgaben, die Einhaltung von Budgets und die Art von Fehlern systematisch und nachvollziehbar zu protokollieren.

2. Methodik

Das Papier stellt einen neuen Ansatz vor, der auf dem Konzept des Agentifizierten Agenten-Assessments (AAA) basiert.

A. Das Framework: Agentifiziertes Assessment (AAA)

Statt eines statischen Evaluierungsskripts wird die Bewertung selbst als ein Assessor-Agent implementiert.

Architektur: Das System besteht aus zwei interagierenden Komponenten: dem zu testenden Agenten (Agent under Test) und dem Assessor-Agenten.
Schnittstelle: Die Kommunikation erfolgt über eine standardisierte Agent-zu-Agent (A2A)-Schnittstelle.
Vorteil: Dies entkoppelt die Evaluierungslogik von der Agentenimplementierung. Ein Agent muss die A2A-Schnittstelle nur einmal implementieren, um an vielen verschiedenen Assessments teilzunehmen ( $O(1)$ Integrationskosten statt $O(n)$ ).
Funktionen des Assessors:
- Aufgabenverteilung und Durchsetzung von Ausführungs-Budgets (z. B. Timeouts).
- Parsing der Ausgaben und Zuweisung von Labels (TRUE, FALSE, UNCERTAIN).
- Strukturierte Protokollierung von Fehlertypen (PARSEERROR, TIMEOUT, RUNTIMEERROR) statt bloßer Verwerfung.
- Ausgabe maschinenlesbarer Evaluierungsartefakte.

B. Datenbereinigung und Validierung (FOLIO-Datensatz)

Als Fallstudie wurde der Datensatz FOLIO (First-Order Logic) verwendet, der natürliche Sprache mit formaler Logik verknüpft.

Pipeline: Um die Zuverlässigkeit zu erhöhen, wurde eine Datenbereinigungs-Pipeline entwickelt:
1. Formale Verifikation: Nutzung des Theorembeweisers Vampire, um die Implikationsbeziehung zwischen Prämissen und Schlussfolgerungen zu überprüfen.
2. Fehleridentifikation: Erkennung von Inkonsistenzen zwischen den erwarteten Labels und den Verifikationsergebnissen.
3. Reparatur: Zwei LLM-basierte Agenten (ein Critique-Agent und ein Refiner-Agent) identifizieren und korrigieren systematische Übersetzungsfehler (z. B. Klammern, Tippfehler, Namenskonventionen).
4. Manuelle Prüfung: Instanzen, die nach mehreren Reparaturversuchen nicht gelöst werden können, werden für Experten-Review markiert.
Ergebnis: Ein bereinigter Split von FOLIO mit reduzierten Label-Fehlern (3,8 % im Training, 1,5 % im Validierungsset).

C. Getestete Agenten

Zwei Agenten wurden unter demselben Assessor-Protokoll verglichen:

Chain-of-Thought (CoT) Baseline: Der Agent erhält Anweisungen, schrittweise zu reasoningen und das finale Label als letzte Zeile auszugeben.
Auto-Formalisierung-Agent:
- Ansatz: Übersetzung natürlicher Sprache in ausführbare symbolische Programme (Z3Py).
- Prozess:
  - Stage 1: Ein Sprachmodell generiert Z3Py-Code.
  - Stage 2: Der Code wird in einer Sandbox mit einem 60-Sekunden-Timeout ausgeführt.
- Selbstkorrektur: Bei Syntaxfehlern oder fehlerhaften Quantoren wird eine Fehlermeldung extrahiert und der Code repariert (bis zu 3 Versuche).
- Logik: Die Gültigkeit wird durch Satisfiability-Checking (SMT-Lösung) bestimmt:
  - TRUE: $\bigwedge \phi_i \to \phi$ ist gültig (Unerfüllbarkeit von $\bigwedge \phi_i \land \neg \phi$ ).
  - FALSE: $\bigwedge \phi_i \to \neg \phi$ ist gültig.
  - UNCERTAIN: Sonst.

3. Wichtige Beiträge

Neues Evaluierungsparadigma: Einführung des AAA-Frameworks, das Evaluierung als eigenständigen Agenten behandelt und so Modularität, Auditierbarkeit und Robustheit gegenüber Ausführungsausfällen gewährleistet.
Hochwertiger Benchmark: Bereitstellung eines verifizierten und reparierten FOLIO-Datensatzes, der die Diskrepanz zwischen natürlicher Sprache und formaler Logik minimiert.
Leistungsnachweis: Demonstration, dass ein Auto-Formalisierungsansatz mit SMT-Lösern (Z3) herkömmlichen CoT-Methoden überlegen ist, insbesondere bei komplexen logischen Schlussfolgerungen.
Infrastruktur: Aufbau eines Leaderboards, das reproduzierbare Vergleiche durch Aufzeichnung von Latenz, Genauigkeit und strukturierten Fehlertypen ermöglicht.

4. Ergebnisse

Auf dem bereinigten Validierungsset von FOLIO (203 Beispiele) wurden folgende Genauigkeitswerte erzielt:

Kategorie	Chain-of-Thought (CoT)	Auto-Formalisierung-Agent
Gesamtgenauigkeit	73,89 % (150/203)	86,70 % (176/203)
TRUE (Wahr)	89,04 %	90,41 %
FALSE (Falsch/Kontradiktion)	44,26 %	77,05 %
UNCERTAIN (Unbestimmt)	84,06 %	91,30 %

Analyse:

Der Auto-Formalisierung-Agent übertrifft die CoT-Baseline signifikant (+12,81 Prozentpunkte).
Der größte Leistungssprung ist bei der Kategorie FALSE zu verzeichnen (von 44,26 % auf 77,05 %). Dies zeigt, dass SMT-Löser besonders effektiv darin sind, logische Widersprüche zu erkennen, wo reine Sprachmodelle oft scheitern.
Auch bei unbestimmten Fällen (UNCERTAIN) zeigt der solver-basierte Ansatz Vorteile.

5. Bedeutung und Ausblick

Dieses Papier unterstreicht, dass die Kombination aus Auto-Formalisierung und formaler Verifikation (durch SMT-Löser) die Robustheit von logischen Schlussfolgerungs-Agenten erheblich steigern kann.

Das vorgestellte Agentified Assessment Framework bietet einen skalierbaren Weg, um zukünftige Agenten zu bewerten, indem es:

Die Kosten für die Integration neuer Benchmarks senkt.
Eine granulare Analyse von Fehlern ermöglicht (nicht nur "falsch", sondern "warum falsch").
Die Reproduzierbarkeit von Experimenten durch standardisierte Schnittstellen und strukturierte Artefakte sicherstellt.

Zukünftige Arbeiten könnten die Richtlinien der Assessor-Agenten erweitern und dieses Framework auf komplexere Szenarien mit reichhaltigeren Tool-Nutzungsumgebungen anwenden.