Agentified Assessment of Logical Reasoning Agents
Die Arbeit stellt einen Framework für die robuste und überprüfbare Bewertung logischer Reasoning-Agenten vor, der in einer Fallstudie zeigt, dass ein Auto-Formalisierung-Agent für FOL-Reasoning auf Basis von Z3Py mit 86,70 % Genauigkeit einen Chain-of-Thought-Baseline (73,89 %) auf dem bereinigten FOLIO-Datensatz übertrifft.