Agentified Assessment of Logical Reasoning Agents
Dit artikel introduceert een reproduceerbaar en auditabel framework voor het beoordelen van logische redeneeragenten, waarbij een 'assessor-agent' wordt gebruikt om taken te beheren en fouten te registreren, en demonstreert dat een auto-formalisatie-agent voor eerste-orde logica op een gerepareerde FOLIO-dataset een significant hogere nauwkeurigheid bereikt dan een chain-of-thought-baseline.