Agentified Assessment of Logical Reasoning Agents
Os autores apresentam um framework de avaliação baseado em agentes para testar raciocínio lógico, demonstrando sua eficácia ao benchmarkar um agente de auto-formalização no conjunto de dados FOLIO, onde ele superou uma linha de base de cadeia de pensamento com 86,70% de precisão.