Agentified Assessment of Logical Reasoning Agents
El artículo presenta un marco de evaluación basado en agentes para verificar la razonabilidad lógica, demostrando mediante un caso de estudio que un agente de auto-formalización supera a un modelo de cadena de pensamiento al alcanzar un 86,70% de precisión en la tarea de razonamiento FOLIO.