DeepFact: Co-Evolving Benchmarks and Agents for Deep Research Factuality
El artículo presenta DeepFact, un marco que introduce un método de evaluación evolutiva (AtS) para superar la fragilidad de los benchmarks estáticos y un agente de verificación (DeepFact-Eval) capaz de validar la factualidad de informes de investigación profundos generados por agentes LLM.