Automating Forecasting Question Generation and Resolution for AI Evaluation
Este artigo apresenta um sistema automatizado baseado em agentes de pesquisa web com LLMs que gera e resolve em escala milhares de perguntas de previsão diversificadas e verificáveis, superando plataformas humanas em qualidade e demonstrando como essa abordagem pode melhorar o desempenho de modelos de IA na previsão de eventos.