Automating Forecasting Question Generation and Resolution for AI Evaluation

Este artigo apresenta um sistema automatizado baseado em agentes de pesquisa web com LLMs que gera e resolve em escala milhares de perguntas de previsão diversificadas e verificáveis, superando plataformas humanas em qualidade e demonstrando como essa abordagem pode melhorar o desempenho de modelos de IA na previsão de eventos.

Nikos I. Bosse, Peter Mühlbacher, Jack Wildman, Lawrence Phillips, Dan Schwarz

Publicado Wed, 11 Ma
📖 5 min de leitura🧠 Leitura aprofundada

Each language version is independently generated for its own context, not a direct translation.

Imagine que você é um treinador de um time de futebol e quer saber se seus jogadores estão ficando melhores. Para isso, você precisa de jogos difíceis, contra adversários fortes, e precisa ter certeza de que o resultado do jogo (quem ganhou) é claro e incontestável.

O artigo que você leu é sobre como os pesquisadores do FutureSearch criaram um "estádio virtual" gigante para treinar e testar a inteligência artificial (IA) na arte de prever o futuro.

Aqui está a explicação, passo a passo, usando analogias simples:

1. O Problema: A Dificuldade de Criar "Jogos" para IA

Prever o futuro é difícil. Para treinar uma IA a ser boa nisso, você precisa de milhares de perguntas sobre o futuro (ex: "A chuva vai cair amanhã?", "A ação X vai subir?").

  • O desafio: Criar essas perguntas manualmente é cansativo e demorado. Se você usar apenas dados antigos (como clima ou preços de ações), as perguntas ficam repetitivas e fáceis demais.
  • A solução do artigo: Eles criaram um "robô jornalista" que vasculha a internet em tempo real para inventar perguntas novas, difíceis e importantes sobre o mundo real.

2. A Fábrica de Perguntas (O Pipeline)

Eles construíram uma linha de montagem automatizada com robôs (agentes de IA) trabalhando juntos:

  • A Semente (O Inspiração): Tudo começa com uma notícia ou um fato real (como um relatório de uma empresa ou uma notícia do GDELT). Imagine que é como pegar uma semente de uma planta.
  • O Rascunho (Proto-perguntas): Um robô lê a semente e cria 1 a 7 ideias de perguntas. Mas essas perguntas ainda são "meio vagas". É como dizer: "Vai chover?". Precisa ser mais específico.
  • O Refinamento (Tornando Claro): Outro robô pega a ideia vaga e a transforma em uma pergunta de "Sim ou Não" super precisa. Ele define exatamente quando e como vamos saber a resposta.
    • Exemplo: Em vez de "Vai chover?", a pergunta vira: "Haverá mais de 50mm de chuva na cidade X entre 15 e 31 de outubro de 2025, medido pelo órgão oficial Y?".
  • Os Juízes (Verificadores): Antes de a pergunta entrar no jogo, ela passa por uma equipe de juízes robôs. Eles verificam:
    • É ambíguo? (Se não, descarta).
    • É possível resolver? (Se a resposta não puder ser encontrada na internet, descarta).
    • É difícil? (Se for óbvio demais, descarta).
  • O Filtro Final: Eles usam um sistema para garantir que não haja perguntas duplicadas (como duas perguntas sobre o mesmo time, mas com palavras diferentes).

O Resultado: Eles criaram 1.499 perguntas de altíssima qualidade sobre política, economia, guerras, clima e esportes.

3. O Grande Teste: Quem é o Melhor Adivinho?

Depois de criar as perguntas, eles precisavam ver se as IAs conseguiam respondê-las. Eles usaram IAs de ponta (como Gemini 3 Pro e GPT-5) como "adivinhos".

  • A Regra do Jogo: A IA precisa pesquisar na internet, ler notícias e dados, e depois dar uma porcentagem de chance (ex: "80% de chance de chover").
  • O Veredito: Quando a data chegou, eles verificaram a resposta real.
  • A Descoberta: Quanto mais "inteligente" e capaz era a IA, melhor ela acertava.
    • A IA mais forte (Gemini 3 Pro) teve o melhor desempenho.
    • IAs menores ou mais antigas erraram mais.
    • Isso prova que o teste é justo: ele realmente mede inteligência, não apenas sorte.

4. A Qualidade do Trabalho

Eles compararam suas perguntas com as de uma plataforma famosa de previsão humana chamada Metaculus.

  • Qualidade: As perguntas criadas pelos robôs eram tão boas (ou até melhores) quanto as feitas por humanos especialistas. Apenas cerca de 4% precisaram ser canceladas (uma taxa muito baixa).
  • Resolução: O sistema de robôs conseguiu resolver as perguntas (dizer se foi Sim ou Não) com 95% de precisão.

5. O Pulo do Gato: "Dividir para Conquistar"

Uma das descobertas mais legais foi um truque de estratégia. Eles pegaram algumas perguntas difíceis e pediram para a IA quebrá-las em subperguntas menores.

  • Analogia: Em vez de tentar adivinhar "Quem vai ganhar a Copa do Mundo?", a IA primeiro adivinha "Quem vai passar da fase de grupos?", "Quem vai jogar melhor no ataque?", etc.
  • Resultado: Ao responder as pequenas peças primeiro, a IA conseguiu prever o resultado final com muito mais precisão. Isso mostra que, para problemas complexos, dividir o trabalho ajuda a IA a pensar melhor.

Resumo Final

Este artigo é como se eles tivessem construído um laboratório de testes de direção para carros autônomos (as IAs), mas em vez de carros, são previsões.

Eles provaram que:

  1. Podemos criar testes de previsão automáticos, rápidos e de alta qualidade usando robôs.
  2. Esses testes são difíceis o suficiente para distinguir uma IA "burra" de uma "gênial".
  3. Quanto mais inteligente a IA, melhor ela se sai nesses testes.
  4. Dividir problemas grandes em pequenos ajuda a IA a ser ainda mais precisa.

Isso é um passo gigante para entendermos se estamos caminhando para uma Inteligência Artificial Geral (AGI), pois prever o futuro com precisão é uma das maiores provas de inteligência humana.