SimpleQA Verified: A Reliable Factuality Benchmark to Measure Parametric Knowledge

O artigo apresenta o SimpleQA Verified, um novo benchmark de 1.000 prompts que corrige limitações de ruído e viés do SimpleQA original para avaliar com maior precisão a factualidade de modelos de linguagem, onde o Gemini 2.5 Pro alcançou o estado da arte com uma pontuação F1 de 55,6.

Lukas Haas, Gal Yona, Giovanni D'Antonio, Sasha Goldshtein, Dipanjan Das

Publicado Wed, 11 Ma
📖 4 min de leitura☕ Leitura rápida

Each language version is independently generated for its own context, not a direct translation.

Imagine que os modelos de Inteligência Artificial (como o Gemini ou o GPT) são como bibliotecários superinteligentes que memorizaram quase tudo o que existe na internet. O grande desafio é: será que eles realmente sabem a verdade, ou estão apenas "alucinando" (inventando coisas que parecem verdadeiras)?

Para testar isso, os pesquisadores da Google criaram um novo "exame" chamado SimpleQA Verified.

Aqui está a explicação simples, usando analogias do dia a dia:

1. O Problema: O Exame Antigo estava "Viciado"

Antes, existia um teste chamado SimpleQA (criado pela OpenAI) para ver o quanto os robôs sabiam de fatos. Mas esse teste tinha alguns defeitos graves, como se fosse uma prova de matemática onde:

  • As perguntas eram repetidas: Havia 100 perguntas sobre "em que ano foi fundada a cidade X", "cidade Y" e "cidade Z", todas muito parecidas. Era como se o aluno tivesse estudado apenas um tipo de questão e decorado a resposta, em vez de aprender matemática de verdade.
  • As respostas estavam erradas: Algumas vezes, a "resposta correta" no gabarito estava errada.
  • O tema era enviesado: O teste focava demais em um assunto (como tecnologia) e ignorava outros (como arte ou geografia).

Isso fazia com que os robôs tirassem notas altas não porque eram mais inteligentes, mas porque tinham "viciado" no formato do teste.

2. A Solução: O "SimpleQA Verified" (O Exame Limpo)

A equipe da Google decidiu pegar esse antigo exame e fazer uma faxina rigorosa para criar o SimpleQA Verified. Eles agiram como editores de um jornal ou curadores de um museu:

  • Retiraram as cópias: Usaram tecnologia para encontrar perguntas que eram semanticamente iguais (mesmo que com palavras diferentes) e mantiveram apenas uma versão de cada.
  • Verificaram as fontes: Garantiram que as perguntas não vinham de sites que proibiam o uso de seus dados para treinar IA (respeitando a vontade dos donos dos sites).
  • Equilibraram o cardápio: Se havia muitas perguntas sobre "datas" e poucas sobre "nomes de pessoas", eles ajustaram o teste para ter uma mistura saudável de tudo (geografia, música, história, números).
  • Corrigiram o gabarito: Revisaram as respostas numéricas. Por exemplo, se a resposta era "105 km", eles aceitaram qualquer coisa entre "103 km e 107 km", porque às vezes há pequenas diferenças nas fontes. Isso evita que o robô seja punido por um erro de arredondamento.

No final, eles reduziram o teste de mais de 4.000 perguntas para 1.000 perguntas de altíssima qualidade, que são difíceis, justas e não têm "atalhos".

3. O Resultado: Quem é o Campeão?

Eles colocaram os maiores robôs do mundo para fazer esse novo exame (sem usar o Google ou ferramentas de busca, apenas usando o que sabem de memória).

  • O Vencedor: O Gemini 2.5 Pro (da Google) tirou a melhor nota, alcançando um nível de precisão de 55,6%.
  • Os Concorrentes: Outros modelos gigantes, como o GPT-5 (da OpenAI) e o Claude Opus 4, ficaram logo atrás, mas com notas um pouco menores.

É importante notar que, como o teste antigo tinha perguntas "fáceis" ou repetidas, alguns robôs pareciam melhores nele. No teste novo e limpo, a diferença real de inteligência ficou mais clara.

4. Por que isso importa?

Imagine que você está comprando um carro.

  • O SimpleQA antigo era como testar o carro apenas em uma pista de terra plana e reta. Todos os carros pareciam rápidos.
  • O SimpleQA Verified é como colocar o carro em uma montanha russa, com chuva, curvas fechadas e buracos.

Agora, sabemos quem realmente tem um motor potente (conhecimento factual real) e quem apenas parecia bom na pista fácil. Isso ajuda a criar IAs que não inventam fatos, o que é crucial para usá-las em hospitais, tribunais e empresas onde a verdade é vital.

Resumo da Ópera:
Os pesquisadores da Google pegaram um teste de IA cheio de falhas, fizeram uma limpeza cirúrgica, equilibraram as perguntas e criaram um novo padrão de ouro. No novo teste, o Gemini 2.5 Pro provou ser o mais confiável em lembrar fatos do mundo real, sem precisar "olhar na cola" (ferramentas de busca).