SimpleQA Verified: A Reliable Factuality Benchmark to Measure Parametric Knowledge

Each language version is independently generated for its own context, not a direct translation.

Imagine que os modelos de Inteligência Artificial (como o Gemini ou o GPT) são como bibliotecários superinteligentes que memorizaram quase tudo o que existe na internet. O grande desafio é: será que eles realmente sabem a verdade, ou estão apenas "alucinando" (inventando coisas que parecem verdadeiras)?

Para testar isso, os pesquisadores da Google criaram um novo "exame" chamado SimpleQA Verified.

Aqui está a explicação simples, usando analogias do dia a dia:

1. O Problema: O Exame Antigo estava "Viciado"

Antes, existia um teste chamado SimpleQA (criado pela OpenAI) para ver o quanto os robôs sabiam de fatos. Mas esse teste tinha alguns defeitos graves, como se fosse uma prova de matemática onde:

As perguntas eram repetidas: Havia 100 perguntas sobre "em que ano foi fundada a cidade X", "cidade Y" e "cidade Z", todas muito parecidas. Era como se o aluno tivesse estudado apenas um tipo de questão e decorado a resposta, em vez de aprender matemática de verdade.
As respostas estavam erradas: Algumas vezes, a "resposta correta" no gabarito estava errada.
O tema era enviesado: O teste focava demais em um assunto (como tecnologia) e ignorava outros (como arte ou geografia).

Isso fazia com que os robôs tirassem notas altas não porque eram mais inteligentes, mas porque tinham "viciado" no formato do teste.

2. A Solução: O "SimpleQA Verified" (O Exame Limpo)

A equipe da Google decidiu pegar esse antigo exame e fazer uma faxina rigorosa para criar o SimpleQA Verified. Eles agiram como editores de um jornal ou curadores de um museu:

Retiraram as cópias: Usaram tecnologia para encontrar perguntas que eram semanticamente iguais (mesmo que com palavras diferentes) e mantiveram apenas uma versão de cada.
Verificaram as fontes: Garantiram que as perguntas não vinham de sites que proibiam o uso de seus dados para treinar IA (respeitando a vontade dos donos dos sites).
Equilibraram o cardápio: Se havia muitas perguntas sobre "datas" e poucas sobre "nomes de pessoas", eles ajustaram o teste para ter uma mistura saudável de tudo (geografia, música, história, números).
Corrigiram o gabarito: Revisaram as respostas numéricas. Por exemplo, se a resposta era "105 km", eles aceitaram qualquer coisa entre "103 km e 107 km", porque às vezes há pequenas diferenças nas fontes. Isso evita que o robô seja punido por um erro de arredondamento.

No final, eles reduziram o teste de mais de 4.000 perguntas para 1.000 perguntas de altíssima qualidade, que são difíceis, justas e não têm "atalhos".

3. O Resultado: Quem é o Campeão?

Eles colocaram os maiores robôs do mundo para fazer esse novo exame (sem usar o Google ou ferramentas de busca, apenas usando o que sabem de memória).

O Vencedor: O Gemini 2.5 Pro (da Google) tirou a melhor nota, alcançando um nível de precisão de 55,6%.
Os Concorrentes: Outros modelos gigantes, como o GPT-5 (da OpenAI) e o Claude Opus 4, ficaram logo atrás, mas com notas um pouco menores.

É importante notar que, como o teste antigo tinha perguntas "fáceis" ou repetidas, alguns robôs pareciam melhores nele. No teste novo e limpo, a diferença real de inteligência ficou mais clara.

4. Por que isso importa?

Imagine que você está comprando um carro.

O SimpleQA antigo era como testar o carro apenas em uma pista de terra plana e reta. Todos os carros pareciam rápidos.
O SimpleQA Verified é como colocar o carro em uma montanha russa, com chuva, curvas fechadas e buracos.

Agora, sabemos quem realmente tem um motor potente (conhecimento factual real) e quem apenas parecia bom na pista fácil. Isso ajuda a criar IAs que não inventam fatos, o que é crucial para usá-las em hospitais, tribunais e empresas onde a verdade é vital.

Resumo da Ópera:
Os pesquisadores da Google pegaram um teste de IA cheio de falhas, fizeram uma limpeza cirúrgica, equilibraram as perguntas e criaram um novo padrão de ouro. No novo teste, o Gemini 2.5 Pro provou ser o mais confiável em lembrar fatos do mundo real, sem precisar "olhar na cola" (ferramentas de busca).

SimpleQA Verified: A Reliable Factuality Benchmark to Measure Parametric Knowledge

1. O Problema: O Exame Antigo estava "Viciado"

2. A Solução: O "SimpleQA Verified" (O Exame Limpo)

3. O Resultado: Quem é o Campeão?

4. Por que isso importa?

1. Problema e Contexto

2. Metodologia: Criação do SimpleQA Verified

3. Melhorias no Autorater (Avaliação Automática)

4. Resultados Principais

5. Contribuições e Significância

SimpleQA Verified: A Reliable Factuality Benchmark to Measure Parametric Knowledge

1. O Problema: O Exame Antigo estava "Viciado"

2. A Solução: O "SimpleQA Verified" (O Exame Limpo)

3. O Resultado: Quem é o Campeão?

4. Por que isso importa?

1. Problema e Contexto

2. Metodologia: Criação do SimpleQA Verified

3. Melhorias no Autorater (Avaliação Automática)

4. Resultados Principais

5. Contribuições e Significância

Mais como este

One Language, Two Scripts: Probing Script-Invariance in LLM Concept Representations

MultiGraSCCo: A Multilingual Anonymization Benchmark with Annotations of Personal Identifiers

ConFu: Contemplate the Future for Better Speculative Sampling

SciTaRC: Benchmarking QA on Scientific Tabular Data that Requires Language Reasoning and Complex Computation

Automated Thematic Analysis for Clinical Qualitative Data: Iterative Codebook Refinement with Full Provenance