SimpleQA Verified: A Reliable Factuality Benchmark to Measure Parametric Knowledge

Ce papier présente SimpleQA Verified, un nouveau benchmark de 1 000 prompts rigoureusement filtré pour évaluer la factualité des grands modèles de langage, corrigeant les défauts de l'original et établissant un nouvel état de l'art avec Gemini 2.5 Pro.

Lukas Haas, Gal Yona, Giovanni D'Antonio, Sasha Goldshtein, Dipanjan Das

Publié Wed, 11 Ma
📖 4 min de lecture☕ Lecture pause café

Each language version is independently generated for its own context, not a direct translation.

Voici une explication simple et imagée de l'article scientifique sur SimpleQA Verified, conçue pour être comprise par tout le monde.

🕵️‍♂️ Le Problème : Un examen truqué ?

Imaginez que vous voulez tester la mémoire d'un élève très intelligent (une Intelligence Artificielle). Pour cela, vous lui posez des questions de culture générale.

L'année dernière, OpenAI a créé un examen appelé SimpleQA. C'était comme un grand concours de culture générale. Mais il y avait un gros problème : cet examen était défectueux.

  • Des questions en double : C'était comme si l'examinateur avait posé 100 fois la même question, juste en changeant le mot "mardi" par "lundi". L'élève apprenait par cœur la réponse sans vraiment comprendre.
  • Des questions biaisées : L'examinateur aimait trop les questions sur la science et pas assez sur l'histoire ou la musique.
  • Des réponses fausses : Parfois, la "bonne réponse" indiquée sur la copie de l'examinateur était en réalité fausse !

Résultat : Les IA semblaient très intelligentes, mais elles avaient simplement "bachoté" les défauts de l'examen. C'était comme si un joueur de football marquait des buts parce que le gardien dormait, pas parce qu'il était le meilleur du monde.

🛠️ La Solution : Le grand nettoyage "SimpleQA Verified"

L'équipe de Google DeepMind a dit : "Stop ! Refaisons cet examen proprement." Ils ont créé SimpleQA Verified.

Voici comment ils ont fait, étape par étape, avec des images simples :

  1. Le tri des doublons (Le grand ménage) :
    Imaginez une pile de 4 300 questions. Ils ont jeté toutes les questions qui se ressemblaient trop (comme des photocopies déformées). Ils sont passés de 4 300 à 3 000 questions.

  2. Le respect des propriétaires (La règle du "Non") :
    Certaines questions pointaient vers des sites web qui disent : "Hé, les robots, n'entre pas ici !" (c'est ce qu'on appelle le fichier robots.txt). Google a respecté ce choix et a retiré ces questions. C'est comme si l'examinateur respectait la vie privée des auteurs des questions.

  3. L'équilibre parfait (Le saladier) :
    Dans l'ancien examen, il y avait trop de questions sur les dates et les noms de personnes. Ils ont rééquilibré le tout pour avoir un peu de tout : géographie, musique, sport, science. C'est comme préparer un plat : on ne met pas que du sel, on veut un vrai mélange de saveurs.

  4. La vérification des réponses (Le détective) :
    Ils ont revérifié chaque réponse. Si deux sources disaient des choses différentes, ils ont tranché. Pour les chiffres (comme "combien de kilomètres ?"), ils ont accepté une petite marge d'erreur (comme dire "environ 100 km" au lieu de "exactement 100,000 km").

  5. Le filtre de difficulté (Le tri sélectif) :
    Pour que l'examen reste difficile, ils ont retiré les questions trop faciles que toutes les IA modernes pouvaient répondre. Ils ont gardé les 1 000 questions les plus coriaces.

🏆 Le Résultat : Qui est le champion ?

Une fois cet examen nettoyé et rééquilibré, ils l'ont passé aux meilleures IA du monde (Gemini, GPT-5, Claude, etc.).

  • Le verdict : L'IA Gemini 2.5 Pro a gagné le championnat avec un score de 55,6 %.
  • La surprise : Même si c'est un score qui semble bas (moins de la moitié des bonnes réponses), c'est en réalité un exploit ! Cela signifie que même les IA les plus avancées ont encore du mal à se souvenir de faits précis sans utiliser d'outils de recherche.
  • La différence : Sur l'ancien examen (SimpleQA), certaines IA faisaient de "faux progrès" parce qu'elles avaient mémorisé les erreurs de l'examen. Sur le nouveau (Verified), les scores sont plus justes. Par exemple, GPT-5 a même un peu moins bien réussi sur le nouveau test que sur l'ancien, car il ne peut plus tricher avec les défauts de l'ancien examen.

💡 Pourquoi c'est important ?

Pensez à SimpleQA Verified comme à un thermomètre de haute précision.

Avant, le thermomètre était cassé et affichait toujours 37°C, même si vous aviez de la fièvre. On pensait que tout le monde allait bien.
Maintenant, avec le nouveau thermomètre, on voit la vraie température. Cela permet aux chercheurs de savoir :

  1. Où sont les vrais progrès des IA.
  2. Où elles font encore des erreurs (des "hallucinations").
  3. Comment construire des IA plus fiables pour l'avenir, surtout dans des domaines importants comme la médecine ou le droit, où une erreur de fait peut être grave.

En résumé : Google a pris un examen imparfait, l'a nettoyé, l'a rendu plus juste et plus difficile, et a utilisé ce nouveau test pour montrer qui est vraiment le champion de la mémoire des faits. C'est une étape cruciale pour rendre les IA plus dignes de confiance.