SimpleQA Verified: A Reliable Factuality Benchmark to Measure Parametric Knowledge

Deze paper introduceert SimpleQA Verified, een betrouwbaarder en uitdagender benchmark van 1.000 prompts voor het evalueren van de feitelijke nauwkeurigheid van grote taalmodellen, waarbij Gemini 2.5 Pro met een F1-score van 55,6 de beste prestatie levert.

Lukas Haas, Gal Yona, Giovanni D'Antonio, Sasha Goldshtein, Dipanjan Das

Gepubliceerd Wed, 11 Ma
📖 4 min leestijd☕ Koffiepauze-leesvoer

Each language version is independently generated for its own context, not a direct translation.

Samenvatting: SimpleQA Verified – De Nieuwe "Eerlijke Examen" voor AI

Stel je voor dat je een groep slimme studenten (de AI-modellen) wilt testen op hun algemene kennis. Je geeft ze een examen, maar je merkt dat het examen een paar grote problemen heeft:

  1. Sommige vragen zijn dubbelop (alsof je drie keer vraagt: "Hoe oud is de Eiffeltoren?").
  2. De antwoorden in het antwoordboekje zijn soms fout.
  3. De vragen zijn te makkelijk of te gericht op één specifiek onderwerp, waardoor de studenten kunnen "leren voor het examen" in plaats van echt slim te zijn.

Google DeepMind heeft dit probleem opgelost met SimpleQA Verified. Hier is hoe ze dat hebben gedaan, vertaald naar alledaagse taal:

1. Het Oude Examen (SimpleQA) had gebreken

Het originele examen (SimpleQA) was een goede poging, maar het was rommelig. Het was alsof een leraar een toets had gemaakt terwijl hij halfslap was:

  • Dubbelingen: Er zaten honderden vragen over dezelfde kleine Colombiaanse stadjes. Als een AI die eenmaal had geleerd, scoorde hij perfect, maar wist hij niets over andere onderwerpen.
  • Foute antwoorden: Soms stond er in het antwoordboekje een fout antwoord. De AI werd dan bestraft omdat hij het juiste antwoord gaf, maar het verkeerde antwoord uit het boekje.
  • Voorkeur: De vragen waren te veel gericht op wetenschap en te weinig op andere dingen, of juist te veel op specifieke datums.

2. De Grote Schoonmaakbeurt (SimpleQA Verified)

Google heeft het hele examenpakket door een strenge wasmachine gehaald om een SimpleQA Verified te maken. Ze hebben dit in stappen gedaan:

  • De "Dubbelcheck" (Deduplicatie): Ze hebben alle vragen die te veel op elkaar leken, verwijderd. Alsof je 100 vragen over "Hoe heet de hoofdstad van Frankrijk?" verwijdert en er maar één houdt.
  • De "Eigenaar-check" (Respecteren van webbeheerders): Sommige websites zeggen: "Geen robots mogen hier komen." De originele test had vragen die alleen op die verboden sites te vinden waren. Google heeft die vragen verwijderd, zodat de AI niet op een "verboden terrein" wordt getest.
  • De "Balans-check": Ze hebben gekeken of er genoeg vragen waren over sport, kunst, geografie en geschiedenis. Ze hebben de vragen zo gekozen dat het een eerlijk mix is, net als een goed samengesteld schoolrooster.
  • De "Waarheidscheck": Ze hebben gecontroleerd of de antwoorden kloppen. Als er twee bronnen waren die tegenstrijdige dingen zeiden, hebben ze het probleem opgelost of de vraag verwijderd.
  • De "Moeilijkheids-check": Om te voorkomen dat de AI's het te makkelijk hebben, hebben ze de 1000 makkelijkste vragen verwijderd. Ze houden alleen de 1000 allerlastigste vragen over die zelfs de slimste AI's nog niet perfect kunnen beantwoorden.

3. De Nieuwe "Jury" (De Autorater)

In het verleden keek een computer (de autorater) naar het antwoord van de AI en gaf een cijfer. Soms was die computer te streng of te verward.

  • Voorbeeld: Als de AI zegt: "Het is ongeveer 100, maar misschien 102," en het juiste antwoord is 101, gaf de oude jury een onvoldoende.
  • De nieuwe regeling: De nieuwe jury is slimmer. Ze zeggen: "Als het antwoord tussen 99 en 103 ligt, is het goed." Ze kijken ook beter of de AI echt heeft geprobeerd te antwoorden of dat hij alleen maar "misschien" en "weet ik niet" heeft gezegd.

4. Wie heeft gewonnen?

Toen ze dit nieuwe, eerlijke examen lieten doen door de slimste AI's ter wereld (zoals GPT-5, Claude en Gemini), gebeurde er iets interessants:

  • Gemini 2.5 Pro (van Google) scoorde het beste. Het haalde een score van 55,6%.
  • Dit betekent dat het model ongeveer 55% van de lastige vragen correct beantwoordde zonder hulp van Google of zoekmachines.
  • Andere modellen, zoals GPT-5, deden het ook goed, maar net iets minder goed dan Gemini op deze specifieke test.

Waarom is dit belangrijk?

Stel je voor dat je een auto koopt en de verkoper zegt: "Deze auto is de snelste ter wereld!" Maar je merkt dat hij alleen op een rechte, lege weg is getest.
SimpleQA Verified is als een nieuwe testbaan met bochten, regen, en hellingen. Het laat zien welke AI echt "slim" is en welke AI alleen maar goed is in het uit het hoofd leren van een trucsje voor een specifiek examen.

Kortom: Google heeft een schoner, eerlijker en moeilijker examen gemaakt om te zien welke AI echt feiten uit zijn hoofd kent en welke AI begint te "hallucineren" (dromen). En tot nu toe wint Gemini 2.5 Pro deze strijd.