SimpleQA Verified: A Reliable Factuality Benchmark to Measure Parametric Knowledge

Each language version is independently generated for its own context, not a direct translation.

Der „SimpleQA Verified"-Bericht: Ein neuer, sauberer Spiegel für KI-Gehirne

Stellen Sie sich vor, Sie wollen testen, wie gut das Gedächtnis eines KI-Modells (wie ein sehr schlauer Roboter) ist. Dazu stellen Sie ihm 1.000 kurze Fragen, die es aus seinem „internen Wissen" beantworten muss, ohne Google zu benutzen. Das ist im Grunde das, was dieser Papierbericht beschreibt.

Hier ist die Geschichte in einfachen Worten, mit ein paar bildhaften Vergleichen:

1. Das alte Problem: Ein Spiegel mit Kratzern

Vor kurzem gab es einen berühmten Test namens SimpleQA. Das war wie ein großer Spiegel, in den die KI-Entwickler schauten, um zu sehen, wie gut ihre Modelle Fakten kennen. Aber dieser Spiegel hatte ein paar große Probleme:

Viele Kratzer (Fehler): Viele Antworten im Test waren einfach falsch markiert.
Verzerrung (Bias): Der Spiegel war schief. Er zeigte viel zu oft Fragen über bestimmte Themen (wie Wissenschaft) und fast nie über andere.
Doppelgänger: Es gab viele Fragen, die fast identisch waren, wie z. B. „Wann wurde Stadt A gegründet?" und „Wann wurde Stadt B gegründet?". Das war wie 100 Mal denselben Spiegel zu polieren, anstatt 100 verschiedene zu testen.

Das Ergebnis? Die KI-Entwickler dachten, ihre Modelle würden immer besser, aber eigentlich hatten sie sich nur auf die „Fehler" und „Wiederholungen" im Test trainiert. Das nennt man „Overfitting" – wie ein Schüler, der nur die Lösungen für die alten Hausaufgaben auswendig gelernt hat, aber keine neuen Aufgaben lösen kann.

2. Die Lösung: SimpleQA Verified (Der polierte Spiegel)

Das Team von Google DeepMind hat sich hingesetzt und diesen Spiegel komplett neu geschliffen. Sie haben SimpleQA Verified geschaffen.

Stellen Sie sich diesen Prozess wie eine große Reinigungsaktion in einer Bibliothek vor:

Doppelte Bücher entfernen: Sie haben alle Fragen genommen, die sich zu ähnlich waren, und die Kopien weggeworfen.
Fehlerhafte Etiketten korrigieren: Sie haben nachgeschaut, ob die Antworten in den Büchern wirklich stimmen. Wenn ein Buch einen falschen Autor hatte, wurde es korrigiert oder entfernt.
Respekt vor den Autoren: Sie haben Fragen entfernt, bei denen die Webseiten, auf denen die Antworten stehen, eigentlich sagten: „Bitte nicht von KI-Modellen gelesen werden!" (Das ist wie Respekt vor dem „Bitte nicht stören"-Schild an einer Tür).
Ein ausgewogenes Menü: Sie haben dafür gesorgt, dass der Test nicht nur über Wissenschaft fragt, sondern auch über Kunst, Sport, Geografie und Musik. Es ist wie ein Buffet, bei dem es nicht nur Nudeln gibt, sondern auch Salat, Fleisch und Dessert.

Am Ende blieben 1.000 saubere, faire und schwierige Fragen übrig.

3. Der neue Richter: Ein smarter Schiedsrichter

Früher hat ein Computerprogramm (ein „Autorater") die Antworten der KI bewertet. Aber dieses Programm war manchmal verwirrt, wenn die KI eine richtige Antwort gab, aber noch ein paar nette Zusatzsätze hinzufügte.

Das Team hat den Schiedsrichter geschult:

Bei Zahlen: Wenn die KI sagt „Es waren 8.333 Freiwillige" und die richtige Antwort ist „8.282", ist das jetzt okay, solange es im Rahmen liegt (wie bei einer Waage, die ein paar Gramm Toleranz hat).
Bei Unsicherheit: Wenn die KI sagt „Ich weiß es nicht genau, aber vielleicht X oder vielleicht Y", wird das jetzt als „nicht versucht" gewertet. Die KI muss sich entscheiden, nicht herumraten.

4. Das Ergebnis: Wer ist der Schnellste?

Als sie diesen neuen, sauberen Test mit den neuesten KI-Modellen durchführten, passierte etwas Interessantes:

Gemini 2.5 Pro (das Modell von Google) war der Gewinner. Es erreichte den besten Score.
Andere große Modelle (wie GPT-5 von OpenAI oder Claude von Anthropic) lagen knapp dahinter.
Wichtig: Auf dem alten, schmutzigen Test waren die Ergebnisse oft anders. Auf dem neuen, sauberen Test sieht man, welche KI wirklich Fakten aus ihrem Gedächtnis abrufen kann und welche nur Tricks gelernt hat.

Warum ist das wichtig?

Stellen Sie sich vor, Sie kaufen ein Auto und wollen wissen, wie sicher es ist. Wenn Sie nur auf einer geraden, leeren Straße testen, sieht alles toll aus. Aber wenn Sie auf einer rutschigen, kurvigen Straße mit echten Hindernissen testen, sehen Sie, ob das Auto wirklich sicher ist.

SimpleQA Verified ist diese echte, rutschige Straße. Es hilft den Entwicklern, KI-Systeme zu bauen, die nicht nur gut aussehen, sondern auch wirklich zuverlässig sind und nicht halluzinieren (also Dinge erfinden, die nicht passiert sind).

Zusammengefasst: Google hat einen alten, fehlerhaften Test gereinigt, fairer gemacht und schwieriger gestaltet. Und auf diesem neuen Test hat ihre eigene KI (Gemini 2.5 Pro) gezeigt, dass sie aktuell die beste im Gedächtnistraining ist.

SimpleQA Verified: A Reliable Factuality Benchmark to Measure Parametric Knowledge

1. Das alte Problem: Ein Spiegel mit Kratzern

2. Die Lösung: SimpleQA Verified (Der polierte Spiegel)

3. Der neue Richter: Ein smarter Schiedsrichter

4. Das Ergebnis: Wer ist der Schnellste?

Warum ist das wichtig?

1. Problemstellung

2. Methodik: Erstellung von SimpleQA Verified

3. Wichtige Beiträge

4. Ergebnisse

5. Bedeutung und Fazit

SimpleQA Verified: A Reliable Factuality Benchmark to Measure Parametric Knowledge

1. Das alte Problem: Ein Spiegel mit Kratzern

2. Die Lösung: SimpleQA Verified (Der polierte Spiegel)

3. Der neue Richter: Ein smarter Schiedsrichter

4. Das Ergebnis: Wer ist der Schnellste?

Warum ist das wichtig?

1. Problemstellung

2. Methodik: Erstellung von SimpleQA Verified

3. Wichtige Beiträge

4. Ergebnisse

5. Bedeutung und Fazit

Mehr davon

One Language, Two Scripts: Probing Script-Invariance in LLM Concept Representations

MultiGraSCCo: A Multilingual Anonymization Benchmark with Annotations of Personal Identifiers

ConFu: Contemplate the Future for Better Speculative Sampling

SciTaRC: Benchmarking QA on Scientific Tabular Data that Requires Language Reasoning and Complex Computation

Automated Thematic Analysis for Clinical Qualitative Data: Iterative Codebook Refinement with Full Provenance