SimpleQA Verified: A Reliable Factuality Benchmark to Measure Parametric Knowledge

OpenAI の SimpleQA の欠点を克服し、より信頼性の高いファクトチェック用ベンチマーク「SimpleQA Verified」を提案し、それを用いた評価で Gemini 2.5 Pro が GPT-5 を上回る最高性能を達成したことを報告する論文です。

Lukas Haas, Gal Yona, Giovanni D'Antonio, Sasha Goldshtein, Dipanjan Das

公開日 Wed, 11 Ma
📖 1 分で読めます☕ さくっと読める

Each language version is independently generated for its own context, not a direct translation.

2025 年の AI 試験:「SimpleQA Verified」とは何か?

~「嘘をつかない AI」を作るための、より公平で厳しいテスト~

この論文は、Google DeepMind などが発表した、「AI がどれだけ事実を正確に覚えているか」を測るための新しいテストについての報告です。

まるで「AI の学歴」や「知識のテスト」のようなものですが、これまでのテストには大きな「穴」があったんです。そこで、彼らは**「より公平で、信頼できる新しいテスト」を作りました。その名も「SimpleQA Verified(シンプル QA 検証済み)」**です。


🏫 1. なぜ新しいテストが必要だったの?(前のテストの「穴」)

以前、OpenAI が作った「SimpleQA」というテストがありました。これは AI に「誰がいつ生まれた?」「この町の人口は?」といった短い質問をさせて、正解率を測るものでした。

しかし、このテストには3 つの大きな問題がありました。

  1. 問題が偏っていた(偏食なテスト)
    • 例:あるテストでは「コロンビアの小さな町の設立日」ばかりが出題され、他の分野の質問が少なかったりしました。まるで「数学しか出ないテスト」で、国語の能力を測ろうとしているようなものです。
  2. 答えが間違っていたり、曖昧だったりした(採点ミス)
    • 人間が作った問題なので、答え自体が間違っていたり、出典が矛盾していたりしました。「正解は A なのに、B と書いてある」といった状態です。
  3. 同じような問題が多すぎた(コピー&ペースト)
    • 「A 町の設立日は?」と「B 町の設立日は?」という、ほとんど同じ形式の問題が大量にありました。AI は「あ、このパターンならこう答えるんだ」と**丸暗記(過学習)**してしまい、本当に知識があるのかどうかがわからなくなっていました。

これでは、AI の本当の力が測れません。そこで、Google のチームは**「このテストを大掃除して、より公平なものに作り直した」**のです。


🧹 2. 新テスト「SimpleQA Verified」の作り方(大掃除のプロセス)

彼らは、元のテストデータ(約 4,300 問)を、まるで**「高級レストランの食材を厳選する」**かのように、何段階ものフィルターを通して 1,000 問に絞り込みました。

  • ステップ 1:同じ出典を排除
    • 同じウェブサイトから出た質問は重複してはいけないので、一つにまとめました。
  • ステップ 2:似ている問題を削除
    • 「A 町の設立日」と「B 町の設立日」のように、意味が被っている問題を AI が自動で発見し、削除しました。
  • ステップ 3:ウェブサイトのルールを尊重
    • 「このサイトは AI の学習に使わないで」という設定(robots.txt)をしているサイトからの質問は、倫理的に削除しました。
  • ステップ 4:バランスよく調整
    • 「日付」や「名前」ばかり出ないように、地理、芸術、スポーツなど、あらゆる分野からバランスよく問題を選びました。
  • ステップ 5:答えの矛盾を解決
    • 「A さんは 1990 年生まれ」というサイトと「1991 年生まれ」というサイトが矛盾している場合、より信頼できる情報源で正解を確定させました。
  • ステップ 6:難易度を調整
    • 最新の AI ですぐに正解してしまうような「簡単すぎる問題」は除外し、**「本当に頭を使わないと解けない問題」**だけを残しました。

こうして完成したのが、1,000 問の「Verified(検証済み)」テストです。


📝 3. 採点方法の進化(AI 先生がより賢く)

テストの問題だけでなく、**「採点をする AI 先生(オートレーター)」**も進化させました。

  • 数字の採点を柔軟に
    • 以前は「8,282 人」という答えに対して、「8,283 人」と書くと「不正解」になっていました。でも、実際には「約 8,300 人」で十分正しい場合もあります。
    • 新しいルールでは、「8,282 人(許容範囲:8,199〜8,365 人)」のように、**「この範囲なら正解」**と明確に定義しました。
  • 曖昧な答えを厳しく
    • 「多分 A さんか、B さんかもしれませんね…」と、AI が答えをぼかすような回答は、「挑戦しなかった(Attempted ではない)」として扱います。AI は「確信を持って答えること」を求められます。

🏆 4. 結果:誰が勝った?

この新しいテストで、世界中の最先端 AI を競わせました。

  • 優勝:Gemini 2.5 Pro(Google)
    • 正解率(F1 スコア)が**55.6%**でトップになりました。
  • 2 位:GPT-5(OpenAI)
    • 52.3% で続きました。
  • その他
    • Claude Opus 4 や DeepSeek R1 なども参加しましたが、Gemini 2.5 Pro がリードしました。

重要な発見:
以前のテスト(SimpleQA)では、GPT-4o や Claude などのモデルがそれなりに良い成績を出していましたが、新しいテスト(Verified)では成績が下がりました。
これは、以前のテストが「問題の癖」に慣れすぎていただけで、新しいテストは**「本当に知識があるか」**を厳しく問うている証拠です。逆に、Gemini 2.5 Pro はこの厳しいテストでもトップを維持し、その実力を示しました。


💡 まとめ:なぜこれが重要なのか?

この論文のメッセージはシンプルです。

「AI が嘘をつかない(ハルシネーションしない)ようにするには、まず『正しいテスト』を作らないといけない」

これまでのテストは、AI が「コツ」を覚えて点数を取るのに適していました。しかし、**「SimpleQA Verified」は、AI が本当に事実を記憶し、理解しているかを測る、「より信頼できる物差し」**です。

これによって、研究者や企業は「どの AI が本当に信頼できるか」を正しく判断できるようになり、最終的には**「私たちが安心して使える、嘘をつかない AI」**の開発が進むはずです。

まるで、「受験テクニックで合格する生徒」ではなく、「本当に勉強した生徒」を見分けるための、より公平な入試問題が完成したようなものです。