Each language version is independently generated for its own context, not a direct translation.

2025 年の AI 試験：「SimpleQA Verified」とは何か？

～「嘘をつかない AI」を作るための、より公平で厳しいテスト～

この論文は、Google DeepMind などが発表した、「AI がどれだけ事実を正確に覚えているか」を測るための新しいテストについての報告です。

まるで「AI の学歴」や「知識のテスト」のようなものですが、これまでのテストには大きな「穴」があったんです。そこで、彼らは**「より公平で、信頼できる新しいテスト」を作りました。その名も「SimpleQA Verified（シンプル QA 検証済み）」**です。

🏫 1. なぜ新しいテストが必要だったの？（前のテストの「穴」）

以前、OpenAI が作った「SimpleQA」というテストがありました。これは AI に「誰がいつ生まれた？」「この町の人口は？」といった短い質問をさせて、正解率を測るものでした。

しかし、このテストには3 つの大きな問題がありました。

問題が偏っていた（偏食なテスト）
- 例：あるテストでは「コロンビアの小さな町の設立日」ばかりが出題され、他の分野の質問が少なかったりしました。まるで「数学しか出ないテスト」で、国語の能力を測ろうとしているようなものです。
答えが間違っていたり、曖昧だったりした（採点ミス）
- 人間が作った問題なので、答え自体が間違っていたり、出典が矛盾していたりしました。「正解は A なのに、B と書いてある」といった状態です。
同じような問題が多すぎた（コピー＆ペースト）
- 「A 町の設立日は？」と「B 町の設立日は？」という、ほとんど同じ形式の問題が大量にありました。AI は「あ、このパターンならこう答えるんだ」と**丸暗記（過学習）**してしまい、本当に知識があるのかどうかがわからなくなっていました。

これでは、AI の本当の力が測れません。そこで、Google のチームは**「このテストを大掃除して、より公平なものに作り直した」**のです。

🧹 2. 新テスト「SimpleQA Verified」の作り方（大掃除のプロセス）

彼らは、元のテストデータ（約 4,300 問）を、まるで**「高級レストランの食材を厳選する」**かのように、何段階ものフィルターを通して 1,000 問に絞り込みました。

ステップ 1：同じ出典を排除
- 同じウェブサイトから出た質問は重複してはいけないので、一つにまとめました。
ステップ 2：似ている問題を削除
- 「A 町の設立日」と「B 町の設立日」のように、意味が被っている問題を AI が自動で発見し、削除しました。
ステップ 3：ウェブサイトのルールを尊重
- 「このサイトは AI の学習に使わないで」という設定（robots.txt）をしているサイトからの質問は、倫理的に削除しました。
ステップ 4：バランスよく調整
- 「日付」や「名前」ばかり出ないように、地理、芸術、スポーツなど、あらゆる分野からバランスよく問題を選びました。
ステップ 5：答えの矛盾を解決
- 「A さんは 1990 年生まれ」というサイトと「1991 年生まれ」というサイトが矛盾している場合、より信頼できる情報源で正解を確定させました。
ステップ 6：難易度を調整
- 最新の AI ですぐに正解してしまうような「簡単すぎる問題」は除外し、**「本当に頭を使わないと解けない問題」**だけを残しました。

こうして完成したのが、1,000 問の「Verified（検証済み）」テストです。

📝 3. 採点方法の進化（AI 先生がより賢く）

テストの問題だけでなく、**「採点をする AI 先生（オートレーター）」**も進化させました。

数字の採点を柔軟に
- 以前は「8,282 人」という答えに対して、「8,283 人」と書くと「不正解」になっていました。でも、実際には「約 8,300 人」で十分正しい場合もあります。
- 新しいルールでは、「8,282 人（許容範囲：8,199〜8,365 人）」のように、**「この範囲なら正解」**と明確に定義しました。
曖昧な答えを厳しく
- 「多分 A さんか、B さんかもしれませんね…」と、AI が答えをぼかすような回答は、「挑戦しなかった（Attempted ではない）」として扱います。AI は「確信を持って答えること」を求められます。

🏆 4. 結果：誰が勝った？

この新しいテストで、世界中の最先端 AI を競わせました。

優勝：Gemini 2.5 Pro（Google）
- 正解率（F1 スコア）が**55.6%**でトップになりました。
2 位：GPT-5（OpenAI）
- 52.3% で続きました。
その他
- Claude Opus 4 や DeepSeek R1 なども参加しましたが、Gemini 2.5 Pro がリードしました。

重要な発見：
以前のテスト（SimpleQA）では、GPT-4o や Claude などのモデルがそれなりに良い成績を出していましたが、新しいテスト（Verified）では成績が下がりました。
これは、以前のテストが「問題の癖」に慣れすぎていただけで、新しいテストは**「本当に知識があるか」**を厳しく問うている証拠です。逆に、Gemini 2.5 Pro はこの厳しいテストでもトップを維持し、その実力を示しました。

💡 まとめ：なぜこれが重要なのか？

この論文のメッセージはシンプルです。

「AI が嘘をつかない（ハルシネーションしない）ようにするには、まず『正しいテスト』を作らないといけない」

これまでのテストは、AI が「コツ」を覚えて点数を取るのに適していました。しかし、**「SimpleQA Verified」は、AI が本当に事実を記憶し、理解しているかを測る、「より信頼できる物差し」**です。

これによって、研究者や企業は「どの AI が本当に信頼できるか」を正しく判断できるようになり、最終的には**「私たちが安心して使える、嘘をつかない AI」**の開発が進むはずです。

まるで、「受験テクニックで合格する生徒」ではなく、「本当に勉強した生徒」を見分けるための、より公平な入試問題が完成したようなものです。

SimpleQA Verified: A Reliable Factuality Benchmark to Measure Parametric Knowledge

2025 年の AI 試験：「SimpleQA Verified」とは何か？

～「嘘をつかない AI」を作るための、より公平で厳しいテスト～

🏫 1. なぜ新しいテストが必要だったの？（前のテストの「穴」）

🧹 2. 新テスト「SimpleQA Verified」の作り方（大掃除のプロセス）

📝 3. 採点方法の進化（AI 先生がより賢く）

🏆 4. 結果：誰が勝った？

💡 まとめ：なぜこれが重要なのか？

論文要約：SimpleQA Verified - パラメトリック知識を測定するための信頼性の高い事実性ベンチマーク

1. 背景と問題定義 (Problem)

2. 手法 (Methodology)

2.1 データセットの構築プロセス

2.2 オートレーター（自動評価）の改善

3. 主要な貢献 (Key Contributions)

4. 結果 (Results)

5. 意義と結論 (Significance & Conclusion)

SimpleQA Verified: A Reliable Factuality Benchmark to Measure Parametric Knowledge

2025 年の AI 試験：「SimpleQA Verified」とは何か？

～「嘘をつかない AI」を作るための、より公平で厳しいテスト～

🏫 1. なぜ新しいテストが必要だったの？（前のテストの「穴」）

🧹 2. 新テスト「SimpleQA Verified」の作り方（大掃除のプロセス）

📝 3. 採点方法の進化（AI 先生がより賢く）

🏆 4. 結果：誰が勝った？

💡 まとめ：なぜこれが重要なのか？

論文要約：SimpleQA Verified - パラメトリック知識を測定するための信頼性の高い事実性ベンチマーク

1. 背景と問題定義 (Problem)

2. 手法 (Methodology)

2.1 データセットの構築プロセス

2.2 オートレーター（自動評価）の改善

3. 主要な貢献 (Key Contributions)

4. 結果 (Results)

5. 意義と結論 (Significance & Conclusion)

関連論文

One Language, Two Scripts: Probing Script-Invariance in LLM Concept Representations

MultiGraSCCo: A Multilingual Anonymization Benchmark with Annotations of Personal Identifiers

ConFu: Contemplate the Future for Better Speculative Sampling

SciTaRC: Benchmarking QA on Scientific Tabular Data that Requires Language Reasoning and Complex Computation

Automated Thematic Analysis for Clinical Qualitative Data: Iterative Codebook Refinement with Full Provenance