Each language version is independently generated for its own context, not a direct translation.
2025 年の AI 試験:「SimpleQA Verified」とは何か?
~「嘘をつかない AI」を作るための、より公平で厳しいテスト~
この論文は、Google DeepMind などが発表した、「AI がどれだけ事実を正確に覚えているか」を測るための新しいテストについての報告です。
まるで「AI の学歴」や「知識のテスト」のようなものですが、これまでのテストには大きな「穴」があったんです。そこで、彼らは**「より公平で、信頼できる新しいテスト」を作りました。その名も「SimpleQA Verified(シンプル QA 検証済み)」**です。
🏫 1. なぜ新しいテストが必要だったの?(前のテストの「穴」)
以前、OpenAI が作った「SimpleQA」というテストがありました。これは AI に「誰がいつ生まれた?」「この町の人口は?」といった短い質問をさせて、正解率を測るものでした。
しかし、このテストには3 つの大きな問題がありました。
- 問題が偏っていた(偏食なテスト)
- 例:あるテストでは「コロンビアの小さな町の設立日」ばかりが出題され、他の分野の質問が少なかったりしました。まるで「数学しか出ないテスト」で、国語の能力を測ろうとしているようなものです。
- 答えが間違っていたり、曖昧だったりした(採点ミス)
- 人間が作った問題なので、答え自体が間違っていたり、出典が矛盾していたりしました。「正解は A なのに、B と書いてある」といった状態です。
- 同じような問題が多すぎた(コピー&ペースト)
- 「A 町の設立日は?」と「B 町の設立日は?」という、ほとんど同じ形式の問題が大量にありました。AI は「あ、このパターンならこう答えるんだ」と**丸暗記(過学習)**してしまい、本当に知識があるのかどうかがわからなくなっていました。
これでは、AI の本当の力が測れません。そこで、Google のチームは**「このテストを大掃除して、より公平なものに作り直した」**のです。
🧹 2. 新テスト「SimpleQA Verified」の作り方(大掃除のプロセス)
彼らは、元のテストデータ(約 4,300 問)を、まるで**「高級レストランの食材を厳選する」**かのように、何段階ものフィルターを通して 1,000 問に絞り込みました。
- ステップ 1:同じ出典を排除
- 同じウェブサイトから出た質問は重複してはいけないので、一つにまとめました。
- ステップ 2:似ている問題を削除
- 「A 町の設立日」と「B 町の設立日」のように、意味が被っている問題を AI が自動で発見し、削除しました。
- ステップ 3:ウェブサイトのルールを尊重
- 「このサイトは AI の学習に使わないで」という設定(robots.txt)をしているサイトからの質問は、倫理的に削除しました。
- ステップ 4:バランスよく調整
- 「日付」や「名前」ばかり出ないように、地理、芸術、スポーツなど、あらゆる分野からバランスよく問題を選びました。
- ステップ 5:答えの矛盾を解決
- 「A さんは 1990 年生まれ」というサイトと「1991 年生まれ」というサイトが矛盾している場合、より信頼できる情報源で正解を確定させました。
- ステップ 6:難易度を調整
- 最新の AI ですぐに正解してしまうような「簡単すぎる問題」は除外し、**「本当に頭を使わないと解けない問題」**だけを残しました。
こうして完成したのが、1,000 問の「Verified(検証済み)」テストです。
📝 3. 採点方法の進化(AI 先生がより賢く)
テストの問題だけでなく、**「採点をする AI 先生(オートレーター)」**も進化させました。
- 数字の採点を柔軟に
- 以前は「8,282 人」という答えに対して、「8,283 人」と書くと「不正解」になっていました。でも、実際には「約 8,300 人」で十分正しい場合もあります。
- 新しいルールでは、「8,282 人(許容範囲:8,199〜8,365 人)」のように、**「この範囲なら正解」**と明確に定義しました。
- 曖昧な答えを厳しく
- 「多分 A さんか、B さんかもしれませんね…」と、AI が答えをぼかすような回答は、「挑戦しなかった(Attempted ではない)」として扱います。AI は「確信を持って答えること」を求められます。
🏆 4. 結果:誰が勝った?
この新しいテストで、世界中の最先端 AI を競わせました。
- 優勝:Gemini 2.5 Pro(Google)
- 正解率(F1 スコア)が**55.6%**でトップになりました。
- 2 位:GPT-5(OpenAI)
- 52.3% で続きました。
- その他
- Claude Opus 4 や DeepSeek R1 なども参加しましたが、Gemini 2.5 Pro がリードしました。
重要な発見:
以前のテスト(SimpleQA)では、GPT-4o や Claude などのモデルがそれなりに良い成績を出していましたが、新しいテスト(Verified)では成績が下がりました。
これは、以前のテストが「問題の癖」に慣れすぎていただけで、新しいテストは**「本当に知識があるか」**を厳しく問うている証拠です。逆に、Gemini 2.5 Pro はこの厳しいテストでもトップを維持し、その実力を示しました。
💡 まとめ:なぜこれが重要なのか?
この論文のメッセージはシンプルです。
「AI が嘘をつかない(ハルシネーションしない)ようにするには、まず『正しいテスト』を作らないといけない」
これまでのテストは、AI が「コツ」を覚えて点数を取るのに適していました。しかし、**「SimpleQA Verified」は、AI が本当に事実を記憶し、理解しているかを測る、「より信頼できる物差し」**です。
これによって、研究者や企業は「どの AI が本当に信頼できるか」を正しく判断できるようになり、最終的には**「私たちが安心して使える、嘘をつかない AI」**の開発が進むはずです。
まるで、「受験テクニックで合格する生徒」ではなく、「本当に勉強した生徒」を見分けるための、より公平な入試問題が完成したようなものです。