Each language version is independently generated for its own context, not a direct translation.
この論文は、**「AI が未来を予測する能力を測るための、新しい『試験問題』を自動で作るシステム」**について書かれたものです。
想像してみてください。AI がどれだけ賢いのかを測りたいとします。しかし、未来の出来事(「来年のオリンピックで日本が金メダルを何個取るか」など)を正しく予測するのは、人間でも AI でも非常に難しいことです。しかも、この「正解」は、その出来事が実際に起こるまでわかりません。
これまでの研究では、この「試験問題」を作るのに、人間が何時間もかけて手作業で問題を作成していました。それはまるで、**「毎年、新しい入試問題を作るために、大学教授たちが何百人も集まって会議をしている」**ようなもので、とても時間と労力がかかります。
この論文のチームは、**「AI 自身に、新しい試験問題を作り、その答えも調べる(解決する)」**というシステムを開発しました。
以下に、この仕組みをわかりやすく説明します。
1. 仕組み:AI による「問題作成工場」
このシステムは、まるで**「賢い探偵チーム」**が働いている工場のようなものです。
- 種(シード)を拾う:
まず、AI はニュース記事や株価のデータなどから「ヒント(種)」を拾います。例えば、「ある国が新しい法律を作るかもしれない」というニュースが種になります。
- 下書きを作る(プロト質問):
探偵(AI エージェント)がその種を見て、「では、この法律は 2025 年 12 月までに成立するだろうか?」という**「下書きの問題」**を作ります。
- 厳しくチェックする(検証):
ここが重要です。作った問題は、**「答えがはっきりするかどうか」「難易度は適切か」「同じ問題が重複していないか」**を、別の AI たちが厳しくチェックします。
- もし「答えが曖昧すぎる」問題が出たら、それはゴミ箱行きです。
- もし「答えが 100% 確実すぎる」問題(例:「明日太陽は昇るか?」)も、試験問題としては面白くないので捨てられます。
- 完成品:
このフィルターをくぐり抜けた1,499 問の「高品質な未来予測問題」が完成しました。
2. 答え合わせも AI がやる
問題ができたら、その答えを AI が調べます。
- AI はインターネットを飛び回り、最新のニュースや公式データを検索します。
- 複数の AI がそれぞれ調べた結果を比較し、**「YES(起こった)」か「NO(起こらなかった)」**かを判断します。
- 人間が答え合わせをするのと同じくらい正確に(約 95% の精度で)答えを出せることがわかりました。
3. なぜこれがすごいのか?(実験結果)
このシステムで作った問題を使って、最新の AI モデル(GPT-5 や Gemini 3 Pro など)に予測させました。
- 賢い AI ほど高得点:
当然ですが、より賢い AI モデルほど、これらの問題で良い成績を収めました。これは、このシステムが**「AI の知能の差を正しく測れる」**ことを証明しています。
- 人間より質が高いかも:
有名な予測サイト「Metaculus」で人間が作った問題と比較すると、AI が作った問題の方が**「答えが曖昧で無効になる(アンニュルされる)割合」が低く**、品質が非常に高いことがわかりました。
- 分解するとさらに賢くなる:
さらに面白い発見がありました。難しい問題を「小さな下位の問題」に分解して一つずつ予測させると、AI の予測精度がさらに上がりました。これは、**「大きな山を登る時、細かくステップを踏むと登りやすい」**というのと同じです。
4. まとめ:この研究の意義
この論文は、**「AI の未来予測能力を測るための、安価で大量の『試験問題』を自動で作れる」**ことを実証しました。
- 従来の方法: 人間が手作業で問題を作る(高コスト、量少)。
- 新しい方法: AI が自動で問題を作り、答えも調べる(低コスト、量多、高品質)。
これにより、AI が本当に「人工知能(AGI)」に近づいているかどうかを、より正確に、より頻繁にチェックできるようになります。まるで、**「AI の成長を測るための、自動で更新される『進級試験』」**が完成したようなものです。
今後は、このシステムを使って、より重要な分野(気候変動、国際情勢、医療など)の予測を AI にやらせ、私たちがより良い意思決定ができるように役立つことが期待されています。
Each language version is independently generated for its own context, not a direct translation.
論文「AUTOMATING FORECASTING QUESTION GENERATION AND RESOLUTION FOR AI EVALUATION」の技術的サマリー
この論文は、FutureSearch によって ICLR 2026 ワークショップで発表されたもので、AI 予測システムの評価を目的とした高品質な予測質問の自動生成と解決を行う新しいシステムを提案しています。従来の人間による手作業や、限定的なデータソース(天気、株価など)に依存した自動生成の課題を克服し、大規模で多様かつ実用的な予測ベンチマークを構築する手法を示しています。
以下に、問題定義、手法、主要な貢献、結果、そして意義について詳細にまとめます。
1. 問題定義 (Problem)
AI の予測能力を評価し、一般知能(AGI)への進展を測定するためには、大量の多様で困難な予測質問と、それらの客観的な解決(Resolution)データが必要です。しかし、現状には以下の重大な課題が存在します。
- サンプルの複雑性とコスト: 予測タスクは、正解が確率分布であるため、単一の事象の発生/非発生しか観測できません。統計的な有意性を得るには膨大な数の質問が必要ですが、高品質な質問の設計(解決基準の明確化、曖昧さの排除)には多大な人的コストがかかります。
- 既存ベンチマークの限界:
- 人間がキュレーションしたプラットフォーム(Metaculus など)は高品質ですが、スケーラビリティに欠けます。
- 既存の自動生成手法は、天気やスポーツ結果など「反復的なデータソース」に依存しており、質問の多様性が低く、実世界での意思決定に関連する重要なトピック(地政学、政策、経済など)を網羅できていません。
- 評価の難しさ: 生成された質問が「曖昧さなく解決可能か」「難易度が適切か」「実用的か」を自動的に検証する仕組みが不足していました。
2. 手法 (Methodology)
著者らは、LLM を活用したエージェントワークフローを用いた、質問生成から解決までの完全自動化パイプラインを開発しました(図 1 参照)。
2.1 質問生成パイプライン
- シード(Seed)の生成:
- 新聞記事(GDELT, Media Cloud)、企業収益予測の根拠(Stockfisher)などから、具体的な出来事やトピックを「シード」として抽出します。これにより、LLM が現実離れした話題を生成するのを防ぎます。
- プロト質問(Proto-questions)の生成:
- ReAct アージェント(Web 検索機能付き)が、シードに基づき 1 つのシードあたり 1〜7 件の「プロト質問」を生成します。この段階では解決基準は未確定ですが、将来の事象に関する仮説が提示されます。
- Web 検索を必須とすることで、事実誤認(ハルシネーション)や存在しない出来事に基づく質問を防ぎます。
- 質問の洗練(Refinement):
- 別の ReAct アージェントが、プロト質問を「明確に定義された解決基準(Resolution Criteria)」を持つ完全な予測質問に変換します。解決日、データソース、曖昧さの排除が厳格に行われます。
- 検証(Verification):
- 複数の検証エージェントが、以下の基準で質問をフィルタリングします。
- 品質: 非自明な予測タスクか?
- 曖昧さ: 解決基準が明確か?
- 解決可能性: AI エージェントが自動的に解決できるか?
- 予測: 確率が極端(0% または 100% に近い)でないか?
- 重複除去(Deduplication):
- 質問の埋め込み(Embedding)と DBSCAN クラスタリング、および LLM による最終確認を行い、類似した質問を排除して一意性を確保します。
2.2 質問解決(Resolution)
- 生成された質問は、インターネットアクセス可能な LLM エージェントのアンサンブル(3 つの Gemini 3 Pro エージェント + 必要に応じて Opus 4.5)によって解決されます。
- 複数のエージェント間で合意が得られない場合、別のモデルを「タイブレーカー」として使用し、解決の信頼性を高めています。
2.3 評価データセット
- 2025 年 9 月〜10 月に 2,500 個のシードから生成され、フィルタリングと重複除去を経て、1,499 個の高品質な質問が最終データセットとして残りました。
- 解決日は 2025 年 10 月 15 日〜12 月 31 日の範囲に設定されました。
3. 主要な貢献 (Key Contributions)
- 大規模な自動化生成システム: 実世界のニュースに基づき、曖昧さなく解決可能な 1,499 個の多様な予測質問を自動生成・解決する初のシステムを提示しました。
- 高品質な検証基準: 生成された質問が「曖昧さなく解決可能(96% の精度)」「解決精度が高い(95% の精度)」ことを実証しました。これは、人間がキュレーションする主要プラットフォーム(Metaculus)の品質を凌駕、あるいは同等であるという結果です。
- モデル能力との相関の検証: 生成された質問セットにおいて、より高度な LLM(Gemini 3 Pro, GPT-5 など)ほど優れた予測性能(Brier スコアの低下)を示すことを確認しました。これにより、このベンチマークが AI の知能向上を正しく測定できることを示しました。
- 分解戦略の有効性: 質問を「サブ質問」に分解して調査・予測を行う戦略(Subquestion decomposition)を適用することで、予測精度がさらに向上(Brier スコア 0.141 → 0.132)することを示し、ベンチマークが「努力と知性」に対して報酬を与えることを実証しました。
4. 結果 (Results)
4.1 質問の品質と多様性
- トピック分布: 規制・政策、米国政府、マクロ経済、国際安全保障、法廷事件、ガザ戦争外交など、12 の主要分野にまたがる多様な質問が生成されました。
- 多様性評価: クラスタ内の質問の類似性を評価したところ、平均類似度は 1.32(1=全く異なる、4=重複)であり、質問が単なる変種ではなく、真に異なる事象を扱っていることが確認されました。
- 専門家評価: 外部の予測専門家による評価では、75.2% の質問が「採用(Accept)」とされ、8.1% が「ハードリジェクト(曖昧・欠陥)」となりました。
4.2 解決の精度
- 無効化率(Annulment Rate): 自動解決システムによる無効化率は約 3.9%(95% 信頼区間 [1.1%, 8.4%])でした。これは、Metaculus の歴史的な無効化率(約 8%)よりも低く、自動生成システムが人間によるキュレーションと同等以上の品質を維持していることを示しています。
- 解決精度: 人間の専門家による検証サンプル(100 問)と比較したところ、自動解決の誤り率は約 4.9% でした。
4.3 予測性能の評価
- モデル間比較: 異なるモデル(Gemini 3 Pro, GPT-5, GPT-5 Mini, Gemini 2.5 Pro/Flash)を用いた予測実験を行いました。
- Brier スコア: Gemini 3 Pro が 0.134(最良)、GPT-5 が 0.149、Gemini 2.5 Flash が 0.179 でした。
- 知能との相関: より高性能なモデルほど良いスコアを達成し、モデルファミリー内でも上位モデルが下位モデルを上回りました。
- サブ質問分解の効果: 質問を分解して調査を行うことで、Brier スコアが 0.141 から 0.132 に改善し、追加の調査努力が予測精度向上に寄与することが実証されました。
5. 意義と結論 (Significance)
この研究は、AI 予測システムの評価におけるボトルネックであった「高品質なデータセットの不足」を解決する重要なステップです。
- AGI 評価への寄与: 予測タスクは「ゲーム化されにくい(ungameable)」一般知能の指標として注目されています。本システムにより、大規模で多様な実世界の問題に対して AI の進捗を追跡できるようになり、AGI の到達時期を推定する上での重要なインプットとなります。
- 意思決定への応用: 生成された質問は地政学、経済、気候変動など、実社会の意思決定に直結する重要なトピックを網羅しており、AI が現実世界の不確実性をどのように扱っているかを理解する手助けとなります。
- 将来の展望: 将来的には、より高インパクトな分野(バイオセキュリティ、AI 開発など)への焦点化や、条件付き質問(「もし政策 X が施行されれば、結果 Y は起こるか?」)への拡張が期待されます。
結論として、著者らは LLM を活用したエージェントワークフローによって、人間の手作業に匹敵、あるいは凌駕する品質で、大規模かつ多様な予測ベンチマークを自動化可能であることを実証しました。これは、AI 評価の未来において、スケーラブルで信頼性の高いデータインフラを提供する画期的な成果です。