Automating Forecasting Question Generation and Resolution for AI Evaluation

Each language version is independently generated for its own context, not a direct translation.

この論文は、**「AI が未来を予測する能力を測るための、新しい『試験問題』を自動で作るシステム」**について書かれたものです。

想像してみてください。AI がどれだけ賢いのかを測りたいとします。しかし、未来の出来事（「来年のオリンピックで日本が金メダルを何個取るか」など）を正しく予測するのは、人間でも AI でも非常に難しいことです。しかも、この「正解」は、その出来事が実際に起こるまでわかりません。

これまでの研究では、この「試験問題」を作るのに、人間が何時間もかけて手作業で問題を作成していました。それはまるで、**「毎年、新しい入試問題を作るために、大学教授たちが何百人も集まって会議をしている」**ようなもので、とても時間と労力がかかります。

この論文のチームは、**「AI 自身に、新しい試験問題を作り、その答えも調べる（解決する）」**というシステムを開発しました。

以下に、この仕組みをわかりやすく説明します。

1. 仕組み：AI による「問題作成工場」

このシステムは、まるで**「賢い探偵チーム」**が働いている工場のようなものです。

種（シード）を拾う:
まず、AI はニュース記事や株価のデータなどから「ヒント（種）」を拾います。例えば、「ある国が新しい法律を作るかもしれない」というニュースが種になります。
下書きを作る（プロト質問）:
探偵（AI エージェント）がその種を見て、「では、この法律は 2025 年 12 月までに成立するだろうか？」という**「下書きの問題」**を作ります。
厳しくチェックする（検証）:
ここが重要です。作った問題は、**「答えがはっきりするかどうか」「難易度は適切か」「同じ問題が重複していないか」**を、別の AI たちが厳しくチェックします。
- もし「答えが曖昧すぎる」問題が出たら、それはゴミ箱行きです。
- もし「答えが 100% 確実すぎる」問題（例：「明日太陽は昇るか？」）も、試験問題としては面白くないので捨てられます。
完成品:
このフィルターをくぐり抜けた1,499 問の「高品質な未来予測問題」が完成しました。

2. 答え合わせも AI がやる

問題ができたら、その答えを AI が調べます。

AI はインターネットを飛び回り、最新のニュースや公式データを検索します。
複数の AI がそれぞれ調べた結果を比較し、**「YES（起こった）」か「NO（起こらなかった）」**かを判断します。
人間が答え合わせをするのと同じくらい正確に（約 95% の精度で）答えを出せることがわかりました。

3. なぜこれがすごいのか？（実験結果）

このシステムで作った問題を使って、最新の AI モデル（GPT-5 や Gemini 3 Pro など）に予測させました。

賢い AI ほど高得点:
当然ですが、より賢い AI モデルほど、これらの問題で良い成績を収めました。これは、このシステムが**「AI の知能の差を正しく測れる」**ことを証明しています。
人間より質が高いかも:
有名な予測サイト「Metaculus」で人間が作った問題と比較すると、AI が作った問題の方が**「答えが曖昧で無効になる（アンニュルされる）割合」が低く**、品質が非常に高いことがわかりました。
分解するとさらに賢くなる:
さらに面白い発見がありました。難しい問題を「小さな下位の問題」に分解して一つずつ予測させると、AI の予測精度がさらに上がりました。これは、**「大きな山を登る時、細かくステップを踏むと登りやすい」**というのと同じです。

4. まとめ：この研究の意義

この論文は、**「AI の未来予測能力を測るための、安価で大量の『試験問題』を自動で作れる」**ことを実証しました。

従来の方法: 人間が手作業で問題を作る（高コスト、量少）。
新しい方法: AI が自動で問題を作り、答えも調べる（低コスト、量多、高品質）。

これにより、AI が本当に「人工知能（AGI）」に近づいているかどうかを、より正確に、より頻繁にチェックできるようになります。まるで、**「AI の成長を測るための、自動で更新される『進級試験』」**が完成したようなものです。

今後は、このシステムを使って、より重要な分野（気候変動、国際情勢、医療など）の予測を AI にやらせ、私たちがより良い意思決定ができるように役立つことが期待されています。

Automating Forecasting Question Generation and Resolution for AI Evaluation

1. 仕組み：AI による「問題作成工場」

2. 答え合わせも AI がやる

3. なぜこれがすごいのか？（実験結果）

4. まとめ：この研究の意義

論文「AUTOMATING FORECASTING QUESTION GENERATION AND RESOLUTION FOR AI EVALUATION」の技術的サマリー

1. 問題定義 (Problem)

2. 手法 (Methodology)

2.1 質問生成パイプライン

2.2 質問解決（Resolution）

2.3 評価データセット

3. 主要な貢献 (Key Contributions)

4. 結果 (Results)

4.1 質問の品質と多様性

4.2 解決の精度

4.3 予測性能の評価

5. 意義と結論 (Significance)

Automating Forecasting Question Generation and Resolution for AI Evaluation

1. 仕組み：AI による「問題作成工場」

2. 答え合わせも AI がやる

3. なぜこれがすごいのか？（実験結果）

4. まとめ：この研究の意義

論文「AUTOMATING FORECASTING QUESTION GENERATION AND RESOLUTION FOR AI EVALUATION」の技術的サマリー

1. 問題定義 (Problem)

2. 手法 (Methodology)

2.1 質問生成パイプライン

2.2 質問解決（Resolution）

2.3 評価データセット

3. 主要な貢献 (Key Contributions)

4. 結果 (Results)

4.1 質問の品質と多様性

4.2 解決の精度

4.3 予測性能の評価

5. 意義と結論 (Significance)

関連論文

MASEval: Extending Multi-Agent Evaluation from Models to Systems

LDP: An Identity-Aware Protocol for Multi-Agent LLM Systems

Quantifying the Accuracy and Cost Impact of Design Decisions in Budget-Constrained Agentic LLM Search

Interpretable Markov-Based Spatiotemporal Risk Surfaces for Missing-Child Search Planning with Reinforcement Learning and LLM-Based Quality Assurance

AgentOS: From Application Silos to a Natural Language-Driven Data Ecosystem