Automating Forecasting Question Generation and Resolution for AI Evaluation

Each language version is independently generated for its own context, not a direct translation.

这篇论文讲述了一个非常有趣的故事：一群 AI 科学家试图教会 AI 如何像人类专家一样“出题”和“解题”，以此来测试 AI 的预测未来能力。

想象一下，如果你想测试一个学生的数学水平，你不能只给他做简单的"1+1"，你需要给他出各种各样、有难度的应用题。同样，要测试 AI 的“预知未来”能力，也需要给它出很多关于未来的问题。

但这里有个大麻烦：出好题太难了！

1. 为什么要搞这个系统？（痛点）

以前，人们靠人工出题（比如问“下个月苹果股价会涨吗？”），或者只问那些重复出现的老问题（比如“明天会下雨吗？”）。

人工出题太慢：就像让老师每天手写出几千份试卷，累死人，而且容易出错（题目模棱两可，最后没法打分）。
老题目太无聊：只问天气或股票，就像只考学生加减法，测不出他们真正的聪明程度。

这篇论文的作者（来自 FutureSearch 团队）想：既然 AI 这么聪明，能不能让它自己出题，自己批改，然后看看不同级别的 AI 谁能答得更好？

2. 他们是怎么做的？（流水线工厂）

作者设计了一个全自动的"AI 出题工厂”，就像一条精密的流水线：

第一步：找灵感（种子）
他们从新闻网站、股市报告里抓取了 2500 条最新的“新闻种子”。这就像给厨师提供新鲜的食材。
第二步：草拟题目（原型）
一个 AI 助手（ReAct Agent）看到新闻后，开始 brainstorming，提出一些模糊的问题。比如看到新闻说“某国要建大桥”，它可能会问“大桥会建好吗？”。但这还不够，因为“建好”定义太模糊。
第三步：精修题目（打磨）
另一个 AI 助手登场，它像个严谨的编辑。它会把模糊的问题改得滴水不漏。
- 修改前：“大桥会建好吗？”
- 修改后："2025 年 12 月 31 日之前，该大桥是否会在官方新闻稿中宣布‘主体完工’？”
  它必须确保问题有明确的答案来源（比如必须能在某个官网查到），不能模棱两可。
第四步：质检员（审核）
这里有一群“质检 AI"，它们负责挑刺：
- 这个问题太简单了吗？（如果是，扔掉）
- 这个问题太难解吗？（如果到时候找不到答案，扔掉）
- 这个问题有歧义吗？（如果有，扔掉）
- 这个问题和刚才那个重复了吗？（如果有，去重）
第五步：最终成品
经过这一轮轮筛选，2500 个种子最终变成了1499 个高质量、独一无二、能自动打分的预测题目。

3. 结果怎么样？（大考成绩）

他们让这套系统生成的题目，去考不同的 AI 模型（就像让不同年级的学生做同一套卷子）：

题目质量极高：系统生成的题目，有**96%**是清晰可解的。这比人类专家（Metaculus 平台）出题的通过率还要高！而且，只有约 4% 的题目最后因为找不到答案而作废，这个比例甚至优于人类出题。
AI 越聪明，分数越高：
- 用最强的 AI（Gemini 3 Pro）做题，得分最高（Brier 分数 0.134，越低越好）。
- 用稍弱的 AI（GPT-5）做题，得分稍低。
- 用更弱的 AI（Gemini 2.5 Flash）做题，得分更低。
- 这说明这套题目真的能区分出谁更聪明！
努力就有回报：
他们还做了一个实验：让 AI 把一个大问题拆成几个小问题（子问题）去研究，然后再汇总答案。结果发现，这种“深度思考”让 AI 的预测更准了。这就像学生如果肯多查资料、多分析，成绩就会提高。

4. 这个系统有什么局限？（小缺点）

虽然很厉害，但 AI 也不是万能的：

有些“隐形”信息找不到：如果某个政府内部开了个会没发新闻，AI 就不知道。
有些网站很难进：如果答案藏在需要填表、点很多按钮的复杂网页里，AI 可能会迷路。
有些问题太“反直觉”：比如问“某机构宣布要做 X，X 真的会在 3 个月内发生吗？”，AI 容易想当然觉得“既然宣布了就会做”，但现实中大机构经常拖延，导致 AI 预测错误。

5. 总结：这意味着什么？

这篇论文就像是在说：

“以前我们想测试 AI 的预知能力，就像在黑暗中摸索。现在我们造出了一台**‘自动出题机’**，它能源源不断地生产出高质量的‘未来考题’。

测试结果显示，这套系统非常有效。它不仅证明了AI 确实能像人类一样出题，还证明了随着 AI 模型变得更聪明，它们在预测未来这件事上确实表现得更好。

这就像给人类文明装了一个‘智能仪表盘’，让我们能更清楚地看到：我们的 AI 距离‘全知全能’（通用人工智能，AGI）还有多远。”

一句话总结：
作者造了一个AI 出题工厂，生产了 1500 道关于未来的难题，结果发现：题目出得比人还好，而且越聪明的 AI 在这些题目上考得越好。 这为未来评估 AI 的“智商”提供了一个完美的新工具。

Automating Forecasting Question Generation and Resolution for AI Evaluation

1. 为什么要搞这个系统？（痛点）

2. 他们是怎么做的？（流水线工厂）

3. 结果怎么样？（大考成绩）

4. 这个系统有什么局限？（小缺点）

5. 总结：这意味着什么？

1. 研究背景与问题 (Problem)

2. 方法论 (Methodology)

A. 问题生成管道 (Question Generation Pipeline)

B. 问题解决器 (Question Resolver)

C. 评估实验设计

3. 关键贡献 (Key Contributions)

4. 实验结果 (Results)

5. 意义与影响 (Significance)

Automating Forecasting Question Generation and Resolution for AI Evaluation

1. 为什么要搞这个系统？（痛点）

2. 他们是怎么做的？（流水线工厂）

3. 结果怎么样？（大考成绩）

4. 这个系统有什么局限？（小缺点）

5. 总结：这意味着什么？

1. 研究背景与问题 (Problem)

2. 方法论 (Methodology)

A. 问题生成管道 (Question Generation Pipeline)

B. 问题解决器 (Question Resolver)

C. 评估实验设计

3. 关键贡献 (Key Contributions)

4. 实验结果 (Results)

5. 意义与影响 (Significance)

类似论文

MASEval: Extending Multi-Agent Evaluation from Models to Systems

LDP: An Identity-Aware Protocol for Multi-Agent LLM Systems

Quantifying the Accuracy and Cost Impact of Design Decisions in Budget-Constrained Agentic LLM Search

Interpretable Markov-Based Spatiotemporal Risk Surfaces for Missing-Child Search Planning with Reinforcement Learning and LLM-Based Quality Assurance

AgentOS: From Application Silos to a Natural Language-Driven Data Ecosystem