Each language version is independently generated for its own context, not a direct translation.
这篇论文讲述了一个非常有趣的故事:一群 AI 科学家试图教会 AI 如何像人类专家一样“出题”和“解题”,以此来测试 AI 的预测未来能力。
想象一下,如果你想测试一个学生的数学水平,你不能只给他做简单的"1+1",你需要给他出各种各样、有难度的应用题。同样,要测试 AI 的“预知未来”能力,也需要给它出很多关于未来的问题。
但这里有个大麻烦:出好题太难了!
1. 为什么要搞这个系统?(痛点)
以前,人们靠人工出题(比如问“下个月苹果股价会涨吗?”),或者只问那些重复出现的老问题(比如“明天会下雨吗?”)。
- 人工出题太慢:就像让老师每天手写出几千份试卷,累死人,而且容易出错(题目模棱两可,最后没法打分)。
- 老题目太无聊:只问天气或股票,就像只考学生加减法,测不出他们真正的聪明程度。
这篇论文的作者(来自 FutureSearch 团队)想:既然 AI 这么聪明,能不能让它自己出题,自己批改,然后看看不同级别的 AI 谁能答得更好?
2. 他们是怎么做的?(流水线工厂)
作者设计了一个全自动的"AI 出题工厂”,就像一条精密的流水线:
- 第一步:找灵感(种子)
他们从新闻网站、股市报告里抓取了 2500 条最新的“新闻种子”。这就像给厨师提供新鲜的食材。
- 第二步:草拟题目(原型)
一个 AI 助手(ReAct Agent)看到新闻后,开始 brainstorming,提出一些模糊的问题。比如看到新闻说“某国要建大桥”,它可能会问“大桥会建好吗?”。但这还不够,因为“建好”定义太模糊。
- 第三步:精修题目(打磨)
另一个 AI 助手登场,它像个严谨的编辑。它会把模糊的问题改得滴水不漏。
- 修改前:“大桥会建好吗?”
- 修改后:"2025 年 12 月 31 日之前,该大桥是否会在官方新闻稿中宣布‘主体完工’?”
它必须确保问题有明确的答案来源(比如必须能在某个官网查到),不能模棱两可。
- 第四步:质检员(审核)
这里有一群“质检 AI",它们负责挑刺:
- 这个问题太简单了吗?(如果是,扔掉)
- 这个问题太难解吗?(如果到时候找不到答案,扔掉)
- 这个问题有歧义吗?(如果有,扔掉)
- 这个问题和刚才那个重复了吗?(如果有,去重)
- 第五步:最终成品
经过这一轮轮筛选,2500 个种子最终变成了1499 个高质量、独一无二、能自动打分的预测题目。
3. 结果怎么样?(大考成绩)
他们让这套系统生成的题目,去考不同的 AI 模型(就像让不同年级的学生做同一套卷子):
- 题目质量极高:系统生成的题目,有**96%**是清晰可解的。这比人类专家(Metaculus 平台)出题的通过率还要高!而且,只有约 4% 的题目最后因为找不到答案而作废,这个比例甚至优于人类出题。
- AI 越聪明,分数越高:
- 用最强的 AI(Gemini 3 Pro)做题,得分最高(Brier 分数 0.134,越低越好)。
- 用稍弱的 AI(GPT-5)做题,得分稍低。
- 用更弱的 AI(Gemini 2.5 Flash)做题,得分更低。
- 这说明这套题目真的能区分出谁更聪明!
- 努力就有回报:
他们还做了一个实验:让 AI 把一个大问题拆成几个小问题(子问题)去研究,然后再汇总答案。结果发现,这种“深度思考”让 AI 的预测更准了。这就像学生如果肯多查资料、多分析,成绩就会提高。
4. 这个系统有什么局限?(小缺点)
虽然很厉害,但 AI 也不是万能的:
- 有些“隐形”信息找不到:如果某个政府内部开了个会没发新闻,AI 就不知道。
- 有些网站很难进:如果答案藏在需要填表、点很多按钮的复杂网页里,AI 可能会迷路。
- 有些问题太“反直觉”:比如问“某机构宣布要做 X,X 真的会在 3 个月内发生吗?”,AI 容易想当然觉得“既然宣布了就会做”,但现实中大机构经常拖延,导致 AI 预测错误。
5. 总结:这意味着什么?
这篇论文就像是在说:
“以前我们想测试 AI 的预知能力,就像在黑暗中摸索。现在我们造出了一台**‘自动出题机’**,它能源源不断地生产出高质量的‘未来考题’。
测试结果显示,这套系统非常有效。它不仅证明了AI 确实能像人类一样出题,还证明了随着 AI 模型变得更聪明,它们在预测未来这件事上确实表现得更好。
这就像给人类文明装了一个‘智能仪表盘’,让我们能更清楚地看到:我们的 AI 距离‘全知全能’(通用人工智能,AGI)还有多远。”
一句话总结:
作者造了一个AI 出题工厂,生产了 1500 道关于未来的难题,结果发现:题目出得比人还好,而且越聪明的 AI 在这些题目上考得越好。 这为未来评估 AI 的“智商”提供了一个完美的新工具。
Each language version is independently generated for its own context, not a direct translation.
这是一篇发表于 ICLR 2026 研讨会(AI for Mechanism Design and Strategic Decision Making) 的论文,题为 《自动化预测问题生成与解决以评估 AI》(Automating Forecasting Question Generation and Resolution for AI Evaluation)。
该论文由 FutureSearch 团队(Nikos I. Bosse 等人)撰写,提出了一套基于大语言模型(LLM)智能体(Agents)的自动化系统,用于大规模生成、验证和解决高质量的预测问题,旨在解决当前 AI 预测能力评估中数据稀缺、多样性不足和人工成本高昂的痛点。
以下是该论文的详细技术总结:
1. 研究背景与问题 (Problem)
- 预测作为智能评估指标: 预测未来事件是衡量通用人工智能(AGI)进展的稳健指标,因为它具有概率性、难以操纵且能反映决策能力。
- 数据瓶颈: 评估 AI 预测系统需要大量多样化、高难度的问题。然而,构建此类数据集极其困难:
- 样本复杂性高: 预测的“金标准”是概率分布,但实际观测到的只是单一结果(发生或未发生),区分校准良好的预测需要大量样本。
- 人工成本高昂: 设计无歧义、可客观解决(Resolvable)的问题需要大量人力,且现有平台(如 Metaculus)的问题仍常面临争议或取消。
- 现有自动化局限: 之前的自动化尝试多依赖重复性数据源(如天气、股票),导致问题多样性差、相关性高或过于简单,无法有效评估前沿模型。
2. 方法论 (Methodology)
作者开发了一个多阶段的 LLM 驱动的智能体工作流(Agentic Workflow),利用实时网络搜索能力来生成和解决预测问题。
A. 问题生成管道 (Question Generation Pipeline)
系统流程如图 1 所示,包含以下关键步骤:
- 种子生成 (Seeding): 从新闻文章、公司财报(Stockfisher)、GDELT 和 Media Cloud 等来源提取 2500 个“种子”文本,作为问题生成的灵感来源,确保问题基于真实世界事件。
- 原型问题生成 (Proto-questions): 使用 ReAct 智能体(基于 Everyrow 的优化实现)对种子进行网络搜索,生成 1-7 个原型问题。智能体需确保问题具有明确的未来指向性,但此时解决标准尚不精确。
- 问题细化 (Refinement): 另一个 ReAct 智能体将原型问题转化为完全可操作的预测问题,添加精确、客观的解决标准(Resolution Criteria),确保在特定日期(如 2025 年 12 月 31 日)有明确的验证来源。
- 验证器过滤 (Verifier Agents): 使用一组专门的验证智能体对细化后的问题进行筛选:
- 质量验证: 评估问题是否非平凡(Non-trivial),即是否值得投入研究。
- 歧义性验证: 确保问题无歧义,解决标准清晰。
- 可解决性验证: 评估 AI 智能体是否能独立找到答案(例如,数据源是否公开可用)。
- 预测验证: 运行简单预测器,剔除概率接近 0% 或 100% 的 trivial 问题。
- 去重 (Deduplication): 使用 Embedding 模型(text-embedding-3-large)结合 DBSCAN 聚类,并利用 LLM(Claude Haiku 4.5)进行最终的人工级去重检查,确保问题独特性。
B. 问题解决器 (Question Resolver)
- 使用 Ensemble(集成)策略 解决生成的问题。
- 主要使用三个 Gemini 3 Pro 智能体(其中一个提示词不同)进行独立解决。
- 若三者未达成一致,则引入 Opus 4.5 作为仲裁者(Tiebreaker)。
- 解决过程包括:网络搜索收集证据 -> 基于证据进行概率推断。
C. 评估实验设计
- 数据集: 最终生成并保留了 1499 个高质量问题。
- 时间线: 问题生成于 2025 年 9-10 月,解决于 2026 年 1 月。
- 评估维度:
- 多样性: 通过聚类分析主题分布。
- 专家评分: 邀请外部预测专家对子集进行“接受/软拒绝/硬拒绝”评分。
- 解决准确性: 将自动解决结果与人工专家解决结果对比。
- 模型能力区分度: 测试不同 LLM(GPT-5, Gemini 3 Pro 等)在这些问题上的 Brier 分数,验证是否“越智能表现越好”。
- 子问题分解实验: 测试将大问题分解为子问题(Subquestions)是否能提升预测精度。
3. 关键贡献 (Key Contributions)
- 首个大规模自动化预测问题生成系统: 利用灵活的网络研究智能体,突破了传统静态数据源的限制,生成了涵盖地缘政治、宏观经济、法律等广泛领域的 1499 个真实世界问题。
- 高质量验证指标:
- 无歧义率: 系统生成的问题约 96% 被验证为无歧义且可解决,超过了人类策划平台 Metaculus 的水平。
- 解决准确率: 自动解决系统的准确率约为 95%(错误率约 4.9%),且取消(Annulment)率约为 3.9%,优于 Metaculus 历史约 8% 的取消率。
- 智能体工作流验证: 证明了通过“生成 - 细化 - 多智能体验证”的流水线,可以自动化地构建高难度的评估基准(Benchmark)。
- 子问题分解的有效性: 实验表明,通过生成子问题并汇总研究结果,能显著提升预测性能(Brier 分数从 0.141 降至 0.132)。
4. 实验结果 (Results)
- 问题分布: 生成的 1499 个问题覆盖了 12 个主要类别,包括监管政策(22.5%)、美国政府政策(12.6%)、宏观经济(11.7%)等。聚类分析显示问题具有高度多样性,重复率极低(相似度评分平均 1.32/4)。
- 模型性能排序: 预测性能与模型智力水平正相关:
- Gemini 3 Pro (Brier: 0.134) > GPT-5 (0.149) > GPT-5 Mini (0.155) > Gemini 2.5 Pro (0.165) > Gemini 2.5 Flash (0.179)。
- 这证明了该基准能有效区分不同代际和规模的模型能力。
- 子问题分解提升: 在子集实验中,使用子问题分解策略后,Gemini 3 Pro 的 Brier 分数从 0.141 提升至 0.132,表明该基准能奖励更多的研究努力和更复杂的推理策略。
- 局限性分析: 发现当前 LLM 智能体在处理需要交互式输入(如填表)、动态加载内容或从长 PDF 中提取特定数值时存在困难。对于“某事未发生”的验证(如未发布某名单)仍具挑战性。
5. 意义与影响 (Significance)
- 解决评估数据短缺: 该工作为 AI 预测能力的评估提供了可扩展、低成本且高质量的自动化数据生成方案,不再依赖昂贵的人工策划。
- 推动 AGI 评估: 由于预测是衡量通用智能的稳健指标,该基准有助于更准确地追踪 AI 向 AGI 迈进的进度,并为决策者提供校准依据。
- 方法论创新: 展示了如何利用 LLM 智能体(特别是具备网络搜索能力的 ReAct 智能体)构建闭环的“生成 - 验证 - 解决”系统,为其他需要自动化评估的领域提供了参考。
- 未来方向: 论文建议未来可进一步探索条件性问题(如“如果政策 X 实施,结果 Y 会发生吗?”),以更好地服务于决策制定场景。
总结: 这篇论文成功构建并验证了一个全自动化的预测问题生成与解决框架,证明了其生成的基准在多样性、难度和解决质量上均达到甚至超越了人类策划的水平,为评估下一代 AI 系统的预测能力提供了强有力的工具。