Infinite Problem Generator: Verifiably Scaling Physics Reasoning Data with Agentic Workflows

该论文提出了“无限问题生成器(IPG)”这一智能体框架,通过“公式即代码”范式利用可执行的 Python 程序合成具有严格数学一致性和可验证性的物理问题,并发布了包含 1335 个经典力学问题的高保真数据集,证明了代码复杂度可作为问题难度的精确代理指标,从而有效解决了复杂推理领域高质量数据稀缺的瓶颈。

Aditya Sharan, Sriram Hebbale, Dhruv Kumar

发布于 2026-03-17
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一个名为**“无限问题生成器”(Infinite Problem Generator, IPG)的聪明系统。简单来说,它的任务是像一位不知疲倦的超级物理老师一样,自动制造出成千上万道高质量、绝对正确的物理题**,用来训练人工智能(AI)学会像人类一样进行复杂的逻辑推理。

为了让你更容易理解,我们可以用几个生动的比喻来拆解这项技术:

1. 痛点:为什么现在的 AI 学物理这么难?

想象一下,你想教一个学生(AI)做物理题。

  • 传统方法(文本生成):就像让一个只会背课文的学生去“编”题目。他可能会写出看起来很通顺、甚至很华丽的句子,但里面的数字和逻辑是瞎编的(幻觉)。比如,他可能写“一个质量为负数的苹果从树上掉下来”,这在物理上是不可能的,但文字上读起来很通顺。
  • 现有题库的局限:现有的物理题库(像 JEEBench)就像是一本**“考卷”**,只有题目和答案,没有解题过程。AI 只能死记硬背答案,无法学习“如何思考”。

IPG 要解决的问题:如何制造出既有题目、又有绝对正确的解题步骤,而且数量无穷无尽的“练习册”?

2. 核心魔法:“公式即代码”(Formula-as-Code)

这是 IPG 最厉害的地方。

  • 普通 AI:把物理公式(比如 $F=ma)当作文字来理解。它可能会把)当作**文字**来理解。它可能会把 Fm$ 搞混,或者算错数。
  • IPG 的做法:它把物理公式变成了可执行的 Python 代码
    • 这就好比,普通学生是在纸上写算式,而 IPG 是直接调用了一个精密的“物理计算器”程序
    • 当 IPG 生成一道题时,它不仅仅是写文字,它必须同时写出一个能跑通的 Python 程序。如果程序跑不通(比如除以零、算出负数质量),这道题就会被直接扔掉,根本不会进入题库。

比喻
想象你在开一家餐厅。

  • 普通生成器:像是一个只会背菜单的厨师,他可能会说“我要做一道‘会飞的牛排’",听起来很酷,但根本做不出来。
  • IPG:像是一个拥有自动烹饪机器人的主厨。在把菜端上桌之前,机器人会先试做一遍。如果机器人发现“飞不起来”或者“牛排着火了”,它就不会把这道菜端给顾客。只有那些真正能做出来的菜,才会被收录进菜单。

3. 工作流程:三个步骤的“流水线”

IPG 的工作流程就像一个严谨的工厂:

  1. 第一步:分析种子(找灵感)

    • 人类专家先提供 165 道经典的“种子题”(比如教科书上的例题)。
    • IPG 像侦探一样分析这些题:这道题用了什么物理原理?(比如“角动量守恒”)它可以用在什么场景?(比如“旋转的溜冰鞋”、“飞盘”、“陀螺”)。
    • 它把同一个物理原理,套用到 10 种完全不同的生活场景中,创造出新的故事。
  2. 第二步:受限生成(戴着手铐跳舞)

    • IPG 被要求:只能用特定的几个公式(比如 3 到 5 个)来编题。
    • 它必须确保题目里的数字是合理的(比如人的质量不能是 1000 吨)。
    • 它要生成题目,同时生成对应的“解题代码”。
  3. 第三步:代码验证(试吃环节)

    • 这是最关键的一步。生成的题目和代码会被放入一个沙盒环境运行。
    • 如果代码报错、算出无穷大、或者结果违反物理常识(比如时间倒流),这道题就被自动淘汰
    • 只有那些代码能完美运行、算出确切数字的题目,才会被保留。

4. 惊人的发现:“难度蓝图”

研究人员在分析数据时发现了一个有趣的规律,他们称之为**“复杂度蓝图”(Complexity Blueprint)**。

  • 发现:一道题需要用到多少个物理公式,直接决定了它的解题代码有多长。
  • 比喻:就像盖房子
    • 如果你只用 1 块砖(1 个公式),房子很简单,代码很短。
    • 如果你要用 5 块砖(5 个公式),房子结构复杂,代码自然就长。
    • 这两者之间有着完美的线性关系(相关性高达 95%)。
  • 意义:这意味着,我们不需要人工去判断题目难不难。只要看生成的代码有多长,就能精准地知道这道题的难度。这让 AI 可以像学校排课表一样,自动安排“由易到难”的学习路径

5. 成果:ClassicalMechanicsV1

  • 数量:从 165 道种子题,扩展成了 1,335 道 经过严格验证的物理题。
  • 质量:每一道题都有可执行的代码作为解题过程,确保没有逻辑漏洞。
  • 多样性:题目涵盖了从简单的运动学到复杂的刚体动力学,并且能跨章节混合知识点(比如把摩擦力和旋转运动结合起来)。

总结

这篇论文的核心贡献是用“代码执行”代替了“文本猜测”

以前,我们让 AI 写物理题,就像让猴子在键盘上乱敲,希望能敲出一首诗。
现在,IPG 给 AI 配了一把**“物理尺子”和“计算器”**。AI 必须用这把尺子量出合理的尺寸,用计算器算出正确的结果,才能生成一道题。

这不仅解决了物理题数据稀缺的问题,更重要的是,它创造了一种**“可验证的推理数据”。这对于训练未来的 AI 变得像人类一样严谨、逻辑严密地思考,具有巨大的价值。这就好比给 AI 提供了一本不仅题目正确,而且每一步解题过程都经过数学证明的“完美练习册”**。

在收件箱中获取类似论文

根据您的兴趣定制的每日或每周摘要。Gist或技术摘要,使用您的语言。

试用 Digest →