Infinite Problem Generator: Verifiably Scaling Physics Reasoning Data with Agentic Workflows

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一个名为**“无限问题生成器”（Infinite Problem Generator, IPG）的聪明系统。简单来说，它的任务是像一位不知疲倦的超级物理老师一样，自动制造出成千上万道高质量、绝对正确的物理题**，用来训练人工智能（AI）学会像人类一样进行复杂的逻辑推理。

为了让你更容易理解，我们可以用几个生动的比喻来拆解这项技术：

1. 痛点：为什么现在的 AI 学物理这么难？

想象一下，你想教一个学生（AI）做物理题。

传统方法（文本生成）：就像让一个只会背课文的学生去“编”题目。他可能会写出看起来很通顺、甚至很华丽的句子，但里面的数字和逻辑是瞎编的（幻觉）。比如，他可能写“一个质量为负数的苹果从树上掉下来”，这在物理上是不可能的，但文字上读起来很通顺。
现有题库的局限：现有的物理题库（像 JEEBench）就像是一本**“考卷”**，只有题目和答案，没有解题过程。AI 只能死记硬背答案，无法学习“如何思考”。

IPG 要解决的问题：如何制造出既有题目、又有绝对正确的解题步骤，而且数量无穷无尽的“练习册”？

2. 核心魔法：“公式即代码”（Formula-as-Code）

这是 IPG 最厉害的地方。

普通 AI：把物理公式（比如 $F=ma $）当作**文字**来理解。它可能会把$ F $和$ m$ 搞混，或者算错数。
IPG 的做法：它把物理公式变成了可执行的 Python 代码。
- 这就好比，普通学生是在纸上写算式，而 IPG 是直接调用了一个精密的“物理计算器”程序。
- 当 IPG 生成一道题时，它不仅仅是写文字，它必须同时写出一个能跑通的 Python 程序。如果程序跑不通（比如除以零、算出负数质量），这道题就会被直接扔掉，根本不会进入题库。

比喻：
想象你在开一家餐厅。

普通生成器：像是一个只会背菜单的厨师，他可能会说“我要做一道‘会飞的牛排’"，听起来很酷，但根本做不出来。
IPG：像是一个拥有自动烹饪机器人的主厨。在把菜端上桌之前，机器人会先试做一遍。如果机器人发现“飞不起来”或者“牛排着火了”，它就不会把这道菜端给顾客。只有那些真正能做出来的菜，才会被收录进菜单。

3. 工作流程：三个步骤的“流水线”

IPG 的工作流程就像一个严谨的工厂：

第一步：分析种子（找灵感）
- 人类专家先提供 165 道经典的“种子题”（比如教科书上的例题）。
- IPG 像侦探一样分析这些题：这道题用了什么物理原理？（比如“角动量守恒”）它可以用在什么场景？（比如“旋转的溜冰鞋”、“飞盘”、“陀螺”）。
- 它把同一个物理原理，套用到 10 种完全不同的生活场景中，创造出新的故事。
第二步：受限生成（戴着手铐跳舞）
- IPG 被要求：只能用特定的几个公式（比如 3 到 5 个）来编题。
- 它必须确保题目里的数字是合理的（比如人的质量不能是 1000 吨）。
- 它要生成题目，同时生成对应的“解题代码”。
第三步：代码验证（试吃环节）
- 这是最关键的一步。生成的题目和代码会被放入一个沙盒环境运行。
- 如果代码报错、算出无穷大、或者结果违反物理常识（比如时间倒流），这道题就被自动淘汰。
- 只有那些代码能完美运行、算出确切数字的题目，才会被保留。

4. 惊人的发现：“难度蓝图”

研究人员在分析数据时发现了一个有趣的规律，他们称之为**“复杂度蓝图”（Complexity Blueprint）**。

发现：一道题需要用到多少个物理公式，直接决定了它的解题代码有多长。
比喻：就像盖房子。
- 如果你只用 1 块砖（1 个公式），房子很简单，代码很短。
- 如果你要用 5 块砖（5 个公式），房子结构复杂，代码自然就长。
- 这两者之间有着完美的线性关系（相关性高达 95%）。
意义：这意味着，我们不需要人工去判断题目难不难。只要看生成的代码有多长，就能精准地知道这道题的难度。这让 AI 可以像学校排课表一样，自动安排“由易到难”的学习路径。

5. 成果：ClassicalMechanicsV1

数量：从 165 道种子题，扩展成了 1,335 道 经过严格验证的物理题。
质量：每一道题都有可执行的代码作为解题过程，确保没有逻辑漏洞。
多样性：题目涵盖了从简单的运动学到复杂的刚体动力学，并且能跨章节混合知识点（比如把摩擦力和旋转运动结合起来）。

总结

这篇论文的核心贡献是用“代码执行”代替了“文本猜测”。

以前，我们让 AI 写物理题，就像让猴子在键盘上乱敲，希望能敲出一首诗。
现在，IPG 给 AI 配了一把**“物理尺子”和“计算器”**。AI 必须用这把尺子量出合理的尺寸，用计算器算出正确的结果，才能生成一道题。

这不仅解决了物理题数据稀缺的问题，更重要的是，它创造了一种**“可验证的推理数据”。这对于训练未来的 AI 变得像人类一样严谨、逻辑严密地思考，具有巨大的价值。这就好比给 AI 提供了一本不仅题目正确，而且每一步解题过程都经过数学证明的“完美练习册”**。

Each language version is independently generated for its own context, not a direct translation.

1. 研究背景与问题 (Problem)

核心痛点：
大型语言模型（LLM）在复杂推理领域（如大学物理、高等数学）的适应受到高质量、可验证数据稀缺的严重制约。

现有数据的局限性： 通用网络语料缺乏深度推理；现有的物理基准测试（如 JEEBench, UGPhysics）主要用于评估，缺乏用于微调的、带有可执行推理轨迹的大规模数据集。
合成数据的缺陷： 传统的文本增强方法（如简单的改写或回译）容易引入“幻觉”（Hallucinations），导致生成的物理问题在数学上不可解或逻辑不一致。静态基准测试缺乏训练所需的推理步骤。
目标挑战： 印度联合入学考试（JEE）级别的物理问题具有长程、多步骤推理的特点，且概念紧密耦合，难以通过浅层模式匹配解决，是检验推理深度的理想场景。

2. 方法论 (Methodology)

作者提出了 无限问题生成器 (Infinite Problem Generator, IPG)，这是一个基于智能体（Agentic）的框架，采用 "公式即代码" (Formula-as-Code) 范式，通过可执行的 Python 程序来构建解决方案，确保数学一致性。

核心工作流 (Generate-then-Verify)

IPG 将专家编写的种子问题（Seed Problems）扩展为经过验证的训练实例，包含三个阶段：

阶段 I：问题分析与上下文扩展 (Problem Analysis & Context Expansion)
- 原理提取： 识别种子问题背后的核心物理原理，并映射到多种现实场景（例如：将“滑轮角加速度”映射到“轮胎旋转”、“磁带卷”等）。
- 概念映射： 利用预定义的“章节字典”关联相关课程单元，构建包含可执行公理（Executable Axioms）的公式库。
- 约束提取： 构建变量字典，定义每个物理量的单位和有效范围（如 $m > 0$ , $\mu \in [0, 1]$ ），防止生成物理上不合理的实例。
阶段 II：约束问题生成 (Constrained Problem Generation)
- 叙事轮换： 基于提取的场景生成新的问题叙述，同时保持核心物理逻辑不变。
- 公式选择： 强制模型从公式库中选择 3-5 个可执行公理（公式）来解决问题，确保多步骤推理。
- 唯一性检查： 为每个问题生成“问题签名”（Problem Signature），包含调用的公式 ID 和目标变量，通过哈希集检测并拒绝重复问题。
阶段 III：基于代码执行的解决方案生成 (Solution Generation via Code Execution)
- 可执行验证： 要求为每个生成的问题编写 Python 代码解决方案。代码仅调用预定义的、经过领域验证的物理公式函数。
- 沙箱执行： 代码在沙箱环境中运行，必须满足三个标准才能被接受：
  1. 语法有效性： 无运行时错误。
  2. 数值可解性： 输出为有限值（排除 NaN 或 $\infty$ ）。
  3. 物理合理性： 结果满足基本约束（如时间 $t>0$ ）。
- 迭代修正： 如果执行失败，智能体根据错误轨迹进行重试和修正。

3. 关键贡献 (Key Contributions)

智能体验证框架 (IPG)：
- 提出了一种将叙事生成与代码执行验证相结合的智能体流水线。
- 通过“公式即代码”范式，将物理方程视为可执行的 Python 函数，而非文本 Token，显著减少了合成数据中的数学幻觉。
ClassicalMechanicsV1 数据集：
- 发布了包含 1,335 个 经过验证的本科物理（经典力学）问题的训练就绪语料库。
- 从 165 个 专家编写的种子问题扩展而来（平均每个种子扩展约 8 倍）。
- 每个问题都包含可执行的解决方案路径和经过验证的数值正确性。
复杂度蓝图 (Complexity Blueprint)：
- 发现了一个可复现的规律：问题中集成的物理公式数量与解决方案代码的长度之间存在强线性相关性 ( $R^2 \approx 0.95$ )。
- 这一发现提供了一种**无代理（proxy-free）**的难度控制机制：可以通过控制代码长度或公式数量来精确生成特定难度的课程数据集，无需人工标注。

4. 实验结果与分析 (Results & Analysis)

数据集统计：
- 多样性： 覆盖了 102 个独特的物理公式，平均每个问题涉及 3.05 个公式。
- 跨章节推理： 数据集成功打破了章节界限（例如，在“刚体动力学”中混合使用了“运动学”和“能量”公式），实现了真正的领域混合（Domain Mixing）。
- 分布： 57.5% 的问题涉及 3 个公式（中等深度），260 个问题涉及 4-6 个公式（长程推理），远超 GSM8K 等基准的深度。
验证成功率：
- 在最终筛选出的数据集中，仅 2 个问题被标记为数值不稳定，验证成功率高达 99.85%。
- 执行验证有效过滤了数学上无效或物理上不可能的生成结果。
失败模式分析：
- 低复杂度区 (0-1 公式)： 主要是定义性计算，属于“ triviality"（琐碎性）而非错误。
- 高复杂度区 (4+ 公式)： 主要错误集中在“签名不匹配”（Signature Mismatches），即智能体能正确推导中间值，但未能将其正确链接到最终目标变量。这揭示了当前 LLM 在长程变量上下文保持上的局限性。
下游评估：
- 在 Qwen3-14B 模型的零样本测试中，ClassicalMechanicsV1 的准确率 (34.96%) 低于 JEEBench (47.97%)。
- 意义： 这表明生成的问题成功捕捉并严格测试了高难度的推理复杂性，且由于基于代码执行而非选择题猜测，提供了更鲁棒的评估指标。

5. 意义与未来展望 (Significance & Future Work)

科学意义：

解决数据瓶颈： 为推理密集型领域提供了一种可扩展、可验证的数据生成范式，填补了“测试 - 训练”之间的鸿沟。
可解释的难度控制： “复杂度蓝图”证明了代码结构可以作为问题难度的精确代理，使得自适应课程生成成为可能。
方法论创新： 将 Program-of-Thought (PoT) 直接集成到生成循环中，而非仅作为后处理过滤器，确保了生成即正确。

局限性与未来工作：

领域扩展： 目前仅限于经典力学。未来计划扩展至电磁学、光学等领域，需处理连续场表示。
多模态支持： 当前框架仅处理文本 - 代码模态。未来将结合程序化图表生成（如 TikZ/SVG），以支持几何和图示推理。
形式化验证： 引入形式化约束求解器（如 Z3）以在更复杂的场景中强制执行高阶守恒定律，进一步消除语义不一致。
效率优化： 目前的“生成 - 验证”循环计算成本较高，未来计划引入轻量级求解器预测器以提高生成效率。

总结：
该论文通过引入 IPG 框架，成功利用智能体工作流和代码执行验证，解决了物理推理数据稀缺且质量难以保证的问题。它不仅发布了一个高质量的数据集，更提出了一种通过代码复杂度控制推理难度的新范式，为训练具备深度推理能力的科学 AI 模型奠定了坚实基础。

Infinite Problem Generator: Verifiably Scaling Physics Reasoning Data with Agentic Workflows

1. 痛点：为什么现在的 AI 学物理这么难？

2. 核心魔法：“公式即代码”（Formula-as-Code）

3. 工作流程：三个步骤的“流水线”

4. 惊人的发现：“难度蓝图”

5. 成果：ClassicalMechanicsV1

总结

1. 研究背景与问题 (Problem)

2. 方法论 (Methodology)

核心工作流 (Generate-then-Verify)

3. 关键贡献 (Key Contributions)

4. 实验结果与分析 (Results & Analysis)

5. 意义与未来展望 (Significance & Future Work)

类似论文

Self-Calibrating Language Models via Test-Time Discriminative Distillation

Toward Generalized Cross-Lingual Hateful Language Detection with Web-Scale Data and Ensemble LLM Annotations

HumorGen: Cognitive Synergy for Humor Generation in Large Language Models via Persona-Based Distillation

Generating High Quality Synthetic Data for Dutch Medical Conversations

GIANTS: Generative Insight Anticipation from Scientific Literature