AgentRivet: an automated system for producing Rivet routines from journal… — 通俗解释

原作者： Antonio J. Costa, Caterina Doglioni, Christian Gütschow, Andrew D. Pilkington, Sukanya Sinha

发布于 2026-06-12

📖 1 分钟阅读🧠 深度阅读

原作者： Antonio J. Costa, Caterina Doglioni, Christian Gütschow, Andrew D. Pilkington, Sukanya Sinha

原始论文采用 CC BY 4.0 许可（http://creativecommons.org/licenses/by/4.0/）。 ✨ 这是对下方论文的AI生成解释。它不是由作者撰写或认可的。如需技术准确性，请参阅原始论文。阅读完整免责声明

想象一下，粒子物理学的世界就像一场规模宏大、高风险的烹饪大赛。科学家们在巨大的机器（如大型强子对撞机）中制作复杂的“菜肴”（粒子碰撞），并为这些菜肴编写详细的“食谱”（科学论文）。此外，他们还会提供一份“食材清单”（数据），以便其他厨师尝试重现这道菜。

然而，问题出现了：为了能够真正品尝并比较这些菜肴，其他科学家需要一个特定的、标准化的厨房工具，叫做 Rivet。你可以把 Rivet 想象成一个专门的高科技量杯，它能确保每个人测量汤料的方式都完全一致。如果没有它，你就无法公平地将你的汤与别人的进行比较。

麻烦在于，只有大约 40% 的已发表食谱附带了这个特殊的量杯。剩下的食谱仅仅是文字描述，很难将其转化为该工具所需的精确代码。

AgentRivet 登场：AI 副厨

这篇论文的作者构建了一个名为 AgentRivet 的新系统。你可以把它想象成一支 AI 机器人团队，旨在阅读那些杂乱的纯文本食谱，并为你自动构建缺失的 Rivet 量杯（计算机代码）。

以下是他们的“厨房团队”如何运作的，使用的是一个简单的流程：

分析师（阅读者）： 这个 AI 机器人阅读科学论文，扮演着一名非常细心的副厨角色。它不仅仅是在阅读，它还在提取精确的指令：“使用 2 个柠檬”、“这样切洋葱”、“烹饪 10 分钟”。它将杂乱的文本转化为一份干净、结构化的购物清单。
编码员（构建者）： 这个机器人拿到购物清单后，尝试构建实际的 Rivet 工具（它是用一种特定的计算机语言 C++ 编写的）。这就像一个机器人手臂试图根据说明书组装一台复杂的机器。
评审员（检查员）： 在工具完成之前，两名检查员会检查工作成果。
- 代码评审员检查技术错误，比如是否使用了错误的螺丝或损坏的零件（语法错误）。
- 物理评审员检查指令是否真的符合食谱。机器人是否正确测量了洋葱？它是否遵循了烹饪时间？

“试味测试”（结果）

团队在来自 ATLAS 和 CMS 实验（两个主要的粒子物理实验室）的两份最新且复杂的食谱上测试了这支 AI 团队。他们要求 AI 从零开始构建 Rivet 工具。

好消息： 这支 AI 团队表现得相当出色。它们构建出的工具可以正常运行，且技术故障极少。当它们使用这些工具来测量模拟的粒子碰撞时，结果与人类科学家预期的非常相似。
坏消息（“幻觉”）： 有时，AI 会被食谱中模糊的部分搞糊涂。
- 如果论文说“对酱汁做一些特殊处理”，但没有解释具体如何操作，AI 就会进行猜测。有时它猜对了，有时则猜错了。
- 一个 AI 模型（Gemini）有时会忘记遵循关于“中微子”（一种不可见的粒子）的具体指令，而另一个模型（Claude）有时会陷入循环，或者写下它自己的“想法”而不是单纯的代码。
- AI 在处理食谱中最复杂、最抽象的部分时表现最差，例如测量事件的“形状”或使用定义不明确的复杂数学公式。

结论

论文得出结论：AgentRivet 是一个充满前景的新工具。它能够成功地将大约 40% 的“缺失”食谱转化为可运行的代码，这对物理学界是一个巨大的帮助。

然而，它目前并不完美。它仍然需要有人在旁边监督，尤其是在原始食谱含糊不清的时候。作者建议，在未来，他们将通过在更多示例上进行训练，并增加自动检查机制，以便在人类看到错误之前就将其捕捉到，从而更好地教导这个 AI。

简而言之： AgentRivet 是一个自动化团队，负责阅读科学论文并构建科学家用来比较数据所需的缺失软件工具。它运行良好，但当指令不明确时仍会犯错，因此仍需要人类专家来复核工作。

AgentRivet 技术摘要：一种从期刊论文中自动生成 Rivet 程序的方法

问题陈述
粒子物理对撞机实验依赖于 Rivet（鲁棒独立验证事件生成器），这是一个用于保存分析定义并实现理论预测与实验数据之间模型无关比较的 C++ 工具包。尽管这种保存策略具有显著优势，但分析覆盖率仍严重不足。目前，仅有 39% 的测量结果拥有文档化且公开可用的 Rivet 程序，其中 ATLAS 的覆盖率为 49%，而 ALICE 仅为 16%。生产这些程序通常被视为一项劳动密集型任务，且在社区内未能获得足够的认可或奖励，这为对撞机数据的保存造成了瓶颈。

方法论：AgentRivet 工作流
为了填补这一空白，作者设计并实现了 AgentRivet，一个基于大语言模型（LLM）的自主多步工作流。该系统构建为一个模块化、与供应商无关的 Python 框架，通过编排专门的 AI 智能体（Agents）从期刊论文中提取物理信息，并生成相应的 Rivet 程序。

该工作流由以下关键组件组成：

模块化智能体架构： 系统将高层编排与特定的 LLM 供应商（OpenAI、Anthropic、Google）解耦，允许在不同模型之间进行动态切换。
专门的智能体：
- 分析师（Analyst）： 从出版物中提取结构化的物理信息，包括典型相空间定义、对象构建（如着装轻子、喷注）、事件选择标准以及直方图规范。它利用 Pydantic 模型来强制执行结构化输出模式。
- 编码员（Coder）： 根据分析师提供的结构化摘要生成符合 Rivet 规范的 C++ 代码。它受限于使用 Rivet4 语法，并遵循特定的修订策略。
- 代码审查员（Code Reviewer）： 评估生成的代码是否存在语法错误、使用了已弃用的 Rivet3 语法或潜在的编译时问题。
- 物理审查员（Physics Reviewer）： 根据分析师提取的规范验证实现的物理保真度，检查对象定义、截断（cuts）和观测量的逻辑一致性。
迭代审查循环： 该工作流的一个关键特征是迭代循环，编码员根据来自两类审查员的反馈对代码进行改进。该循环会持续进行，直到获得批准、不存在主要问题或达到可配置的迭代限制为止。
共享内存与人工制品： 所有中间步骤（包括提取的元数据、代码草案和审查意见）都存储在共享状态中。这确保了过程的可审计性、可重现性，并允许对昂贵的 LLM 衍生产品进行缓存。

基准测试与实验设置
AgentRivet 的性能通过两个近期公开的、缺乏现有 Rivet 程序的测量结果进行了评估：

ATLAS： 包容性 $W\gamma \to \ell\nu\gamma$ 产生过程，其特点是具有复杂的角分布观测量、提升不对称性（boost asymmetries）以及基于神经网络的观测量。
CMS： 涉及喷注内带电粒子的事件形状观测量，包含非平凡的喷注质量、推力（thrust）和展宽（broadening）定义。

系统使用三种商业 LLM 进行了测试：Gpt-5.5 (OpenAI)、Gemini-3.5-Flash (Google) 和 Claude-Opus-4.6 (Anthropic)。针对每种设置进行了三次独立运行以评估一致性。生成的程序使用 Rivet-4.1.2 进行编译，并应用于 Monte Carlo 事件样本（MadGraph5_aMC@NLO 和 Pythia8）以验证物理输出。

关键结果

代码质量： AgentRivet 生成了具有竞争力的 Rivet 程序，且语法错误极少。
- Gpt-5.5 和 Claude-Opus-4.6 通常能生成成功编译的程序，尽管 Claude-Opus-4.6 在未发现阻碍因素的情况下很少正式批准程序。
- Gemini-3.5-Flash 需要 2–3 次迭代来移除已弃用的 Rivet3 语法，并偶尔引入幻觉语法。
- 所有程序均能以极少的人工干预（仅修复必要错误）完成编译。
物理保真度：
- 对象重建： 大多数模型能正确重建标准对象（电子、μ子、光子、喷注）。然而，一些微妙的问题依然存在，例如错误地排除了“着装（dressed）”轻子，或在寻找喷注时包含了瞬发中微子，这通常是由于原始论文中的表述存在歧义所致。
- 复杂观测量： 系统在处理最复杂的定义时表现挣扎。对于 ATLAS 分析，Gemini-3.5-Flash 由于分析师提取的信息不完整，完全无法构建角分布观测量。Claude-Opus-4.6 有时会将约束应用于错误的系统（例如，将约束应用于 $\ell\nu\gamma$ 系统而非 $\ell\nu$ ）。
- 神经网络观测量： 正如预期，没有任何模型能在没有底层模型文件的情况下构建基于神经网络的观测量，这凸显了处理“黑盒”定义的局限性。
- 直方图分箱： 当 HepData 记录不可用时，模型必须从图中推断分箱，这导致了轻微的不匹配，需要手动修正。
成本与可靠性： 生成一个程序的成本在 1.20 美元到 2.20 美元之间。该框架通过重试逻辑展示了对 API 故障的鲁棒性，尽管访问稳定性因供应商和时间段的不同而表现出显著差异。

意义与主张
论文声称 AgentRivet 证明了现代 LLM 能够从科学文献中提取详细的分析定义，并将其转化为可执行的科学软件。该系统成功弥合了出版物与实现之间的鸿沟，为解决 Rivet 程序覆盖率不足的问题提供了潜在方案。

作者强调，迭代审查过程对于提高代码质量和与原始分析的一致性至关重要。他们指出，虽然系统尚未达到完美，但大多数物理实现问题源于原始出版物中微妙且存在歧义的定义，而非工作流本身的根本缺陷。因此，论文认为，只要生成的产物经过所述的质量控制循环，AgentRivet 为增加分析保存提供了一条可行的自动化路径。这项工作通过在严谨且特定领域的科学语境下记录 AI 智能体的表现，为日益增长的 AI 智能体相关文献做出了贡献。

AgentRivet: an automated system for producing Rivet routines from journal publications

AgentRivet 技术摘要：一种从期刊论文中自动生成 Rivet 程序的方法

类似论文