想象一下，你正试图解决一个复杂的数学问题，但你不是在向一位才华横溢但有时过于自负的天才求助，而是在向一位非常严谨、甚至有些刻板、但极其诚实的图书管理员求助。

这就是 AXIOM 的核心理念——一个旨在以“信任优先”为理念进行数学推理的新系统。以下是该系统的运作方式，通过简单的概念和类比进行了拆解。

问题所在：“自信且错误”的天才

目前的 AI 模型（比如你正在聊天的这些）就像是喜欢瞎猜的天才学生。如果它们不知道答案，它们可能会编造一个答案并表现得极度自信。在数学中，这是很危险的，因为错误的答案看起来和正确的答案一模一样。你无法判断 AI 是在撒谎还是仅仅产生了幻觉。

AXIOM 的解决方案：“专业化流水线”

AXIOM 并不试图做一个从零开始解决一切的天才。相反，它更像是一个高效的工厂流水线，遵循四条严格的规则：

1. 分拣器（正则表达式路由 - The Regex Router）

当一个问题到达时，它不会直接进入 AI。首先，它会经过一个分拣器。你可以把它想象成一个收发室职员，负责观察信封的形状。

如果信件看起来像是一封“简单算术”便条，它会被送往快速通道。
如果它看起来像是一封“代数”便条，它会被送往代数站。
如果形状不符合任何已知类别，职员会立即盖上**“未知”**印章并停止处理。它绝不瞎猜。

2. 翻译器（作为“重写者”的 AI）

如果信件通过了分拣，它并不会要求 AI 去解决问题。相反，AI 的角色是翻译器。

旧方式： “这是一个应用题，请解决它。”（AI 会猜测步骤）。
AXIOM 方式： “这是一个应用题。请将其重写为这种特定的、狭窄的格式，以便我们的计算器能够理解。”
AI 被严格禁止进行数学运算本身。它的任务只是清理句子，以便下一步能够完美地读取它。

3. 计算器（确定性引擎 - The Deterministic Engine）

一旦 AI 重写了问题，它就会将问题传递给计算器（一个计算机代数系统）。这是一个从不猜测、从不疲倦、也从不产生幻觉的机器人。

它接收重写后的问题并进行数值计算。
如果它能解决，它就会给出答案。
如果它无法解决（也许是因为数学逻辑太奇怪，或者输入有误），它会停止并声明：“我无法验证此项。”

4. “诚实”规则（弃权 - Abstaining）

这是最重要的一部分。在大多数系统中，如果计算器失败了，系统可能会尝试继续猜测。但在 AXIOM 中，说出“我不知道”是一种有效的、结构化的回答。
如果流水线中的任何环节出现故障（分拣器没识别出形状、翻译器无法重写、或计算器无法求解），系统都会输出一条清晰的信息：“我正在弃权。” 它绝不会给出一个自信的错误答案。

结果：速度与安全

该论文报告了测试该系统时的一些惊人数据：

零自信错误： 在数千次测试中，该系统从未给出过看起来正确但实际错误的答案。只要它给出了答案，该答案就是经过验证的。
高准确率： 在标准数学测试中，它的正确率约为 94%。
速度： 对于简单的数学（如“2 + 2”），它会完全跳过 AI 翻译阶段，在 1 毫秒内完成求解（比你眨眼的速度还要快）。对于更难的问题，它仍然比要求标准 AI 进行“逐步思考”要快得多。
成本： 因为它不需要要求 AI 撰写长篇大论或进行猜测，所以运行成本几乎可以忽略不计。

“前向动态”：在不破坏的前提下不断进化

作者强调，这个系统旨在成长。

想象系统遇到了一个它不认识的新类型数学问题。它不会默默失败或瞎猜，而是记录下：“我看到了这种形状，但我没有对应的站点。”
开发人员随后可以专门针对这种形状构建一个新的“站点”（一条新规则）。
因为每个站点都是隔离的，所以添加新站点永远不会破坏旧有的站点。这就像在高速公路上增加一条车道；它不会导致现有车道的交通拥堵。

总结类比

把标准 AI 想象成一个从帽子里变出答案的魔术师。有时兔子确实在那里，有时出来的却是一只袜子，但魔术师会假装那是只兔子。

AXIOM 则是一个质量控制检查员。

它检查物品是否符合包装盒。
它清晰地贴上标签。
它让物品通过机器进行测量。
如果机器无法测量，它会贴上一个“拒绝”标签。

它可能会比魔术师拒绝掉更多的物品，但每一个带着“通过”标签离开工厂的物品，都保证是正确的。

技术摘要：AXIOM —— 一种以信任为先的神经符号执行架构

1. 问题陈述

本文探讨了前沿大语言模型（LLM）在数学推理中存在的根本性可验证性缺失问题。尽管 LLM 在基准测试中取得了高准确率，但它们通过“提示词进、文本出”的接口运行，这使得“自信且错误”的答案在结构上与正确答案无法区分。现有的替代方案存在显著的权衡：

基于 Lean 的证明器 要求将问题预先形式化为特定语法（如 Lean），这为自然语言查询制造了瓶颈。
封闭式专家系统（如 Wolfram Alpha）提供了符号后端，但缺乏在输入端进行 LLM 增强的功能，且无法提供可检查的推导轨迹。

作者认为，“自信且错误”是数学推理中最糟糕的失败模式。他们提出将设计目标从“准确率优先”转向“信任优先”，将信任定义为 $1 - \frac{\text{错误}}{\text{尝试}}$ ，其中“错误”不包括系统明确表示无法回答的记录。

2. 方法论：AXIOM 架构

AXIOM 是一种神经符号执行架构，其中 LLM 严格充当规范化器（Canonicalizer），而非求解器。系统通过一个确定性的计算机代数系统（CAS）流水线路由自然语言（NL）输入。其核心设计依赖于四个承诺：

2.1 1:1:1 任务路由对齐

AXIOM 没有采用单体式 LLM 或通用处理器，而是采用了 1:1:1 不变量：

触发器（Trigger）： 一个问题形状的正则表达式，用于精确选择一个任务。
提示词（Prompt）： 针对该特定形状量身定制的、带有少样本示例（few-shot examples）的特定模式提示词。
处理器（Handler）： 一个仅消耗该特定模式的确定性 CAS 处理器。

这种对齐确保了添加新任务（ $T_{N+1}$ ）不会导致现有任务（ $T_1 \dots T_N$ ）的性能退化，因为它们的代码路径是相互独立的。这防止了单体模型中存在的“表示预算”竞争问题。

2.2 将“弃权”作为一等公民输出

系统将 answer=null 视为一种结构化的、有效的输出，而非失败。三个独立的通道可以触发弃权：

路由未命中（Router Miss）： 没有正则表达式触发器匹配输入。
翻译器弃权（Translator Abstain）： 当 LLM 无法在不进行猜测的情况下将输入重写为模式时，它会明确返回 unknown（通过少样本示例教授）。
处理器弃权（Handler Abstain）： CAS 流水线无法推导出经过验证的答案（例如，遇到无法识别的谓词或 ConditionSet）。

至关重要的是，系统强制执行白名单守卫：如果处理器遇到无法识别的谓词，它必须选择弃权，而不是默认返回一个值（例如零），从而防止“自信且错误”的输出。

2.3 组合任务链框架

对于多步问题（例如需要解析、按分支求解并聚合的分段函数），AXIOM 使用了 ComposedTask 框架。该框架链接了确定性算子（纯函数），其中 LLM 仅在开始阶段（InitialExtractor）被调用一次。链条在注册时验证依赖关系，确保任何步骤的失败都会导致清晰的弃权，而不是静默错误。

2.4 仅规则路径（Rule-Only Path）

对于闭合形式的纯算术运算（仅包含数字和运算符，无文本描述），系统会完全绕过 LLM 步骤。该路径直接路由到确定性的 CAS 评估器。该路径保证了多次运行之间的位等价性（bit-equivalence），且零推理成本。

3. 核心贡献

论文强调了架构的前向动态（Forward Dynamic），而非静态准确率数值。主要贡献包括：

架构框架： 一个具有规则绕过路径和用于多步逻辑的组合任务链的 1:1:1 路由系统。
操作纪律： 一套用于构建可信神经符号系统的原则，包括：
- 数学模板分桶（Math-template bucketing）： 基于求解器结构而非表面措辞进行路由。
- LOST_CORRECT 扫描： 一种预提交回归预言机，通过回放存档的基准测试，确保新任务不会破坏现有任务。
- 谓词无法识别 = 弃权： 针对“自信且错误”输出的结构化防御。
- 解析优先入场（Parseable-first onboarding）： 在优化新领域的可信度之前，先优化可解析输入的速率。
线性增益回报（Linear-Additive Returns）： 与表现出对数收益（准确率增益递减）的单体 LLM 不同，AXIOM 的覆盖范围随注册任务数量的增加而线性增长，因为任务之间不会产生抑制作用。

4. 实证结果

该架构在 MATH 基准测试（4 个类别）、lm-eval-harness 算术套件以及约 30,000 次查询的公开生产部署中进行了评估。

MATH 基准测试（4 个类别）：
- 累积正确率： 94.36% (2,592/2,747)。
- 可解析内容的信任度： 在所有四个领域（代数、数论、计数与概率、预微积分）均为 100.00%。零个自信且错误的答案。
- 延迟： LLM 绑定任务的中位数为 446 ms；规则类任务为 1 ms。
lm-eval-harness 算术：
- 正确率： 100.0% (20,000/20,000)。
- 成本： 零 LLM API 调用；在普通 CPU 上运行时间为 21.6 秒。
生产部署：
- 服务了约 30,000 次查询，在 API 边界处零次“自信且错误”事件。
- 延迟分离： 规则类路径（1 ms）与 LLM 绑定路径（446 ms）之间存在约 400 倍的差异。
与纯 LLM（Qwen 2.5 7B CoT）对比：
- AXIOM 在困难领域（如预微积分，提升了 38.2 个百分点）的准确率显著优于纯 CoT 基准，同时相比于 CoT 基准产生的数百个错误答案，AXIOM 产生了 0 个错误答案。
- 由于采用了窄化提示词且无需迭代推理循环，AXIOM 的平均速度比 CoT 快约 24 倍至 40 倍。

5. 重要性与主张

论文声称，AXIOM 建立了单体 LLM 或预形式化证明器无法提供的运行时信任保证。其意义不在于达到特定的准确率分数，而在于它所实现的前向动态：

单调改进： 生产环境中记录的每一次弃权都是下一次发布周期中正确答案的候选。系统旨在通过有针对性的任务创建，将“弃权”转化为“正确答案”，且不会造成现有性能的退化。
可验证性： 信任是源自验证路径（确定性 CAS）的架构属性，而非底层模型的属性。
可扩展性： 该架构支持增量添加数千个任务三元组（已交付 3,100 多个），且在 250 多个提交过程中实现了零 lost_correct 回归。

作者承认了局限性，包括由于缺乏视觉集成而在视觉锁定几何问题上的上限，以及 NLP 不可还原的文字题，但将其定义为注册表的新增长点，而非渐近墙。其核心贡献在于提供了一个框架，通过严谨、可验证的工程过程，使“今天的弃权”能够成为“明天的正确”。

AXIOM: A Trust-First Neuro-Symbolic Execution Architecture for Verifiable Mathematical Reasoning