原始论文采用 CC BY 4.0 许可(http://creativecommons.org/licenses/by/4.0/)。 这是对下方论文的AI生成解释。它不是由作者撰写的。如需技术准确性,请参阅原始论文。 阅读完整免责声明
想象一下,你正试图解决一个复杂的数学问题,但你不是在向一位才华横溢但有时过于自负的天才求助,而是在向一位非常严谨、甚至有些刻板、但极其诚实的图书管理员求助。
这就是 AXIOM 的核心理念——一个旨在以“信任优先”为理念进行数学推理的新系统。以下是该系统的运作方式,通过简单的概念和类比进行了拆解。
问题所在:“自信且错误”的天才
目前的 AI 模型(比如你正在聊天的这些)就像是喜欢瞎猜的天才学生。如果它们不知道答案,它们可能会编造一个答案并表现得极度自信。在数学中,这是很危险的,因为错误的答案看起来和正确的答案一模一样。你无法判断 AI 是在撒谎还是仅仅产生了幻觉。
AXIOM 的解决方案:“专业化流水线”
AXIOM 并不试图做一个从零开始解决一切的天才。相反,它更像是一个高效的工厂流水线,遵循四条严格的规则:
1. 分拣器(正则表达式路由 - The Regex Router)
当一个问题到达时,它不会直接进入 AI。首先,它会经过一个分拣器。你可以把它想象成一个收发室职员,负责观察信封的形状。
- 如果信件看起来像是一封“简单算术”便条,它会被送往快速通道。
- 如果它看起来像是一封“代数”便条,它会被送往代数站。
- 如果形状不符合任何已知类别,职员会立即盖上**“未知”**印章并停止处理。它绝不瞎猜。
2. 翻译器(作为“重写者”的 AI)
如果信件通过了分拣,它并不会要求 AI 去解决问题。相反,AI 的角色是翻译器。
- 旧方式: “这是一个应用题,请解决它。”(AI 会猜测步骤)。
- AXIOM 方式: “这是一个应用题。请将其重写为这种特定的、狭窄的格式,以便我们的计算器能够理解。”
AI 被严格禁止进行数学运算本身。它的任务只是清理句子,以便下一步能够完美地读取它。
3. 计算器(确定性引擎 - The Deterministic Engine)
一旦 AI 重写了问题,它就会将问题传递给计算器(一个计算机代数系统)。这是一个从不猜测、从不疲倦、也从不产生幻觉的机器人。
- 它接收重写后的问题并进行数值计算。
- 如果它能解决,它就会给出答案。
- 如果它无法解决(也许是因为数学逻辑太奇怪,或者输入有误),它会停止并声明:“我无法验证此项。”
4. “诚实”规则(弃权 - Abstaining)
这是最重要的一部分。在大多数系统中,如果计算器失败了,系统可能会尝试继续猜测。但在 AXIOM 中,说出“我不知道”是一种有效的、结构化的回答。
如果流水线中的任何环节出现故障(分拣器没识别出形状、翻译器无法重写、或计算器无法求解),系统都会输出一条清晰的信息:“我正在弃权。” 它绝不会给出一个自信的错误答案。
结果:速度与安全
该论文报告了测试该系统时的一些惊人数据:
- 零自信错误: 在数千次测试中,该系统从未给出过看起来正确但实际错误的答案。只要它给出了答案,该答案就是经过验证的。
- 高准确率: 在标准数学测试中,它的正确率约为 94%。
- 速度: 对于简单的数学(如“2 + 2”),它会完全跳过 AI 翻译阶段,在 1 毫秒内完成求解(比你眨眼的速度还要快)。对于更难的问题,它仍然比要求标准 AI 进行“逐步思考”要快得多。
- 成本: 因为它不需要要求 AI 撰写长篇大论或进行猜测,所以运行成本几乎可以忽略不计。
“前向动态”:在不破坏的前提下不断进化
作者强调,这个系统旨在成长。
- 想象系统遇到了一个它不认识的新类型数学问题。它不会默默失败或瞎猜,而是记录下:“我看到了这种形状,但我没有对应的站点。”
- 开发人员随后可以专门针对这种形状构建一个新的“站点”(一条新规则)。
- 因为每个站点都是隔离的,所以添加新站点永远不会破坏旧有的站点。这就像在高速公路上增加一条车道;它不会导致现有车道的交通拥堵。
总结类比
把标准 AI 想象成一个从帽子里变出答案的魔术师。有时兔子确实在那里,有时出来的却是一只袜子,但魔术师会假装那是只兔子。
AXIOM 则是一个质量控制检查员。
- 它检查物品是否符合包装盒。
- 它清晰地贴上标签。
- 它让物品通过机器进行测量。
- 如果机器无法测量,它会贴上一个“拒绝”标签。
它可能会比魔术师拒绝掉更多的物品,但每一个带着“通过”标签离开工厂的物品,都保证是正确的。
您所在领域的论文太多了?
获取与您研究关键词匹配的最新论文每日摘要——附技术摘要,使用您的语言。