Agent Hunt: Bounty Based Collaborative Autoformalization With LLM Agents

该论文提出了一种名为"Agent Hunt"的基于赏金机制的协作式自动形式化框架,通过让多个大语言模型代理在交互式定理证明环境中动态发布、竞标并完成代数拓扑领域的证明任务,从而探索去中心化的协作证明搜索与理论构建方法。

Chad E. Brown, Cezary Kaliszyk, Josef Urban

发布于 Tue, 10 Ma
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文讲述了一个非常有趣的实验:如何让一群人工智能(AI)像“自由职业者”一样,通过“悬赏竞标”的方式,共同完成一项极其复杂的数学证明任务。

想象一下,你有一本厚厚的、全是数学公式的“天书”(代数拓扑学),需要把它翻译成计算机能读懂的“代码语言”(形式化证明)。以前,这通常需要一个超级天才(或者一个超级 AI)从头写到尾,既慢又容易卡壳。

但这次,作者们想出了一个新招:“悬赏猎人”(Agent Hunt)模式

1. 核心概念:数学界的“赏金猎人”游戏

想象有一个巨大的数学工地,上面堆满了还没完成的证明任务(定理)。

  • 悬赏(Bounty): 工头(人类专家)给每个任务贴上一个价格标签(比如 100 个虚拟金币)。
  • 猎人(Agents): 四个 AI 助手(Alice, Bob, Charlie, Dave)就是这里的“猎人”。
  • 规则:
    • 抢单: 猎人看到任务,可以付一点定金(锁定任务),然后开始干活。
    • 竞争: 如果两个猎人都想干同一个活,谁先做完谁拿钱。
    • 合作: 如果任务太难,猎人可以把它拆成小任务,再悬赏给其他人(或者自己接别人的小任务)。
    • 结算: 只有当计算机(证明助手)严格检查并确认证明完全正确时,猎人才能拿到钱。如果证明错了,钱就没了。

2. 他们做了什么?

  • 目标: 他们要翻译一本著名的数学教材《Munkres 拓扑学》的后半部分(代数拓扑),大约 200 页的内容。
  • 工具: 他们用了四个不同版本的 AI 模型(像是有不同性格的工人),在一个叫"Megalodon"的数学检查器里工作。
  • 过程:
    • 一开始,人类专家先给所有定理贴好了价格标签,并设定了规则。
    • 四个 AI 猎人开始疯狂工作。它们互相竞争,看谁证明得快;同时也互相帮忙,比如 Alice 证明了一个基础定理,Bob 就可以基于这个定理去证明更难的定理。
    • 它们还会自己写代码、检查错误、甚至重新定义一些概念,就像工人在工地上自己发明新工具一样。

3. 成果如何?(惊人的速度)

  • 速度爆发: 在短短 2 天半 的时间里,这四个 AI 联手写出了 12 万行 代码(证明)。
  • 对比: 以前只有一个 AI 在干类似的“普通拓扑学”项目,干了 60 天才写了 40 万行(平均每天 7000 行)。而这次四个 AI 合作,平均每天能产出 3.9 万行
  • 效率: 这就像是一个人的小作坊,突然变成了四个熟练工组成的流水线,效率翻了 5 倍以上。

4. 有趣的故事和插曲

  • 抢单大战: 有一次,Bob 正在艰难地证明一个定理,快要完成了,但他没来得及“锁定”这个任务。结果 Alice 冲进来,把 Bob 那 3000 多行的半成品证明,直接替换成了一个完美的完整证明,然后拿走了奖金。Bob 只能看着奖金飞走。
  • 分工明确: 虽然大家在一起干活,但自然形成了分工。比如 Bob 擅长“基础结构”,Charlie 擅长“几何形状”,Alice 擅长“基础逻辑”。大家各展所长。
  • 踩坑经历: 有时候 AI 会“走火入魔”。比如它们试图证明一个关于“圆”的定理,但因为数学定义里把“正弦”和“余弦”定义得太模糊(就像定义“苹果”时,既可以是红色的也可以是绿色的,甚至可以是石头),导致 AI 怎么证明都证明不通。最后人类专家发现是定义错了,必须重写定义。

5. 这个实验意味着什么?

这就好比以前我们试图用一个超级大脑去解决所有数学难题,现在变成了建立一个去中心化的数学市场

  • 优点: 不需要人类事无巨细地指挥谁做什么(因为数学证明太复杂,人类很难提前规划好每一步)。AI 们自己根据“价格”和“能力”动态分配工作,更灵活,速度更快。
  • 未来: 这种方法可能让 AI 在数学、科学发现领域发挥更大的作用。它们不再是单打独斗的程序员,而是像一群在集市上自由交易、互相协作的“数学工匠”。

总结一句话:
这篇论文展示了如何通过**“悬赏机制”,让一群 AI 像自由职业者一样,在数学工地既竞争又合作**,从而以前所未有的速度完成了复杂的数学证明任务。这不仅是 AI 的胜利,更是**“市场机制”在科学探索中的一次成功实验**。