Achieving Olympia-Level Geometry Large Language Model Agent via Complexity Boosting Reinforcement Learning

本文提出了基于“复杂度提升强化学习”(CBRL)和动态记忆机制的 InternGeometry 智能体,该模型仅需极少量训练数据即可在 IMO 几何问题上超越人类金牌选手平均水平,并展现出提出新颖辅助构造的创新能力。

Haiteng Zhao, Junhao Shen, Yiming Zhang, Songyang Gao, Kuikun Liu, Tianyou Ma, Fan Zheng, Dahua Lin, Wenwei Zhang, Kai Chen

发布于 2026-03-06
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一个名为 InternGeometry 的超级 AI 助手,它专门解决世界上最难的几何题(比如国际数学奥林匹克竞赛 IMO 的题目)。

为了让你更容易理解,我们可以把解决几何题想象成在迷宫里寻找出口,或者在黑暗中拼凑一幅复杂的拼图

以下是用通俗语言和生动比喻对这篇论文核心内容的解读:

1. 以前的困境:只会“死记硬背”的学霸

以前的顶尖几何 AI(比如 AlphaGeometry 2),就像是一个背下了所有地图和解题套路的天才学生

  • 优点:它通过阅读海量的“题库”(数亿条数据),记住了很多解题路径。
  • 缺点:它缺乏真正的“直觉”。遇到没见过的、需要灵光一闪(比如画一条奇怪的辅助线)的题目时,它就卡住了。它就像是一个只会按说明书操作的人,一旦说明书里没有,它就不知道该怎么办。而且,它需要吃下海量的数据才能学会,效率很低。

2. 我们的新方案:InternGeometry(一个会“思考”的探险家)

这篇论文提出的 InternGeometry 不一样。它不是一个只会背书的机器,而是一个带着指南针和笔记本的探险家

核心能力一:超长对话与“动态记忆”

  • 比喻:以前的 AI 做一道题,只能走几步路,走错了就忘了刚才发生了什么。而 InternGeometry 可以走200 多步
  • 怎么做:它每走一步(比如画一条线、证明一个角度),都会和“裁判”(一个符号推理引擎)对话。如果裁判说“这条路不通”,它不会死记硬背,而是把刚才的尝试记在小本本上(动态记忆),压缩成关键信息,然后想:“哦,刚才那样不行,那我换个方向试试。”
  • 效果:这种“试错 - 反思 - 再尝试”的过程,让它能像人类专家一样,通过不断的探索找到那条隐藏的、巧妙的辅助线。

核心能力二:CBRL(难度升级的“特训营”)

这是论文最聪明的地方,叫复杂度增强强化学习 (CBRL)

  • 比喻:想象你要训练一个运动员跑马拉松。
    • 笨办法:直接让他跑全程(太难,他跑不动,直接放弃);或者只让他跑 100 米(太简单,他学不到东西)。
    • InternGeometry 的办法:教练(AI 系统)会动态调整难度
      1. 先让他跑 500 米,他跑完了,教练就加点难度,变成 800 米。
      2. 如果他跑得很轻松,教练就再加点难度。
      3. 如果他跑不动了,教练就稍微降一点难度,让他建立信心。
  • 结果:AI 在这个过程中,自己生成了从简单到极难的题目,像爬楼梯一样,一步步把自己训练成了“奥运金牌选手”。

3. 惊人的成绩:用“零头”的数据,拿“金牌”

  • 数据量对比
    • 以前的冠军(AlphaGeometry 2):吃了3 亿条数据(像是一个吃撑了的大胃王)。
    • InternGeometry:只吃了1.3 万条数据(相当于冠军的0.004%,也就是千分之四都不到!)。
  • 解题能力
    • 在 50 道历年 IMO 几何题中,它解出了44 道
    • 这个分数超过了人类金牌选手的平均分(40.9 分),也超过了之前的 AI 冠军。
    • 甚至,它解出了一道 2025 年的新题(这是人类还没完全公布答案的领域)。

4. 最酷的地方:它比人更有“创意”

论文里举了一个例子(2018 年第 6 题)。

  • 人类做法:通常用复杂的三角函数或反演变换(就像用重型机械去拆墙)。
  • InternGeometry 的做法:它自己发现了一种非常优雅、人类都没想到的几何构造方法(就像用一把精巧的小钥匙打开了锁)。
  • 意义:这说明 AI 不仅仅是模仿人类,它真的能产生新的数学灵感

总结

这篇论文告诉我们:
解决高难度的数学问题,不一定非要靠“死记硬背”海量数据。如果我们给 AI 装上**“动态记忆”(让它记得住长过程的试错),并给它安排一个“循序渐进的特训营”**(CBRL),它就能学会像人类专家一样思考,甚至超越人类,用极少的数据解决最难的几何题。

这就好比,我们不再教 AI 背字典,而是教它如何思考,结果它反而成了数学大师。