LeanTutor: Towards a Verified AI Mathematical Proof Tutor

本文提出了名为 LeanTutor 的概念验证系统,通过结合大语言模型的自然语言交互能力与 Lean 定理证明器的可验证性,构建了一个包含自动形式化、下一步生成及自然语言反馈模块的 AI 数学证明辅导工具,并引入了 PeanoBench 数据集用于评估。

Manooshree Patel, Rayna Bhattacharyya, Thomas Lu, Arnav Mehta, Niels Voss, Narges Norouzi, Gireeja Ranade

发布于 2026-03-05
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一个名为 LeanTutor 的新系统,它的目标是解决一个教育界的难题:如何让学生既能享受 AI 聊天机器人那种“秒回”的便利,又能保证数学证明的绝对正确,而不会被 AI 的“胡言乱语”带偏。

我们可以把这篇论文的核心思想想象成**“给数学证明请了一位‘双语’私人教练”**。

1. 为什么我们需要 LeanTutor?(现状的痛点)

想象一下,你正在学骑自行车(学习数学证明)。

  • 现在的 AI 聊天机器人(如 ChatGPT):就像是一个话痨且自信满满的向导。它说话很流利,能立刻给你答案,甚至能陪你聊天。但问题在于,它经常**“一本正经地胡说八道”**(幻觉)。在数学证明中,它可能会编造一个看起来很像真的、但逻辑完全错误的步骤。如果你跟着它学,不仅学不会,还可能把错误的逻辑刻在脑子里。
  • 传统的数学证明软件(如 Lean):就像是一个极其严谨但不懂人话的裁判。它只认死理,只要你的逻辑有一点点错,它就立刻判你“失败”。虽然它绝对正确,但它很难用自然语言跟你沟通,而且学习它的“裁判语言”(形式化语法)就像学一门新的外语,门槛太高,把很多学生吓跑了。

LeanTutor 的创意
它把这两者结合起来了!它让AI 当“翻译官”和“陪练”(用学生听得懂的大白话交流),而把Lean 软件当“幕后裁判”(在后台默默检查每一步是否真的逻辑严密)。

2. LeanTutor 是如何工作的?(三个核心模块)

这个系统就像一个三人小组,分工明确:

  1. “翻译官” (Autoformalizer)

    • 任务:学生用大白话写证明步骤(比如:“因为 A 等于 B,所以..."),翻译官立刻把它“翻译”成 Lean 软件能听懂的严谨代码。
    • 比喻:就像你在跟一个只会说“代码语”的机器人下棋,你下了一步“车走直线”,翻译官立刻把它转成机器人能执行的指令。如果翻译错了,机器人会报错,翻译官就得重新翻。
  2. “导航员” (Next Step Generator)

    • 任务:当学生卡住或者走错路时,导航员会思考:“接下来怎么走才能赢?”它会生成下一步的正确指令。
    • 比喻:就像 GPS 导航。如果你走错了,它不会直接把你扔在终点(直接给答案),而是会重新规划路线,告诉你:“前面路不通,试着往左拐,那里有一条新路。”
  3. “教练” (Feedback Generator)

    • 任务:把后台裁判(Lean)的报错信息,翻译成学生能听懂的鼓励或提示。
    • 比喻:如果裁判说“第 3 行语法错误”,教练会对学生说:“你的第三步逻辑有点跳跃,试着把那个‘因为’说得更清楚一点,或者检查一下有没有漏掉什么条件。”它绝不直接把答案甩给你,而是引导你自己发现错误。

3. 他们是怎么测试的?(PeanoBench 数据集)

为了训练和测试这个系统,作者们自己造了一个“训练场”,叫 PeanoBench

  • 这就像是一个数学证明的“驾校”。里面有 371 个练习题(关于自然数加法的证明)。
  • 每个题目都有“标准答案”(老师写的)和“学生常见错误答案”(故意写错的)。
  • 作者们特意模拟了不同性格的学生(有的喜欢列算式,有的喜欢讲道理),让系统学会应对各种说话风格的学生。

4. 结果怎么样?(实验发现)

  • 优点:LeanTutor 在识别学生错误和给出相关提示方面,比直接用 AI 聊天机器人要靠谱得多。它不会像普通 AI 那样直接泄露答案,而是真的在“教”学生。
  • 挑战
    • 翻译很难:把学生模糊的大白话精准翻译成严谨代码,有时候还是会翻车。如果翻译错了,后面的裁判就会误判。
    • 依赖参考答案:目前系统还需要老师先提供一个标准答案作为参考,才能发挥最大作用。如果老师还没想好怎么证,系统就有点懵。

5. 总结与未来

LeanTutor 就像是一个“有良心的 AI 助教”。它利用大语言模型(LLM)的沟通能力,加上形式化证明工具(Lean)的严谨性,试图在“好说话”和“讲道理”之间找到完美的平衡点。

未来的目标
作者希望把这个系统真正放进大学的数学课堂里。未来的改进方向包括:

  • 让“翻译官”更聪明,能处理更复杂的证明。
  • 让系统在没有老师提供标准答案的情况下,也能自己探索解题路径。
  • 最重要的是,让人机协作更自然,让学生觉得是在和一个懂数学的真人教练对话,而不是在和机器较劲。

一句话总结
LeanTutor 试图给数学证明教学装上一个**“防忽悠”的过滤器**,让 AI 既能像朋友一样聊天,又能像法官一样公正,帮助学生真正掌握逻辑推理,而不是仅仅抄到一个看似正确的答案。