mAceReason-Math: A Dataset of High-Quality Multilingual Math Problems Ready For RLVR

该论文提出了 mAceReason-Math 数据集,这是一个包含 14 种语言、每种语言超 1 万条样本的高质量多语言数学难题集,旨在填补当前强化学习验证奖励(RLVR)领域缺乏非英语训练数据的空白,以推动多语言 RLVR 研究与基准测试。

Konstantin Dobler, Simon Lehnerer, Federico Scozzafava, Jonathan Janke, Mohamed Ali

发布于 2026-03-12
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一个名为 mAceReason-Math 的新数据集。为了让你轻松理解,我们可以把这项研究想象成是在为全球的“数学天才训练营”准备一套多语言的超级教材

以下是用通俗语言和生动比喻对这篇论文的解释:

1. 背景:为什么我们需要这个?

想象一下,现在的 AI(大语言模型)就像一个个正在上学的学生。最近,科学家发现了一种叫 RLVR(带可验证奖励的强化学习)的“特训方法”,能让这些学生在数学和逻辑方面突飞猛进。

但是,目前的特训教材(数据集)有个大问题:它们全是英文的

  • 这就好比全世界只有英语国家的学生能参加这个特训,其他语言的学生只能看着别人进步,自己却找不到合适的题目练手。
  • 以前的多语言数学题太简单了,就像给大学生发小学一年级的算术题,根本练不出真本事。

2. 解决方案:mAceReason-Math 是什么?

为了解决这个问题,苹果的研究团队(来自 Apple 和 Hasso Plattner 研究所)打造了一个多语言数学题库

  • 素材来源:他们从一本英文的“奥数天书”(AceReason-Math)里挑出了最难的题目。
  • 规模:他们把这本天书翻译成了 14 种语言(包括中文、德语、日语、俄语、泰语等),每种语言都有 1 万多道 高质量题目,总共超过 14 万道
  • 核心目标:让不同语言的学生都能用母语进行高强度的数学思维训练。

3. 制作过程:如何保证质量?

把高难度的数学题从英文翻译成其他语言,就像把精密的瑞士手表拆解后,用另一种语言重新组装,稍有不慎,手表就不走了。

他们采用了一套“人机结合”的严格流程:

  1. 大扫除(数据清洗)

    • 先像淘金一样,把英文原题里那些“坏掉”的矿石扔掉。比如:题目里直接泄露了答案、题目依赖缺失的图片、或者题目本身逻辑不通的。
    • 比喻:就像在翻译前,先把书里那些印刷错误、缺页或者没写完的句子都修好。
  2. AI 翻译 + 人类专家审核

    • 他们先用强大的 AI(Claude Sonnet 4)进行翻译。
    • 然后,母语专家(比如以德语为母语的人)来当“阅卷老师”。他们不仅看翻译通不通顺,还要看数学味道对不对。
    • 关键点:数学符号(如 x2x^2)绝对不能乱改,但数字的写法要符合当地习惯(比如德国人写数字用逗号做小数点,美国人用点)。
  3. 反复打磨

    • 如果 AI 翻译得不好,就让它重写,直到人类专家满意为止。
    • 比喻:这就像拍电影,AI 是初剪版,人类专家是导演,不满意就喊"Cut",让 AI 重拍,直到画面完美。

4. 成果:这个数据集长什么样?

  • 平行数据:他们精心整理了一个“平行子集”,里面有 7620 道题,这 7620 道题在 14 种语言里都有对应的版本。这意味着你可以公平地比较:同一个问题,用中文问 AI 和用德语问 AI,谁答得更好?
  • 测试集:还有一小部分题目经过了最严格的人工复核,用来当“期末考试”的试卷。

5. 实验结果:AI 学得怎么样?

研究者拿这个数据集去测试了各种 AI 模型:

  • 大模型更强:就像学生一样,模型越大,通常数学越好。
  • 语言差异:有些模型在英语上表现神勇,但一换成小语种(比如斯瓦希里语或泰卢固语),成绩就断崖式下跌。这说明目前的 AI 在“多语言数学推理”上还有很大的提升空间。
  • 意外发现:某些专门经过推理训练的模型(如 Qwen3),即使在非英语环境下也表现惊人,说明数学逻辑是可以跨越语言障碍的。

总结

简单来说,mAceReason-Math 就是给全球 AI 研究社区送了一份**“多语言数学奥林匹克题库”**。

以前,大家只能用英文训练 AI 做数学题,现在,无论 AI 是用中文、法语还是日语思考,都能找到同样高难度的题目来锻炼大脑。这将帮助科学家研究如何更好地让 AI 跨越语言障碍,真正变得“博学多才”。

数据已开源:研究者已经把这套教材免费放到了 GitHub 上,欢迎全世界的开发者来下载和使用。