ReasonXL: Shifting LLM Reasoning Language Without Sacrificing Performance

该论文提出了首个大规模跨语言推理语料库 ReasonXL,并通过监督微调结合可验证奖励强化学习的方法,成功使大语言模型能够在不牺牲性能的前提下完全切换至目标语言进行推理,同时揭示了模型在适应过程中早期层决定语言身份而深层负责适应性变化的功能分工机制。

Daniil Gurgurov, Tom Röhr, Sebastian von Rohrscheidt, Josef van Genabith, Alexander Löser, Simon Ostermann

发布于 2026-04-15
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文讲述了一个关于如何让大型人工智能(LLM)“说人话”——特别是用非英语语言进行深度思考——的故事。

想象一下,你请了一位非常聪明的国际顾问(大语言模型)。这位顾问学识渊博,但他有一个奇怪的怪癖:无论你用中文、德语还是西班牙语问他问题,他脑子里的“思考过程”(推理)永远是用英语进行的,最后才把结论翻译成你的语言。

这就好比你让他用中文写日记,他脑子里却在用英语写,最后再翻译给你看。这导致两个问题:

  1. 不透明: 你看不懂他是怎么得出这个结论的,因为他的“内心独白”你听不懂。
  2. 有损耗: 就像翻译机器一样,中间经过“英语”这个中转站,可能会丢失一些微妙的文化含义或逻辑细节,导致回答不够精准。

这篇论文《ReasonXL》就是为了解决这个问题,它做了三件大事:

1. 造了一本“多语言思维百科全书” (ReasonXL 数据集)

以前,我们只有英语的“思维训练题”,其他语言的题目很少,或者没有详细的思考步骤。

  • 比喻: 就像以前只有英语版的《如何解数学题》的教科书,而且里面全是“先想英语,再翻译”的步骤。
  • 做法: 作者们收集并翻译了超过 200 万条 高质量的推理数据,涵盖了英语、德语、法语、意大利语和西班牙语。这就像为每种语言都专门编写了一套完整的、带详细解题步骤的教科书。
  • 规模: 这个数据集非常大,每种语言都有约 90 亿个单词(Token),而且还在不断扩充。

2. 训练模型“换脑” (两阶段训练法)

有了教材,怎么让模型学会用目标语言思考呢?作者设计了一个简单的“两步走”训练计划:

  • 第一步: supervised Fine-Tuning (SFT) —— “死记硬背模仿秀”
    • 做法: 让模型大量阅读那些用目标语言(比如德语)写思考过程的题目,并模仿着写。
    • 结果: 模型学会了用德语思考,但它变得有点“笨”了,因为强行改变习惯让它原本擅长的解题能力下降了。就像让一个习惯用右手写字的人突然改用左手,字虽然写出来了,但写得很难看。
  • 第二步:Reinforcement Learning (RL) —— “实战演练与奖励”
    • 做法: 给模型出一些有标准答案的难题(比如数学题)。如果它用德语思考并答对了,就给它发“糖果”(奖励);如果答错了或者又偷偷变回英语,就扣“糖果”。
    • 神奇之处: 经过这一步,模型不仅完全用德语思考,而且解题能力甚至比之前用英语思考时还要强!它找回了丢失的智商,还保留了新习惯。

3. 给模型做了个"CT 扫描” (机制分析)

作者很好奇:模型到底是怎么发生这种变化的?他们把模型“拆开”看(分析神经网络内部),发现了一个有趣的分工现象

  • 早期层(前几层):像“语言开关”
    • 比喻: 就像大楼的一楼大堂。这里有一个“语言安检门”。一旦模型决定用德语,这个开关就会在很早期的阶段就把“英语通道”关掉,把“德语通道”打开。
    • 发现: 只要修改这几层的设置,就能决定模型是用英语还是德语说话。
  • 深层(后几层):像“核心大脑”
    • 比喻: 就像大楼的顶层办公室。这里负责具体的逻辑推理、计算和写答案。
    • 发现: 虽然大部分参数的变化发生在这些高层,但它们主要是在优化“如何把德语逻辑算得更准”,而不是决定“说什么语言”。
  • 结论: 语言的选择其实是在很浅的层面决定的,而真正的智力活动是在深层完成的。这就像你决定用中文还是英文写信(浅层决定),但信里的智慧和逻辑(深层内容)是通用的。

总结

这篇论文告诉我们:

  1. 打破英语霸权: 大模型完全可以直接用非英语语言进行高质量的推理,不需要经过英语这个“中转站”。
  2. 性能不降反升: 只要数据够好、训练方法对,用母语思考甚至能让模型变得更聪明。
  3. 未来可期: 这为让 AI 更懂不同文化、更透明地展示思考过程打开了大门。

简单来说,作者们不仅给 AI 造了多语言的“思维教材”,还教会了它如何直接用母语“动脑筋”,并且发现这并不会让它变笨,反而可能让它更聪明。

在收件箱中获取类似论文

根据您的兴趣定制的每日或每周摘要。Gist或技术摘要,使用您的语言。

试用 Digest →