ReasonXL: Shifting LLM Reasoning Language Without Sacrificing Performance

Each language version is independently generated for its own context, not a direct translation.

这篇论文讲述了一个关于如何让大型人工智能（LLM）“说人话”——特别是用非英语语言进行深度思考——的故事。

想象一下，你请了一位非常聪明的国际顾问（大语言模型）。这位顾问学识渊博，但他有一个奇怪的怪癖：无论你用中文、德语还是西班牙语问他问题，他脑子里的“思考过程”（推理）永远是用英语进行的，最后才把结论翻译成你的语言。

这就好比你让他用中文写日记，他脑子里却在用英语写，最后再翻译给你看。这导致两个问题：

这篇论文《ReasonXL》就是为了解决这个问题，它做了三件大事：

以前，我们只有英语的“思维训练题”，其他语言的题目很少，或者没有详细的思考步骤。

比喻： 就像以前只有英语版的《如何解数学题》的教科书，而且里面全是“先想英语，再翻译”的步骤。
做法： 作者们收集并翻译了超过 200 万条 高质量的推理数据，涵盖了英语、德语、法语、意大利语和西班牙语。这就像为每种语言都专门编写了一套完整的、带详细解题步骤的教科书。
规模： 这个数据集非常大，每种语言都有约 90 亿个单词（Token），而且还在不断扩充。

有了教材，怎么让模型学会用目标语言思考呢？作者设计了一个简单的“两步走”训练计划：

第一步： supervised Fine-Tuning (SFT) —— “死记硬背模仿秀”
- 做法： 让模型大量阅读那些用目标语言（比如德语）写思考过程的题目，并模仿着写。
- 结果： 模型学会了用德语思考，但它变得有点“笨”了，因为强行改变习惯让它原本擅长的解题能力下降了。就像让一个习惯用右手写字的人突然改用左手，字虽然写出来了，但写得很难看。
第二步：Reinforcement Learning (RL) —— “实战演练与奖励”
- 做法： 给模型出一些有标准答案的难题（比如数学题）。如果它用德语思考并答对了，就给它发“糖果”（奖励）；如果答错了或者又偷偷变回英语，就扣“糖果”。
- 神奇之处： 经过这一步，模型不仅完全用德语思考，而且解题能力甚至比之前用英语思考时还要强！它找回了丢失的智商，还保留了新习惯。

作者很好奇：模型到底是怎么发生这种变化的？他们把模型“拆开”看（分析神经网络内部），发现了一个有趣的分工现象：

早期层（前几层）：像“语言开关”
- 比喻： 就像大楼的一楼大堂。这里有一个“语言安检门”。一旦模型决定用德语，这个开关就会在很早期的阶段就把“英语通道”关掉，把“德语通道”打开。
- 发现： 只要修改这几层的设置，就能决定模型是用英语还是德语说话。
深层（后几层）：像“核心大脑”
- 比喻： 就像大楼的顶层办公室。这里负责具体的逻辑推理、计算和写答案。
- 发现： 虽然大部分参数的变化发生在这些高层，但它们主要是在优化“如何把德语逻辑算得更准”，而不是决定“说什么语言”。
结论： 语言的选择其实是在很浅的层面决定的，而真正的智力活动是在深层完成的。这就像你决定用中文还是英文写信（浅层决定），但信里的智慧和逻辑（深层内容）是通用的。

这篇论文告诉我们：

简单来说，作者们不仅给 AI 造了多语言的“思维教材”，还教会了它如何直接用母语“动脑筋”，并且发现这并不会让它变笨，反而可能让它更聪明。

类似论文