LEDOM: Reverse Language Model

本文提出并训练了首个开源纯右向左自回归语言模型 LEDOM,发现其具备独特的推理能力,并通过结合前向似然与反向后验的“反向奖励”机制,显著提升了模型在数学推理任务中的表现并有效抑制了幻觉。

Xunjian Yin, Sitao Cheng, Yuxi Xie, Xinyu Hu, Li Lin, Xinyi Wang, Liangming Pan, William Yang Wang, Xiaojun Wan

发布于 2026-03-04
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一个非常有趣的大模型新玩法,我们可以把它想象成**“倒着讲故事”的 AI**。

通常我们用的大语言模型(比如 ChatGPT 或通义千问),就像是一个**“顺着时间线讲故事”**的人。你给它一个开头,它就顺着往下编,预测下一个字是什么。这就像我们写文章,从第一句写到最后一句。

但这篇论文提出了一个反直觉的想法:如果让 AI 从故事的结尾开始,倒着往回写,会发生什么?

作者们训练了一个叫 LEDOM 的模型,它专门练习“倒着说话”。为了让你更容易理解,我们可以用几个生动的比喻:

1. 核心概念:倒着走的“时间旅行者”

  • 普通模型(正向模型):就像**“盖房子”**。你先打地基(开头),再砌墙(中间),最后封顶(结尾)。每一步都依赖上一步。
  • LEDOM(反向模型):就像**“拆房子”或者“看侦探片”**。它先看到结局(比如“房子塌了”),然后倒推回去想:“为什么会塌?是因为地基没打好?还是因为地震?”
    • 它不是预测“接下来会发生什么”,而是预测“刚才发生了什么导致了现在的结果”。

2. LEDOM 有什么超能力?

当 AI 习惯了“倒着思考”,它发展出了一些正向模型没有的特长:

  • 神探夏洛克(逆向推理)

    • 如果你告诉它“小明辞职去创业了”,正向模型可能会顺着编:“小明很开心,他开了个店……"
    • 但 LEDOM 会倒推:“小明为什么辞职?可能是因为他在学校很努力,是家里第一个大学生,但他不喜欢银行的工作,觉得那不是他想要的生活……"
    • 比喻:正向模型是“顺着水流走”,反向模型是“逆流而上找源头”。它能更好地解释原因(这叫“溯因推理”)。
  • 把答案变问题

    • 如果你给它一个答案“她每天吃 3 个鸡蛋”,正向模型可能不知道说什么。
    • LEDOM 能立刻倒推出一个完美的问题:“如果她每天吃 3 个鸡蛋,一周吃多少个?”
    • 比喻:就像玩“你画我猜”,正向模型是“猜词”,反向模型是“出题”。
  • 解决“反转诅咒”

    • 普通模型有个毛病:如果它知道“李白是诗人”,它可能不知道“诗人是李白”(虽然这听起来很傻,但大模型确实会犯这种错)。
    • LEDOM 因为天天练习“倒着看”,所以它天然就懂这种双向关系,不会犯这种低级错误。

3. 它的弱点是什么?

当然,凡事都有两面性。LEDOM 虽然擅长“倒推”,但在**“顺流而下”**的任务上就有点笨手笨脚:

  • 写代码:写代码必须一步步来,先定义变量,再写逻辑。让一个习惯“倒着看”的 AI 去写代码,就像让一个习惯倒着走路的人去走正步,它容易晕,代码写出来全是错。
  • 查事实:如果你问“法国的首都是哪里”,正向模型直接回答“巴黎”。反向模型得先想“巴黎”这个答案,再倒推“哦,这是法国的首都”,反应慢半拍,容易记不住。

4. 最精彩的魔法:双向验证(Reverse Reward)

这是论文最厉害的地方。作者发现,既然正向模型和反向模型看问题的角度不同,把它们结合起来,就能互相纠错。

  • 场景:想象你在做一道很难的数学题。
    • 正向模型(出题人):它给出了一个解题步骤和答案。但它可能会**“胡编乱造”**(幻觉),比如中间某一步逻辑是错的,但看起来很像那么回事。
    • 反向模型(阅卷老师):LEDOM 拿到这个答案,尝试倒着推回题目
    • 魔法时刻
      • 如果正向模型是的,反向模型就能顺滑地倒推回题目,逻辑通顺。
      • 如果正向模型是的(胡编的),反向模型在倒推时就会卡住:“等等,这个答案推不出原来的题目啊!”
    • 结果:作者发明了一个叫 "Reverse Reward"(反向奖励) 的机制。它让正向模型生成很多个答案,然后用反向模型给这些答案打分。那些“倒推回去很顺畅”的答案得分高,那些“倒推回去逻辑断裂”的胡编答案得分低。

5. 实际效果如何?

在数学竞赛(如 AMC 2023, AIME 2024)的测试中,这种“正向生成 + 反向验证”的组合拳效果惊人:

  • 在几个最强的数学模型基础上,准确率提升了 6% 到 15%
  • 比喻:就像你写文章,自己写(正向)容易有漏洞,然后找个专门挑刺的编辑(反向)帮你检查。如果编辑发现你写的故事倒着读不通,那就说明你写错了。

总结

这篇论文告诉我们:

  1. 换个角度看世界:让 AI 倒着学语言,能激发出它“解释原因”和“逆向推理”的潜能。
  2. 1+1 > 2:正向模型擅长“创造”,反向模型擅长“验证”。把它们凑一对,就能像**“侦探 + 法官”**一样,大幅减少 AI 胡说八道的情况,特别是在做数学题这种需要严密逻辑的任务上。

这就好比,以前我们只教 AI 怎么“向前看”,现在发现教它“向后看”,不仅能看清来路,还能帮它把前面的路走得更稳。