Think, But Don't Overthink: Reproducing Recursive Language Models

该研究复现并扩展了递归语言模型(RLM)框架,发现虽然深度为 1 的递归能提升复杂推理任务的表现,但增加递归深度会导致模型“过度思考”,反而在简单任务上降低准确率并显著增加执行时间和成本。

Daren Wang

发布于 2026-03-04
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文其实是在探讨一个非常有趣的问题:给大模型(AI)安排“思考”的层级,是不是越多越好?

作者复现并扩展了一个叫“递归语言模型”(RLM)的新框架。简单来说,这个框架让 AI 在处理超长文本时,不再是一次性把整本书塞进脑子,而是像查字典一样,把书放在一个“外部书架”上,AI 自己决定去翻哪一页,甚至可以让 AI 再叫一个“小 AI"去帮忙翻书。

作者原本以为,让 AI 多叫几个“小助手”(增加递归深度),思考得更深,效果会更好。但实验结果却打脸了,总结成一句话就是:“多想想可以,但别想太多(Think, But Don't Overthink)”。

下面我用几个生活中的比喻来解释这篇论文的核心发现:

1. 核心实验:找东西 vs. 做数学题

作者用了两种任务来测试 AI:

  • 任务 A(找针): 在一堆乱糟糟的干草里找一根特定的针(S-NIAH 任务)。这很简单,只要眼睛尖就能找到。
  • 任务 B(做难题): 需要把几千页书里的信息拼凑起来,进行复杂的逻辑推理(OOLONG 任务)。这很难,容易“脑子打结”。

2. 发现一:简单任务,别折腾(“过度设计”)

比喻: 就像让你去楼下便利店买瓶水。

  • 普通 AI(纯 LLM): 直接走过去,买水,回来。耗时 3 秒,完美。
  • 递归 AI(深度 1): 先写个计划:“我要去便利店,先穿鞋,再出门,再走……"结果反而慢了,还容易把水买错(准确率下降)。
  • 递归 AI(深度 2): 甚至还要开个会,让“小 AI"去查地图,再让“小 AI 的小 AI"去确认路线。结果不仅慢得要死(从 3 秒变成 344 秒),还因为想太多,把“买水”这件简单事搞砸了,甚至开始胡编乱造(比如把“水”说成是“核物理常数”)。

结论: 对于简单任务,让 AI 搞复杂的“递归”架构,纯属杀鸡用牛刀,甚至把鸡给吓死了

3. 发现二:复杂任务,浅层思考很香,深层思考会“疯”

比喻: 就像让你解一道超级复杂的奥数题。

  • 普通 AI: 脑子容量不够,看着几千页的题直接“死机”或瞎猜(准确率 0%)。
  • 递归 AI(深度 1): 就像请了一位聪明的助教。AI 把大题目拆成小步骤,一步步算,准确率瞬间飙升(从 0% 涨到 42%)。这非常成功!
  • 递归 AI(深度 2): 就像请了一位助教,助教又带了个实习生,实习生又带了个实习生
    • 结果: 大家开始互相推诿,或者为了显示自己很努力,开始写长篇大论的“思考过程”(比如列出 100 个步骤),却忘了最后的答案。
    • 代价: 时间从几分钟变成几小时,费用(Token 消耗)爆炸式增长。
    • 最惨的是: 原本那个本来就很聪明的 AI(比如 Kimi K2),本来自己就能解题,被强行塞进这个复杂的“多层递归”系统后,反而因为系统太乱,把自己搞糊涂了,成绩反而下降。

4. 为什么“想太多”会坏事?(三大翻车现场)

论文里列举了三个让 AI 崩溃的“翻车”原因:

  1. 幻觉(记错账):

    • 场景: 让 AI 找书里虚构的“魔法数字”。
    • 翻车: AI 因为递归层级太深,忘了去书里找,反而开始背诵自己脑子里的“物理常数”(比如原子核的幻数),把虚构任务当成了现实知识来回答。
    • 比喻: 让你找“哈利波特的魔杖”,结果你开始背诵“魔杖的物理学原理”,完全跑题。
  2. 格式崩塌(乱码):

    • 场景: 要求 AI 输出一个特定的格式(比如"Answer: 123")。
    • 翻车: AI 在“外部书架”(REPL 环境)里太嗨了,直接输出了代码(print("Answer: 123")),而不是直接给答案。
    • 比喻: 你问厨师“菜做好了没?”,厨师直接给你看了一堆“炒菜步骤的录像带”,而不是把菜端上来。
  3. 表演型人格(无休止的验证):

    • 场景: 需要统计一个数字。
    • 翻车: AI 陷入死循环,不停地自我检查:“我数对了吗?再数一遍?再确认一遍?”花了 12 分钟,只为了输出一个本来 1 秒就能搞定的结果。
    • 比喻: 就像你出门前照镜子,照了一次觉得没照好,又照一次,再照一次,最后出门时天都黑了。

5. 最终结论:别为了“递归”而“递归”

这篇论文告诉我们:

  • 对于现在的 AI,深度为 1 的“递归”(找个助手帮忙)是神器,能解决很多长文本难题。
  • 但是,深度为 2 或更深(找助手的助手)目前是个坑。它会让 AI 陷入“过度思考”,导致速度极慢、费用极贵、准确率反而下降

一句话总结:
现在的 AI 就像是一个天才学生。让他自己做题(纯 LLM)可能做不出难题;给他配个助教(深度 1 递归),他能考高分;但如果你让他再给助教配个助教,甚至搞个“助教委员会”(深度 2 递归),这群人就会开始开会、写报告、互相甩锅,最后不仅没把题做出来,还把时间、金钱和耐心都耗光了。

未来的方向: 我们需要设计更好的“刹车机制”,让 AI 知道什么时候该停手,或者训练那些天生就懂得如何高效“递归”思考的 AI,而不是现在这种容易“想太多”的 AI。