Tiny Recursive Reasoning with Mamba-2 Attention Hybrid

本文提出了一种将 Mamba-2 状态空间模型与递归推理框架相结合的混合架构,在保持参数规模相当的情况下,通过替换 Transformer 模块显著提升了模型在 ARC-AGI-1 任务上的候选解覆盖率和整体性能,证明了 SSM 算子适用于递归推理设计。

Wenlong Wang, Fergal Reid

发布于 2026-03-16
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文讲述了一个关于**“如何让小模型变得更聪明”的有趣故事。为了让你轻松理解,我们可以把人工智能(AI)想象成一个正在解谜题的“思考者”**。

1. 背景:小个子也能有大智慧?

以前,大家认为 AI 要变聪明,就得像盖摩天大楼一样,把模型做得巨大无比(参数越多越好)。但最近的研究发现,其实不需要那么大的“大脑”,只要给模型更多的“思考时间”,让它反复琢磨,小模型也能解决非常抽象的难题(比如 ARC-AGI 这种像智力测试一样的图形谜题)。

这就好比一个小侦探,虽然经验不如老侦探丰富,但如果给他足够的时间,让他把线索在脑海里反复推演、修正,他也能破案。

2. 核心问题:换一种“思考方式”行不行?

这篇论文的作者(来自 Intercom 的 Wenlong Wang 和 Fergal Reid)提出了一个大胆的想法:

  • 原来的做法:小侦探(Tiny Recursive Model, TRM)在思考时,使用的是**“注意力机制”(Transformer)。这就像侦探在脑海里把线索“全盘扫描”**,同时看所有信息,互相联系。
  • 新的尝试:他们想试试用**"Mamba-2"。Mamba-2 是一种新的技术,它的特点是“像流水一样”,信息是一个接一个流过的(状态空间模型)。这就像侦探“按顺序”**一步步检查线索,先看完第一个,再想第二个。

疑问是:如果把侦探的“全盘扫描”能力换成“按顺序检查”的能力,他还能保持那么聪明吗?甚至会不会更聪明?

3. 实验设计:给侦探换件“新衣服”

为了公平比较,作者做了一个非常精细的实验:

  • 保持体重不变:他们确保新旧两个模型的大小(参数量)几乎一模一样(都是约 680 万参数),就像给两个侦探穿了一模一样重的衣服,只换里面的“思考肌肉”。
  • 混合模式:他们没有完全抛弃“全盘扫描”,而是做了一个混合体(Hybrid)。这个新模型既有 Mamba-2 的“按顺序流”能力,又保留了部分“注意力”能力,确保它不会漏掉关键信息。

4. 实验结果:新侦探的表现如何?

他们在三个不同的“考场”进行了测试:

  • 考场 A:ARC-AGI(抽象推理,最难)

    • 结果:新模型(Mamba-2 混合版)表现更好
    • 具体表现:在官方评分标准(Pass@2,即给两次机会猜对)上,它比旧模型高了 2%
    • 更惊人的是:如果给更多次机会(比如 100 次),新模型的优势会扩大到 4.75%
    • 这意味着什么? 旧模型虽然也能猜对,但新模型**“猜对的方案更多样”**。它就像是一个更博学的侦探,能提出更多种可能的解法,其中包含正确答案的概率更高。
  • 考场 B:数独(Sudoku,规则严格)

    • 结果:旧模型(纯注意力)表现更好。
    • 原因:数独需要瞬间看清整个网格的关联,这时候“全盘扫描”比“按顺序流”更有效。
  • 考场 C:迷宫(Maze,路径寻找)

    • 结果:新模型(Mamba-2 混合版)大获全胜,旧模型甚至完全失败。
    • 原因:迷宫需要一步步推演路径,Mamba-2 的“按顺序流”特性在这里简直是天作之合。

5. 核心发现:多样性 vs. 精准度

论文发现了一个有趣的**“权衡”**现象:

  • 旧模型(TRM-attn):像一个**“果断的决策者”**。它很自信,一旦觉得某个答案对,就把所有票数投给它。所以它第一次猜对的概率(Pass@1)很高,但备选方案比较单一。
  • 新模型(TR-mamba2attn):像一个**“博采众长的探索者”。它生成的答案更多样化**(Candidate Coverage 更高)。虽然它第一次猜对的概率和旧模型差不多,但它**“口袋里装的正确答案更多”**。当你给它更多次机会去挑时,它总能翻出正确答案。

比喻
想象你要找一把钥匙开锁。

  • 旧模型手里只有一把钥匙,它非常确定这把是对的,直接插进去(Pass@1 高)。
  • 新模型手里有一钥匙,它不确定哪把是对的,但它把所有可能的钥匙都试了一遍。虽然它第一次插进去可能没开,但只要给它多试几次(Pass@2 或 Pass@100),它肯定能打开那把锁。

6. 总结与意义

这篇论文告诉我们:

  1. Mamba-2 可以进入“递归推理”的领域:以前大家觉得只有 Transformer(注意力机制)才能做这种反复思考的任务,现在证明 Mamba-2 这种新技术也能胜任,甚至在某些方面更强。
  2. 思考方式决定了解题风格:不同的“思考肌肉”(混合策略)适合不同类型的难题。有的擅长瞬间全局判断,有的擅长一步步推演。
  3. 未来的方向:既然 Mamba-2 本身就是一种“迭代更新”的过程,也许未来的 AI 可以把“思考”和“记忆”结合得更紧密,让模型在内部状态里直接完成推理,而不需要像现在这样一层层地“想”。

一句话总结
作者给一个小侦探换了一种新的“思考肌肉”(Mamba-2 混合技术),发现它虽然思考方式变了,但不仅没变笨,反而在解决复杂谜题时,想出的“好点子”更多了,证明了这种新技术是未来构建更聪明 AI 的有力候选者。

在收件箱中获取类似论文

根据您的兴趣定制的每日或每周摘要。Gist或技术摘要,使用您的语言。

试用 Digest →