Off-Trajectory Reasoning: Can LLMs Collaborate on Reasoning Trajectory?

该论文通过“可恢复性”和“可引导性”两项测试,揭示了当前主流推理大模型在共享推理轨迹中难以有效协作的局限性,并指出其表现受蒸馏教师模型质量、强化学习及数据选择策略的显著影响。

Aochong Oliver Li, Tanya Goyal

发布于 2026-03-04
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文探讨了一个非常有趣且关键的问题:当大语言模型(LLM)不再“单打独斗”,而是需要和其他模型(或人类)一起“合作思考”时,它们表现如何?

为了让你轻松理解,我们可以把这篇论文的研究比作一场**“超级侦探破案”**的实验。

1. 背景:从“独行侠”到“侦探小队”

  • 现状(单打独斗): 现在的顶级 AI 模型(比如 DeepSeek-R1, Qwen3 等)非常聪明,它们被训练成会像侦探一样,把思考过程一步步写出来(这叫“思维链”),从而在数学和编程题上取得高分。这就像是一个独行侠侦探,独自面对案件,从头到尾自己推理。
  • 新场景(合作推理): 但在现实应用中,AI 可能会遇到这种情况:
    • 一个更强的 AI 帮它理清了思路。
    • 一个人类专家指出了它的错误。
    • 或者,它不小心读到了另一个 AI 写的、关于完全不同案件的推理笔记(被误导了)。
    • 这就好比侦探在破案时,旁边突然有人递给他一张纸条,上面写着别的案件的线索,或者另一个侦探正在帮他分析。
  • 核心问题: 这些习惯了“单打独斗”的 AI,当它们的思考过程被外部信息打断或引导时,还能保持清醒吗?论文把这种能力称为**“轨迹外推理”(Off-Trajectory Reasoning)**。

2. 核心实验:两个“压力测试”

为了测试 AI 的合作能力,作者设计了两个像“体检”一样的测试:

测试一:抗干扰能力(Recoverability)—— “被带偏后能拉回来吗?”

  • 场景: 想象一个侦探正在查案,思路很清晰。突然,有人在他耳边大声说:“等等!我觉得这个案子其实是关于外星人绑架的!”(其实这是完全无关的干扰,或者是另一个案件的推理)。
  • 目的: 看侦探能不能识破这个干扰,把思路拉回原来的案件,继续正确推理。
  • 发现(反直觉的结论):
    • 越厉害的“独行侠”,越容易晕! 那些在标准考试(Benchmark)中拿高分的顶级模型,一旦思路被打断,反而更容易“死机”或跟着错误的思路跑偏。
    • 小模型反而更稳: 一些在考试中分数稍低的小模型,面对干扰时,反而能更快反应过来:“不对,我在查的是 A 案,不是 B 案”,然后继续工作。
    • 比喻: 就像那些最资深的专家,一旦被打断思路,容易陷入“思维定势”回不来;而新手反而因为没那么多包袱,更容易跳出干扰。

测试二:被引导能力(Guidability)—— “有人给提示,能学会吗?”

  • 场景: 侦探遇到一个太难的案子,自己完全解不开。这时,一位超级专家递给他一张纸条,上面写着:“第一步应该这样想……"
  • 目的: 看侦探能不能接住这个提示,顺着专家的思路,把原本解不开的案子解开。
  • 发现(令人失望的天花板):
    • 几乎都失败了: 无论给多少提示,这些 AI 模型在数学题上几乎无法利用提示来突破自己的能力上限。
    • 原因: 它们要么看不懂提示,要么即使提示里包含了答案,它们也会因为“不自信”或者“太固执”,把正确答案当成错误的,然后自己瞎编一个错误的结论。
    • 比喻: 就像给一个不会游泳的人递上一张完美的游泳说明书,他不仅没学会,反而因为太紧张,把说明书扔了,继续在水里扑腾。

3. 为什么会出现这种情况?(幕后黑手)

作者进一步研究了 AI 是怎么“练”出来的,发现三个关键因素决定了它们是否“抗造”:

  1. 老师教得不好,学生也学不会(蒸馏效应):

    • 很多小模型是向大模型“偷师”(蒸馏)学来的。
    • 惊人发现: 如果大模型老师自己“抗干扰”能力差(容易走神),哪怕它教给学生的全是正确的解题步骤,学生也会继承这种“容易走神”的坏习惯。
    • 比喻: 就像一位虽然解题全对,但脾气急躁、容易分心的老师,教出来的学生虽然步骤是对的,但一旦遇到干扰,也会跟着老师一起分心。
  2. 强化学习(RL)是“特效药”:

    • 单纯靠模仿(监督微调)练出来的模型,抗干扰能力有上限。
    • 但如果让模型在试错中学习(强化学习 RL),让它经历“走错路 -> 被纠正 -> 回到正路”的过程,它的抗干扰能力会大幅提升
    • 比喻: 就像学骑车,光看别人骑(模仿)是不够的,必须自己摔几次跤、被扶起来再骑(强化学习),才能真正学会保持平衡。
  3. 数据太少反而不稳定(Less is More 的陷阱):

    • 最近流行一种说法:“少而精”的数据训练效果更好。
    • 发现: 用极少的高质量数据训练的模型,虽然考试分高,但状态极不稳定。有时候表现神勇,有时候一碰就碎。而用大量数据训练的模型,虽然分不一定最高,但发挥更稳定

4. 总结与启示

这篇论文告诉我们一个重要的道理:

“考试分数高”不等于“合作能力强”。

目前的 AI 模型太擅长“独自做题”了,但一旦进入多模型协作人机协作的真实场景,它们往往显得脆弱

  • 容易被误导(抗干扰差)。
  • 学不会别人的提示(引导性差)。
  • 这种弱点甚至是由训练方式(老师选得不好、训练方法单一)直接导致的。

未来的方向:
我们要训练 AI,不能只盯着它能不能做对数学题,还要专门训练它**“在被打断时如何拉回思路”以及“如何虚心接受并执行他人的正确引导”**。只有这样,未来的 AI 才能真正成为人类得力的合作伙伴,而不是一个稍微一干扰就“死机”的独行侠。

在收件箱中获取类似论文

根据您的兴趣定制的每日或每周摘要。Gist或技术摘要,使用您的语言。

试用 Digest →