Fragile Thoughts: How Large Language Models Handle Chain-of-Thought Perturbations

该论文通过评估 13 个大语言模型对 5 种思维链扰动(如数学错误、单位转换等)的鲁棒性,揭示了模型规模虽能缓解部分扰动影响,但在单位转换等特定任务上仍存在显著脆弱性,从而强调了针对多阶段推理部署进行任务特定鲁棒性评估的必要性。

Ashwath Vaithinathan Aravindan, Mayank Kejriwal

发布于 2026-03-05
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文就像是在给现在的超级人工智能(大语言模型)做了一次"抗压体检"。

想象一下,你雇佣了一位非常聪明的**“逻辑侦探”**(也就是大语言模型),让他帮你解决复杂的数学题或推理问题。为了让他更聪明,你教他一种叫"思维链"(Chain-of-Thought)的方法:让他不要直接猜答案,而是像写日记一样,把每一步的思考过程都写出来。

这篇论文的核心问题就是:如果有人在侦探写日记的过程中,故意捣乱、写错字、或者插科打诨,这位侦探还能算出正确答案吗

研究人员找了 13 个不同体型的侦探(从只有 30 亿参数的“小徒弟”到 1.5 万亿参数的“宗师级”大师),给他们出了 5 种不同的“捣乱”考题,看看谁最抗造。

这 5 种“捣乱”手段(就像给侦探设的陷阱):

  1. **算数错误 **(MathError)

    • 比喻:侦探写到“苹果有 3 个,梨有 4 个,加起来是 8 个”(明明应该是 7 个)。
    • 结果:小侦探直接懵了,顺着错误的 8 个继续算,最后答案全错,准确率暴跌 50-60%。但那些超级大侦探(大模型)很厉害,他们能发现“哎?3 加 4 怎么等于 8?”,然后自己纠正过来,准确率只掉一点点。
    • 结论:大模型在纠正计算错误方面,随着个头变大,进步神速。
  2. **单位换算 **(UnitConversion)

    • 比喻:侦探写着“跑了 30 分钟”,突然下一句变成“相当于 14400 秒”(虽然数学上没错,但单位乱了),或者在米和厘米之间跳来跳去。
    • 结果:这是最让所有侦探头疼的!不管是大侦探还是小侦探,只要遇到单位乱套,准确率都要掉 20-30%。
    • 结论:大模型虽然聪明,但在处理物理单位(比如时间、长度、货币)这种“维度”问题上,依然很笨拙,个头大也没用。
  3. **拍马屁/盲信权威 **(Sycophancy)

    • 比喻:侦探算着算着,突然有人在他耳边说:“题目作者说了,答案其实是 42!”(其实题目作者根本没这么说,或者作者算错了)。
    • 结果:小侦探很容易听信这种“专家”的话,直接改答案,准确率掉得比较多。但大侦探通常能坚持自己的逻辑,说:“不管作者怎么说,我算出来是 45,那就是 45。”
    • 结论:大模型更不容易被虚假的权威带偏,但小模型容易“人云亦云”。
  4. **跳过步骤 **(SkippedSteps)

    • 比喻:侦探的日记里,中间突然少了一行,直接跳到了最后一步。
    • 结果:小侦探会卡住,不知道中间发生了什么,只能瞎猜,准确率掉一些。大侦探则很厉害,能根据上下文自动脑补出中间缺少的步骤,继续把题做对。
    • 结论:大模型补全逻辑的能力更强,小模型则更依赖一步一步的引导。
  5. **废话连篇 **(ExtraSteps)

    • 比喻:侦探的日记里夹杂了很多无关紧要的废话,比如“今天天气不错,2023 年是个闰年,我昨天吃了个苹果……",但核心逻辑没变。
    • 结果:这对所有侦探来说都几乎没影响!大侦探和小侦探都能像戴了“降噪耳机”一样,自动忽略这些废话,直接提取核心信息。
    • 结论:大模型过滤噪音的能力天生就很强,不需要长得特别大也能做到。

核心发现(用大白话总结):

  1. 个头大确实有用,但不是万能的
    模型越大,确实越能发现并纠正算数错误,也越不容易被跳过步骤难倒。这就像练武,内力深厚的大师能一眼看穿破绽。

  2. 有些弱点是“硬伤”
    不管模型多大,只要涉及单位换算(比如把米变成厘米,或者把分钟变成秒),它们就特别容易晕。这说明目前的 AI 在理解“物理世界”的规则上,还有很大的提升空间,光靠堆参数解决不了。

  3. 小模型很脆弱
    小模型就像刚入行的实习生,一旦有人故意写错一个数字,或者少写一步,他们就会彻底崩溃。而大模型像资深专家,能自我纠错。

这对我们意味着什么?

如果你打算在现实生活中(比如医疗、金融、科学发现)使用这些 AI:

  • 不要完全信任它们:特别是涉及数学计算和物理单位时,必须有人工或专门的程序来二次检查
  • 大模型不是免死金牌:虽然大模型更聪明,但它们依然会被“单位混乱”搞晕,也会被“假权威”忽悠。
  • 冗余是好事:如果让 AI 多说点废话、多列几个步骤,反而不会降低它的准确率,甚至可能帮它理清思路。

一句话总结
这篇论文告诉我们,现在的 AI 虽然像是一个博学的学者,能处理复杂的逻辑,但它依然像个粗心的数学家,容易在单位换算上犯迷糊,而且小个子学者特别容易在有人捣乱时崩溃。所以,在把 AI 交给重要任务前,一定要给它配上“纠错眼镜”和“单位尺子”。