Robust Reasoning Benchmark

Each language version is independently generated for its own context, not a direct translation.

这篇论文就像是一次给大语言模型（LLM）做的"压力测试"，目的是看看这些聪明的 AI 到底是真的在“思考”，还是只是在“死记硬背”和“认字”。

想象一下，现在的 AI 就像是一个超级学霸，在标准的数学考试（比如 AIME 2024 数据集）里能拿满分。大家以为它真的懂了数学逻辑。但这篇论文的作者们觉得：“等等，它可能只是太熟悉试卷的排版格式了，而不是真的懂数学。”

于是，他们给这些 AI 出了一套"变态版"的试卷，看看它们会不会“翻车”。

1. 核心实验：给题目“整容”

作者们没有改变题目的数学难度，也没有改数字，而是对题目的文字样子进行了 14 种“整容手术”。这就好比把一道数学题：

倒着写（像照镜子一样）。
把字打散，像蛇一样蜿蜒排列在格子里。
把两个题目的字穿插在一起（像把两盘面条搅在一起），让你只解其中一盘。
加一些废话，比如把“最小”改成“不不不最小”（双重否定等于肯定，但看着很乱）。

关键点：对人类来说，只要看一眼规则，把字还原一下，这题还是原来的题，难度没变。但对 AI 来说，这些“整容”就像给它的眼睛戴上了哈哈镜。

2. 实验结果：学霸的“真面目”

测试了 8 个最顶尖的模型（包括 OpenAI 的 GPT-5.4、Google 的 Gemini、Anthropic 的 Claude，以及几个开源模型）。结果非常惊人：

闭源大厂模型（如 GPT-5.4, Gemini）：表现很稳。哪怕题目被“整容”了，它们依然能解出 90% 以上的题。这说明它们真的有点“脑子”，能透过现象看本质。
开源模型（如 Qwen, Nemotron）：惨不忍睹。一旦题目格式变了，它们的准确率直接从 80% 跌到 0% 甚至 1%。
- 比喻：这就像是一个只会背课文的学生，老师把课文的字体从宋体换成手写体，或者把字序打乱，他就完全认不出来了，以为题目变了，直接放弃。

结论：很多开源模型所谓的“推理能力”，其实是对标准文字格式的过度拟合。它们不是在推理，而是在“认字”。

3. 第二个发现：大脑会“内存溢出”

作者还做了一个实验：让 AI 在同一个对话框里连续解 10 道数学题。

现象：解第 1 题时，AI 很聪明；解到第 5 题、第 8 题时，准确率开始下降；到了最后一题，很多模型直接“脑子短路”，算错了。
原因：这就好比你的工作记忆（Working Memory）被之前的解题过程“污染”了。AI 在思考第 1 题时留下的痕迹，像垃圾一样堆积在它的“大脑”里，干扰了它思考第 10 题。
比喻：就像你在一个满是灰尘的黑板上写字。写第一行很清晰，写到第十行时，前面的粉笔灰（之前的推理步骤）把新写的字都盖住了，导致你看不清，算错了。

4. 未来的方向：给大脑装个“清空键”

这篇论文提出了一个非常重要的观点：
目前的 AI 架构（基于“注意力机制”）就像是一个没有清理功能的黑板。它把所有信息都堆在一起，导致前面的思考会干扰后面的思考。

未来的解决方案：
我们需要给 AI 设计一种"上下文重置"机制。

比喻：就像电脑玩游戏时，每过一关就要存档并清空内存，准备下一关。或者像人类解题时，做完一道题，把草稿纸擦干净，再开始下一道。
作者建议，未来的 AI 应该在它的“思考链条”（Chain-of-Thought）里，主动地、显式地切断上一题的干扰，把“工作记忆”清空，这样才能真正可靠地进行复杂推理。

总结

这篇论文告诉我们：

现在的 AI 很脆弱：很多模型只是“格式识别器”，换个写法就傻了。
记忆会污染：连续思考会让 AI 越做越错，因为前面的思考过程干扰了后面。
未来需要“清空键”：要造出真正聪明的 AI，不能只靠堆参数，还得给它们设计“擦黑板”的能力，让它们在每一步推理时都能保持头脑清醒。

简单来说，现在的 AI 像是在走钢丝，风一吹（格式一变）

Robust Reasoning Benchmark

1. 核心实验：给题目“整容”

2. 实验结果：学霸的“真面目”

3. 第二个发现：大脑会“内存溢出”

4. 未来的方向：给大脑装个“清空键”

总结

1. 研究背景与问题 (Problem)

2. 方法论 (Methodology)

A. 14 种确定性结构扰动 (Deterministic Structural Perturbations)

B. 实验设置

3. 主要贡献 (Key Contributions)

4. 关键结果 (Results)

A. 鲁棒性差距 (Frontier vs. Open-Weights)

B. 对齐问题 (Alignment Issues)

C. 查询内注意力稀释 (Intra-Query Attention Dilution)

D. 推理效率与认知震荡 (Cognitive Thrashing)

5. 意义与展望 (Significance)

Robust Reasoning Benchmark

1. 核心实验：给题目“整容”

2. 实验结果：学霸的“真面目”

3. 第二个发现：大脑会“内存溢出”

4. 未来的方向：给大脑装个“清空键”

总结

1. 研究背景与问题 (Problem)

2. 方法论 (Methodology)

A. 14 种确定性结构扰动 (Deterministic Structural Perturbations)

B. 实验设置

3. 主要贡献 (Key Contributions)

4. 关键结果 (Results)

A. 鲁棒性差距 (Frontier vs. Open-Weights)

B. 对齐问题 (Alignment Issues)

C. 查询内注意力稀释 (Intra-Query Attention Dilution)

D. 推理效率与认知震荡 (Cognitive Thrashing)

5. 意义与展望 (Significance)

类似论文

GNN-as-Judge: Unleashing the Power of LLMs for Graph Learning with GNN Feedback

Memory-Guided Trust-Region Bayesian Optimization (MG-TuRBO) for High Dimensions

QuanBench+: A Unified Multi-Framework Benchmark for LLM-Based Quantum Code Generation

Ranked Activation Shift for Post-Hoc Out-of-Distribution Detection

Silhouette Loss: Differentiable Global Structure Learning for Deep Representations