Each language version is independently generated for its own context, not a direct translation.

这篇论文就像是在给大语言模型（LLM）做一场"心理体检"，测试它们在面临选择时，到底是不是真的“聪明”，还是说它们其实有点“死脑筋”。

为了让你轻松理解，我们可以把这篇研究想象成一场**“星际寻宝游戏”**。

1. 游戏设定：两个星球的宝藏

研究人员让 AI 扮演一个太空探险家，面前有两个星球：X 星球和Y 星球。

任务：在 100 轮游戏中，每次只能去一个星球，目标是挖到最多的金币。
规则：
- 情况 A（对称模式）：两个星球挖到金币的概率一样（都是 25%）。这时候，最聪明的做法是随机去，或者两边都去，保持灵活。
- 情况 B（不对称模式）：X 星球很容易挖到金币（75%），Y 星球很难（25%）。这时候，最聪明的做法是主要去 X，但偶尔也要去 Y 看看，以防万一 X 突然变差了。

研究人员测试了三种主流 AI（DeepSeek, GPT-4.1, Gemini），并调整了它们的“性格参数”（比如让回答更随机一点，还是更确定一点），看看它们会怎么做。

2. 惊人的发现：AI 的“死脑筋”症候群

发现一：哪怕两个选项一样好，AI 也会“钻牛角尖”

在情况 A（两个星球概率一样）时，人类玩家会随机选择，大概各占一半。
但 AI 呢？它们表现得像**“强迫症患者”**：

现象：如果 AI 第一次碰运气去了 X 星球并挖到了金币，它就会死心塌地地只去 X 星球，哪怕 Y 星球其实也一样好。
比喻：就像你在两家餐厅吃饭，两家味道其实一模一样。但如果你第一次在 A 店吃到了好吃的，你就再也不去 B 店了，哪怕 B 店其实也做得很好。AI 把这种“偶然的运气”当成了“绝对的真理”，变得非常固执。

发现二：哪怕知道哪个更好，AI 也“拒绝回头”

在情况 B（X 星球明显更好）时，AI 确实找到了 X 星球，并且大部分时间都去那里。

现象：但是，它们几乎从不去检查 Y 星球。哪怕 Y 星球偶尔也有惊喜，AI 也懒得去验证。
比喻：这就像你发现了一条回家的近路（X），虽然偶尔会有堵车，但你永远不再走那条稍微远一点的老路（Y）去确认一下路况。结果就是，一旦那条近路突然封路了，你就彻底懵了。AI 表现得极其自信，但缺乏灵活性。

3. 为什么 AI 会这样？（核心秘密）

研究人员给 AI 做了一次“数学解剖”，发现它们的大脑运作机制有两个致命问题：

学得太慢（低学习率）：
- 比喻：AI 的记性像**“慢吞吞的乌龟”**。即使它发现 X 星球今天没金币了，它也要过很久很久才肯相信“哦，原来 X 变了”。它太依赖第一次的经验了。
太自信（高逆温度）：
- 比喻：AI 的决策像**“铁板一块”**。一旦它觉得 X 好，它就会 100% 确定地选 X，完全不给“万一”留余地。它不像人类那样会想“也许今天试试 Y 也不错”。

关键点：研究人员尝试了各种方法（比如调高“随机性”参数），想让 AI 灵活一点。结果发现，不管怎么调，AI 这种“死脑筋”的本质都没变。就像给一辆生锈的自行车换个新铃铛，它还是骑不快。

4. 这对我们人类意味着什么？

这篇论文最后提出了一个很严肃的警告：当 AI 成为我们的“顾问”时，可能会带偏我们。

场景：假设你问 AI：“我该投资 A 股票还是 B 股票？”
风险：
- 如果 AI 第一次碰巧猜对了 A，它可能会极其自信地告诉你：“必须选 A！B 绝对不行！”（因为它太固执，不检查 B 的可能性）。
- 如果你信了，你就可能过早地锁定在一个选项上，错过了更好的机会，或者在情况变化时无法及时止损。
结论：AI 的“自信”可能只是**“虚假的确定性”**。它们看起来很有主见，但实际上可能只是被早期的随机性给“带偏”了，而且很难被纠正。

总结

这篇论文告诉我们：现在的 AI 在需要做决策时，有点像“固执的赌徒”。
它们一旦认准了一个方向，就很难回头；它们把“运气”当成了“实力”，把“偶尔的尝试”当成了“错误的浪费”。

给普通人的启示：
当你让 AI 帮你做决定（比如选专业、选工作、选投资）时，不要因为它语气太自信就全信。要记得，它可能只是在“死磕”它第一次碰到的那个选项，而忽略了其他可能更好的路。你需要做那个**“偶尔去 Y 星球看看”**的人，帮它打破僵局。

Each language version is independently generated for its own context, not a direct translation.

论文技术总结：LLM 二臂老虎机中的僵化性及其对人类-AI 协作的影响

1. 研究背景与问题 (Problem)

随着大语言模型（LLM）被广泛嵌入到交互式场景中作为人类的决策助手，现有的基准测试主要关注模型的准确性，却忽视了模型在交互过程中表现出的决策倾向性（decision tendencies）。

核心问题：LLM 是否表现出鲁棒的决策偏差？这些偏差（如僵化性、过度自信、探索不足）如何影响人类-AI 协作（Human-AI Dyads）？
研究动机：当人类与有偏见的 AI 系统交互时，人类的判断可能会随之变得更加有偏见，而用户往往未意识到这种影响。因此，需要一种机制来探测 LLM 在不确定性下的行为模式。

2. 方法论 (Methodology)

2.1 实验设计

研究者将 LLM 视为“参与者”，在**二臂老虎机（Two-arm Bandits）**任务中进行测试。

模型对象：DeepSeek, GPT-4.1, Gemini-2.5。
实验规模：每个模型在每个条件下运行 $N=200$ 次独立模拟，每次模拟包含 $T=100$ 轮试验。
任务设置：
- 对称奖励条件：两个选项（X 和 Y）的中奖概率相等（ $p_X = p_Y = 0.25$ ）。理想情况下应随机选择（50/50）。
- 非对称奖励条件：一个选项明显优于另一个（ $p_X = 0.75, p_Y = 0.25$ ）。理想情况下应主要选择 X，但需偶尔检查 Y 以防万一。
解码配置（Decoding Configurations）：通过调节两个参数构建四种策略：
1. Strict (严格): Temp=0.0, Top-p=0.5
2. Moderate (中等): Temp=1.0, Top-p=0.5
3. Default-like (默认): Temp=1.0, Top-p=1.0
4. Exploratory (探索): Temp=2.0, Top-p=1.0
  注：Top-k 保持提供商默认值。

2.2 行为指标与统计

计算了多项行为指标，包括：

总奖励 (Total Reward)
目标臂选择率 (Target-arm Rate)
损失/获胜后切换概率 (Loss-Shift / Win-Shift)
选择偏差指数 (Choice Bias Index)
固执率 (Stubbornness Rate)：选择极度偏向某一侧的比例。
僵化指数 (Rigidity Index)：$1 - \text{Loss-Shift}$，衡量在失败后是否坚持原策略。

2.3 计算建模 (Computational Modelling)

为了从机制上解释观察到的模式，研究者在 Stan 中拟合了分层 Rescorla-Wagner 学习模型结合 Softmax 策略：

价值更新： $V_{t+1}(a) = V_t(a) + A_i (r_t - V_t(a))$ ，其中 $A_i$ 为学习率。
选择概率： $P(Y_t = 1) = \text{logit}^{-1}(\tau_i [V_t(Y) - V_t(X)])$ ，其中 $\tau_i$ 为逆温度（Inverse Temperature），控制选择的确定性。
推断：通过分层贝叶斯推断估计群体水平的学习率均值 ( $\mu_A$ ) 和逆温度均值 ( $\mu_\tau$ )。

3. 主要结果 (Key Results)

3.1 对称奖励条件下的表现 (Ambiguity)

位置偏差放大：在奖励相等的情况下，LLM 未能保持 50/50 的随机选择，而是将初始的位置顺序（如第一个选项是 X）放大为顽固的单臂策略（Stubborn one-arm policies）。
僵化性：在严格解码策略下，模型表现出极高的固执率（>90%）和僵化指数（接近 1.0），几乎从不切换选项，即使早期选择是错误的。
解码参数的影响：增加温度（Temperature）或 Top-p 虽然增加了行为变异性，但未能根本消除这种僵化倾向。

3.2 非对称奖励条件下的表现 (Clarity)

僵化利用：当存在明显更优选项时，LLM 确实收敛到了该选项，但表现出过度僵化的利用（Rigid Exploitation）。
缺乏重新检查：模型极少重新检查劣势选项（Loss-Shift 极低），导致其表现低于理论最优解（Oracle），尤其是在需要动态调整策略时。
Gemini 的特例：Gemini-2.5 在探索性解码（Temp=2.0）下表现崩溃，出现了大量无效输出和过度切换，表明高温度可能引发格式错误而非真正的认知探索。

3.3 计算建模发现

低学习率 ( $\mu_A$ )：群体学习率普遍较低（对称条件下约 0.09-0.22，非对称条件下约 0.17-0.33），意味着模型对新的反馈（预测误差）反应迟钝，早期波动被“锁定”。
极高逆温度 ( $\mu_\tau$ )：逆温度参数接近天花板（ $\approx 5.0$ ），表明模型的选择策略极度确定性（Deterministic）。
机制解释：**“低学习率 + 高逆温度”**的组合解释了 LLM 的行为：早期微小的随机波动被低学习率固化，随后被高确定性策略无限放大，导致既无法有效探索（在模糊时），也无法灵活调整（在清晰时）。

4. 核心贡献 (Key Contributions)

揭示了 LLM 的决策僵化性：证明了 LLM 在二臂老虎机任务中表现出系统性的决策偏差，即“将模糊性转化为顽固偏好，将清晰度转化为僵化利用”。
解码参数的局限性：指出仅通过调整温度（Temperature）和 Top-p 等常规解码参数，无法有效缓解 LLM 底层的决策僵化问题。这些参数主要改变输出的表面变异性，而非根本策略。
计算建模的验证：首次通过分层 Rescorla-Wagner 模型量化了 LLM 的决策机制，确认了其具有低学习率和高确定性的内在特征。
人类-AI 协作的风险预警：提出了 LLM 作为顾问时可能带来的风险，如“认知惯性”（Epistemic Inertia），即模型过早锁定选项并拒绝修正，可能导致人类用户产生错误的确定性信念。

5. 意义与启示 (Significance)

理论层面：挑战了“通过增加采样噪声（如提高温度）即可实现有效探索”的假设。LLM 的“探索”往往表现为格式错误或随机性，而非基于信息增益的策略性探索。
应用层面：
- 提示工程（Prompt Engineering）：提示词中的顺序效应（Order Effects）可能成为“选择架构”，直接塑造模型的输出，进而影响人类用户的判断。
- 人机协作：在医疗、金融等高风险领域，依赖 LLM 的建议可能导致“过早锁定”（Premature Lock-in）或忽视罕见但关键的替代方案。
- 未来方向：需要设计更复杂的任务（如非平稳老虎机、社会信任任务）来测试边界，并开发能够动态调整探索策略的 AI 代理，或设计能够纠正模型偏差的人类-AI 交互协议。

总结：该论文通过严谨的心理学实验范式，揭示了 LLM 在决策过程中存在一种**“认知惰性”**。这种惰性使得模型在面对不确定性时表现出非理性的固执，在面对确定性时表现出缺乏灵活性的僵化，这对构建可靠、可信赖的人机协作系统提出了严峻挑战。

Rigidity in LLM Bandits with Implications for Human-AI Dyads