Robust Testing Of the Allais Paradox By Paired Choices vs. Paired Valuations

Each language version is independently generated for its own context, not a direct translation.

这篇文章就像是一场关于“人类如何做决定”的侦探小说。作者们（Echenique 和 TserenJigmid）正在调查一个著名的心理学谜题：阿莱悖论（Allais Paradox），特别是其中的“共同比率效应”。

为了让你轻松理解，我们可以把这篇论文想象成一场**“测谎仪”与“新式测谎仪”的较量**。

1. 背景：人类是个“不完美”的赌徒

想象一下，你面前有两个赌局：

赌局 A：100% 拿 100 块钱。
赌局 B：80% 拿 150 块钱，20% 拿 0 块。
大多数人会选 A（求稳）。

现在，把这两个赌局都“打折”一下（比如概率都乘以 0.25）：

赌局 C：25% 拿 100 块钱，75% 拿 0 块。
赌局 D：20% 拿 150 块钱，80% 拿 0 块。
这时候，很多人反而选了 D（为了博取更高的回报，哪怕概率变小了）。

这就是“共同比率效应”： 理论上，如果你在第一组里喜欢 A 胜过 B，你在第二组里也应该喜欢 C 胜过 D。但人类经常“变卦”。

过去几十年的研究都发现，人类确实经常“变卦”，这证明了传统经济学理论（期望效用理论）是错的。

2. 新来的挑战者：MNOSS 团队

最近，有一群叫 MNOSS 的研究员跳出来挑战这个结论。他们说：

“等等！你们以前的测试方法（成对选择测试）有个大漏洞。因为人做决定时会犯错、会犹豫（也就是‘随机性’），这种测试就像是用一把生锈的尺子去量东西，量出来的‘变卦’其实可能是尺子不准造成的，而不是人真的变了。他们建议改用‘估值测试’（让人给赌局标价），说那才是精准的激光尺。”

MNOSS 用新尺子一量，发现大家其实挺理性的，并没有那么爱“变卦”。于是他们宣称：阿莱悖论可能是个误会，人类其实很理性。

3. 作者的反驳：生锈的尺子 vs. 错误的激光尺

这篇论文的作者（Echenique 和 TserenJigmid）不干了。他们仔细研究了 MNOSS 的方法，发现了一个惊人的真相：

MNOSS 换掉的不是“生锈的尺子”，而是换了一把“会乱跳的弹簧尺”。

比喻一：成对选择测试（旧方法）

以前的测试是问：“你选 A 还是 B？”然后看多少人选 A。

弱测试（Weak Test）：只要选 A 的人比选 C 的人多一点点，就算“变卦”了。
强测试（Strong Test，作者提倡的）：只有当超过一半的人选 A，且超过一半的人选 D（而不是 C）时，才算真正的“变卦”。

作者发现，MNOSS 批评的“弱测试”确实容易受噪音干扰（就像尺子生锈），但作者提出用**“强测试”**。这就像是在嘈杂的房间里听人说话：

弱测试：只要听到有人喊“选 A"，就以为大家都选 A。
强测试：必须听到超过一半的人都在喊“选 A"，才确认大家真的选 A。
作者证明，无论你怎么模拟人类的“犯错”和“随机性”，“强测试”都不会被误导。它就像一把经过校准的尺子，依然能测出人类确实爱“变卦”。

比喻二：估值测试（MNOSS 的新方法）

MNOSS 让人给赌局“标价”（比如：这个 80% 拿 150 块的赌局，你愿意花多少钱买？）。
作者发现，这个“标价”的方法有个致命缺陷：它太依赖人的风险偏好了。

比喻：想象你在给水果定价。如果你是个极度怕酸的人（风险厌恶），你会给酸苹果定很高的“心理价格”来补偿；如果你是个爱吃酸的人，价格就低。
MNOSS 的方法假设所有人的“怕酸程度”和“定价误差”都完美对称。但作者证明，只要人的风险偏好（怕不怕酸）稍微变一点，或者误差稍微有点关联，“标价”的结果就可以是任意的（Anything Goes）。
这就好比用一把弹簧尺去量长度：你稍微拉一下弹簧，长度就变了。MNOSS 发现“没变卦”，可能只是因为他们用的尺子太软，把“变卦”给弹没了。

4. 核心结论：真相是什么？

作者重新分析了过去 143 项关于这个谜题的实验数据，用了他们推荐的**“强测试”**：

旧结论依然成立：当我们用更严谨的“强测试”去检查数据时，发现人类依然经常“变卦”。大约 41% 的实验都显示出了这种非理性行为。
MNOSS 的结论被修正：MNOSS 说“没发现系统性效应”，是因为他们用的“估值测试”太容易受干扰，把真实的效应给掩盖了。
参数陷阱：作者还发现，如果你随便选几个数字做实验（比如赌注金额和概率），可能根本测不出“变卦”。这就像你想测“重力”，却选了一个在太空中做实验的地方。以前的研究之所以能测出来，是因为他们无意中选了“对”的参数（让赌局 A 和 B 的价值非常接近，让人纠结）。

5. 总结：这对我们意味着什么？

这篇论文就像是在说：

“别被 MNOSS 的新方法骗了。他们以为换了个更高级的测谎仪，结果那个测谎仪太敏感，把真话都过滤掉了。我们重新用一把**更结实、更抗干扰的尺子（强测试）**去量，发现人类确实还是那个‘不理性’的人类。阿莱悖论依然成立，我们依然会在‘稳赚’和‘博一把’之间反复横跳。”

一句话总结：
人类做决定时确实会“变卦”，之前的研究没错，MNOSS 的新方法虽然听起来很科学，但实际上因为太依赖假设而失效了。作者提出的**“强测试”**才是看清人类真实行为的“火眼金睛”。

Each language version is independently generated for its own context, not a direct translation.

1. 研究背景与问题 (Problem)

核心议题： 阿莱悖论（Allais Paradox）中的“共同比率效应”（Common Ratio Effect, CRE）。

定义： 在期望效用理论（Expected Utility, EU）下，如果决策者偏好确定性收益 $A$ 胜过风险彩票 $B$ ，那么对于缩放后的彩票 $C$ 和 $D$ （ $C$ 和 $D$ 分别是 $A$ 和 $B$ 乘以概率 $r$ ），决策者应同样偏好 $C$ 胜过 $D$ 。共同比率效应是指观察到 $A \succ B$ 但 $D \succ C$ 的系统性违背。
争议点： 近期 McGranaghan 等人（MNOSS, 2024）提出，传统的配对选择测试（Paired Choice Tests）在存在随机选择（Stochastic Choice）时存在结构性偏差。他们主张使用配对估值测试（Paired Valuation Tests）（即 eliciting certainty equivalents）作为更稳健的替代方案。MNOSS 利用估值测试发现，在聚合数据中缺乏共同比率效应的证据，从而挑战了现有文献中普遍支持该效应的结论。
本文目标： 在随机选择理论的框架下，重新评估 MNOSS 的结论。作者旨在证明估值测试本身存在偏差，而一种改进的“强”配对选择测试（Strong Paired Choice Test）在多种随机选择模型下是无偏的，且现有数据依然强烈支持共同比率效应。

2. 方法论与理论框架 (Methodology)

作者构建了一个基于随机选择理论（Stochastic Choice Theory）的分析框架，对比了不同的测试方法和模型假设。

2.1 核心概念定义

弱配对选择测试 (Weak Paired Choice Test)： 检验选择概率是否相等，即 $\rho(A, B) = \rho(C, D)$ 。如果 $\rho(A, B) > \rho(C, D)$ ，则判定为存在共同比率效应。
强配对选择测试 (Strong Paired Choice Test)： 检验偏好方向的一致性。定义：如果 $\rho(A, B) \ge 1/2$ （即 $A$ 被选择的频率超过一半），则判定 $A$ 优于 $B$ 。强测试要求： $\rho(A, B) \ge 1/2 \iff \rho(C, D) \ge 1/2$ 。如果 $\rho(A, B) \ge 1/2$ 且 $\rho(C, D) < 1/2$ ，则判定存在共同比率效应。
估值测试 (Valuation Tests)： 通过 eliciting 确定性等价物（Certainty Equivalents, $m_{AB}$ $m_{A B}$ 和 $m_{CD}$ $m_{C D}$ ）来测试。
- 均值测试： 检验 $E[m_{AB}] = E[m_{CD}]$ 。
- 符号测试： 检验 $Pr(m_{AB} > m_{CD}) = 1/2$ 。

2.2 随机选择模型 (Stochastic Choice Models)

作者对比了以下模型对测试偏差的影响：

iAREU 模型 (i.i.d. Additive Random Expected Utility)： 在期望效用函数上添加独立同分布的加性噪声。这是 MNOSS 用来论证弱测试有偏的主要模型。
- 缺陷： 该模型下，实现效用函数几乎必然违背期望效用公理（独立性公理），且可能违反一阶随机占优。
随机期望效用模型 (Random Expected Utility, REU)： 由 Gul and Pesendorfer (2006) 提出。效用函数本身是随机的，但满足线性公理（Linearity，即随机版本的独立性公理）。
- 特点： 在概率为 1 的情况下，偏好结构仍符合期望效用形式。
费希纳模型 (Fechnerian Models) 与广义模型： 包括感知误差、随机概率加权等更广泛的噪声结构。

3. 主要贡献与理论发现 (Key Contributions & Results)

3.1 估值测试的内在偏差 (Bias of Valuation Tests)

作者通过命题 1 (Proposition 1) 证明，在 MNOSS 的假设下（Assumption 2b），估值测试缺乏预测能力，甚至出现“任意结果”（Anything Goes）：

均值测试偏差： 除非决策者完全风险中性，否则均值测试是有偏的。风险厌恶程度（CRRA 系数 $\gamma$ ）的变化可以导致任意一对期望估值 $(E[m_{AB}], E[m_{CD}])$ ，即使决策者遵循期望效用。
符号测试的局限性： 符号测试依赖于误差项之间严格的对称性假设（Assumption 3）。如果误差相关或分布不对称，该测试也会失效。
结论： 估值测试并非如 MNOSS 所言是稳健的替代方案，其结果高度依赖于对噪声结构和风险偏好的特定假设。

3.2 强配对选择测试的稳健无偏性 (Robust Unbiasedness of Strong Test)

作者提出了强配对选择测试，并证明其在多种模型下是无偏的：

在 REU 模型下： 由于 REU 满足线性公理（Linearity），弱测试 $\rho(A, B) = \rho(C, D)$ 本身就是无偏的。
在 iAREU 及更广泛的费希纳模型下： 虽然弱测试有偏（因为噪声放大了效用差异），但强测试是无偏的。
- 逻辑： 在费希纳模型中， $\rho(A, B) \ge 1/2$ 等价于 $E[u(A)] \ge E[u(B)]$ 。由于 $E[u(A)] - E[u(B)]$ 与 $E[u(C)] - E[u(D)]$ 同号（仅相差一个缩放因子 $r$ ），因此 $\rho(A, B) \ge 1/2 \iff \rho(C, D) \ge 1/2$ 始终成立。
在 MNOSS 的假设下： 即使放松 MNOSS 的假设（Assumption 2b），只要误差项关于零对称（或满足特定的线性依赖），强测试依然保持无偏（命题 4 和 5）。
结论： 强测试在期望效用框架下的各种随机选择模型中都是稳健的，是检测共同比率效应的正确工具。

3.3 弱测试的低统计功效 (Low Power of Weak Test)

作者指出，MNOSS 使用的弱测试标准（即允许广泛的随机性区域被视为符合 EU，如图 2 Panel c 所示）具有极低的统计功效（Power）：

即使决策者的偏好完全符合前景理论（Prospect Theory）且显著违背 EU，弱测试也极难拒绝 EU 零假设。
模拟显示，在 10,000 次前景理论模拟中，只有 3 次落在弱测试定义的“违背 EU"区域，而强测试能正确识别出 97% 以上的违背。

4. 实证结果 (Empirical Results)

作者将强配对选择测试应用于现有数据：

Blavatskyy 等人 (2023) 的元分析数据 (143 项研究)：
- 使用强测试，41.26% 的研究显示出共同比率效应，6.99% 显示反向共同比率效应。
- 按参与者数量加权后，超过 50% 的实验参与者表现出某种形式的共同比率效应（正向或反向）。
- 这与传统文献结论一致，即共同比率效应是普遍存在的。
MNOSS (2024) 的实验数据：
- 应用强测试后，MNOSS 数据中共同比率效应的发生率为 10%，反向效应也为 10%。
- 虽然检测率低于传统文献，但这部分归因于 MNOSS 选择的参数空间（ $x, y, p, r$ 的组合）往往无法产生偏好反转。作者指出，参数选择对结果影响巨大，传统文献倾向于选择能产生效应的参数区域，而 MNOSS 的参数选择可能削弱了效应。

5. 意义与结论 (Significance & Conclusion)

理论修正： 本文澄清了随机选择理论在行为经济学实验中的正确应用方式。MNOSS 的结论（即共同比率效应不存在）是基于有偏的估值测试和对随机选择模型（iAREU）的特定且可疑的假设。
方法论建议：
- 应摒弃有偏的弱配对选择测试（除非使用 REU 模型）和有偏的估值测试。
- 强配对选择测试是检测阿莱悖论及其他行为谜题（如跨期选择中的现时偏见）的稳健工具。它不依赖于具体的噪声分布细节，只要满足基本的对称性或弱随机传递性即可。
实证结论： 在采用稳健的强测试后，现有文献中关于共同比率效应的证据依然非常有力。阿莱悖论作为对期望效用理论的系统性违背，在考虑了合理的随机性后依然成立。
参数敏感性： 研究强调了实验设计参数（ $x, y, p, r$ ）的重要性。如果参数设置不当（例如期望值差异过大），即使存在行为偏差，也可能无法被检测到。

总结： Echenique 和 Tserenjigmid 通过严格的理论推导和实证重分析，推翻了 MNOSS 关于“共同比率效应不存在”的结论，确立了强配对选择测试作为检验期望效用理论违背的“金标准”，并确认了阿莱悖论在行为经济学中的核心地位。