Statistical significance in choice modelling: computation, usage and reporting

Each language version is independently generated for its own context, not a direct translation.

这篇论文就像是一位经验丰富的“交通模型侦探”团队（由 Stephane Hess 等六位专家组成）写给所有研究者的**“避坑指南”**。

他们的主题是：在“选择模型”（用来预测人们会选什么，比如选坐公交还是开车）的研究中，我们该如何正确看待和使用“统计显著性”这个概念。

为了让你更容易理解，我们可以把整个研究过程想象成**“在迷雾中绘制藏宝图”**。

1. 核心问题：我们太迷信"95% 的自信”了

想象一下，你正在迷雾中找宝藏（寻找数据背后的规律）。你画了一张图，说：“这里有个宝藏！”

现状： 很多研究者手里拿着一个“显著性测试仪”，只要测试仪显示"95% 的把握”（也就是 p 值小于 0.05），他们就大喊：“找到了！这是真的！”如果显示"94%"，他们就扔掉数据说：“没找到，这是假的。”
作者的批评： 这太机械了！
- 比喻： 就像你问：“这杯水是热的吗？”如果温度是 49.9 度（不显著），你就说它是冷的；如果是 50.1 度（显著），你就说它是热的。但 49.9 度和 50.1 度喝起来其实没区别！
- 观点： 作者认为，我们不应该只盯着“有没有”（是不是 0），而应该更关心“有多大”（效应的大小）。有时候，即使统计上不够“显著”，但如果这个因素（比如票价）对人们的行为影响很大，我们也不能忽略它。

2. 迷雾的真相：不确定性是如何产生的？

在画藏宝图时，为什么会有误差？

抽样误差： 你只调查了 1000 个人，而不是全地球的人。这就像你只尝了一口汤，就判断整锅汤咸不咸。
模型错误： 你用的公式（模型）可能本身就是错的。比如，你以为人们只在乎价格，其实他们更在乎舒适度。如果模型本身错了，算出来的“显著性”就是骗人的。
重复选择： 同一个人一天选了 3 次车，这 3 次选择不是独立的，它们像连体婴儿一样有关联。如果忽略这种关联，你的“迷雾”就会比实际更浓（误差被低估了）。

3. 如何计算“迷雾”的厚度？（标准误与置信区间）

作者详细讨论了如何计算“不确定性”的范围。

经典方法（三明治法）： 就像做三明治，中间是数据，上下两层面包是理论假设。如果面包太薄（假设太强），三明治容易散架。作者建议使用更厚实的“稳健标准误”（Robust Standard Errors），就像给三明治加了更厚的面包，防止它散架。
自助法（Bootstrapping）： 想象你有一袋弹珠，你从中抓一把，记录颜色，放回去，再抓一把。重复几千次。通过这种“模拟重演”来观察结果的波动。这比单纯靠公式计算更靠谱，虽然计算起来更累（就像你要亲自抓几千次弹珠）。
置信区间（CI）： 不要只说“价格是 -0.5"，要说“价格大概在 -0.3 到 -0.7 之间”。这个范围越窄，说明你的藏宝图越精准。

4. 测试的陷阱：别被“假阳性”和“假阴性”骗了

在统计学测试中，有两种错误：

第一类错误（假阳性）： 明明没有宝藏，你却说找到了。（比如把噪音当成了信号）。
第二类错误（假阴性）： 明明有宝藏，你却漏掉了。（比如因为太谨慎，把真的信号当成了噪音）。

作者的警告：

不要死守 95%： 在交通建模中，我们通常更怕漏掉重要的因素（第二类错误）。比如，如果因为 p 值不够小（比如 0.06）就把“票价”这个关键变量从模型里删掉，可能会导致整个预测模型失效，进而让政府做出错误的投资决策。
单侧 vs 双侧测试： 如果你心里已经确定“票价越高，坐车的人越少”（方向是确定的），那就用“单侧测试”（只查一边）。如果你用“双侧测试”（两边都查），你的门槛会变高，更容易漏掉真正的宝藏。很多软件默认用双侧，这可能导致你错过重要的发现。

5. 报告的艺术：别只画星星！

很多论文喜欢用星星（*）来标记结果：

* (90%)
** (95%)
*** (99%)

作者的建议：

不要只画星星： 星星太模糊了。读者不知道这个参数到底是 0.051 还是 0.001。
要报数字： 请同时报告“标准误”或"t 值”。这就像不仅告诉别人“这里有宝藏”，还要告诉别人“宝藏大概在这个坐标，误差范围是 5 米”。
区分“显著”和“精确”： 两个参数可能都通过了 99% 的显著性测试，但一个的误差范围很小（很准），另一个的误差范围巨大（虽然显著，但不知道具体是多少）。在制定政策时，精确度往往比显著性更重要。

6. 总结：给研究者的“生存法则”

这篇论文最后给所有做选择模型的人提了几点建议：

少说“显著”，多说“拒绝零假设”： 不要说“这个参数是显著的”，要说“我们有足够的证据拒绝‘它等于 0'的假设”。语言要严谨。
关注“行为意义”而非“统计意义”： 如果一个变量虽然统计上不够完美，但在现实中很重要（比如成本），那就保留它，不要为了凑 p 值而删掉它。
警惕“过度拟合”和"P-hacking"： 不要为了凑出漂亮的星星，就反复修改模型直到结果“显著”。这是作弊。
考虑贝叶斯方法： 除了传统的“频率学派”（只看数据），也可以尝试“贝叶斯学派”（结合先验知识和数据），这能提供更直观的概率解释。

一句话总结：
在画藏宝图（做模型）时，不要只盯着那个"95% 的自信”标签，要看看地图画得准不准（置信区间），有没有漏掉真正的宝藏（行为意义），并且诚实地告诉别人你的误差范围有多大，而不是只画几个星星来糊弄人。

Each language version is independently generated for its own context, not a direct translation.

这是一份关于 Hessian 等人（2026）论文《选择模型中的统计显著性：计算、使用与报告》的详细技术总结。

1. 研究背景与问题 (Problem)

尽管统计显著性在科学领域无处不在，但近年来对其过度依赖和误用的批评日益增多（如 Ziliak & McCloskey, 2008; Wasserstein et al., 2019）。在**离散选择模型（Choice Modelling）**领域，存在以下特定问题：

过度依赖 95% 置信水平：许多研究者机械地使用 $p < 0.05$ 作为判断变量是否存在的唯一标准，忽视了效应大小（Effect Size）和行为/政策意义。
概念混淆：
- 混淆了“证据存在的概率”与“假设存在的概率”（逆命题谬误）。
- 混淆了参数不确定性（Parameter Uncertainty，源于抽样误差）与偏好异质性（Heterogeneity，源于人群中的真实差异）。
- 错误地将“统计显著”等同于“效应存在”，或将“不显著”等同于“效应为零”。
报告不规范：
- 缺乏对标准误（Standard Errors）和置信区间（Confidence Intervals）的精确报告。
- 过度使用星号（*）标记显著性，导致信息丢失（无法计算置信区间）。
- 未区分单侧检验（One-sided）与双侧检验（Two-sided），导致 $p$ 值计算错误。
选择模型的特殊性：
- 参数通常经过变换（如支付意愿 WTP），其不确定性计算复杂。
- 广泛使用面板数据（重复选择），若未正确处理个体间的相关性，标准误会低估。
- 模型设定检验（如嵌套 Logit 参数约束）与单个参数检验存在差异。

2. 方法论 (Methodology)

本文并未提出新的估计算法，而是对现有的统计推断框架进行了系统的梳理、批判和修正建议。主要涵盖以下技术维度：

2.1 不确定性的来源与计算

最大似然估计 (MLE)：基于渐近正态性，利用海森矩阵（Hessian, $H$ $H$ ）和得分向量（Score, $S$ $S$ ）构建协方差矩阵。
- 经典协方差矩阵：基于 $-H^{-1}$ 。
- 稳健协方差矩阵 (Robust/Sandwich)：基于 $H^{-1} O H^{-1}$ （其中 $O$ 为外积矩阵），用于处理模型设定错误（如遗漏变量、异方差）。
- 自助法 (Bootstrapping)：通过重采样模拟抽样分布，不依赖正态假设，特别适用于复杂模型和参数变换。
参数变换的不确定性：利用 Delta 方法 计算边际替代率（MRS）、支付意愿（WTP）等衍生指标的标准误。对于随机系数（Random Coefficients），需区分分布参数的不确定性与分布本身的异质性。
重复选择数据：强调在面板数据中，标准误计算必须基于“个体”而非“观测值”进行聚类（Clustering），通常使用面板稳健标准误或个体层面的自助法。

2.2 置信区间 (Confidence Intervals, CIs)

渐近置信区间：基于 $\hat{\beta} \pm z_{\alpha/2} \cdot \hat{\sigma}$ 。指出其假设对数似然函数在最优解附近是二次的（正态分布），但在有限样本或远离最优解时可能失效。
自助法置信区间：基于重采样分布的分位数，能捕捉非对称性。
最高后验密度区间 (HPD)：对于非对称分布（如对数正态分布），HPD 区间比简单的分位数区间更窄且更准确。

2.3 假设检验 (Hypothesis Testing)

检验类型：
- 单个参数检验：通常检验 $H_0: \beta_k = 0$ 。作者强烈建议根据先验知识使用单侧检验（例如成本系数应为负），因为双侧检验会人为加倍 $p$ 值，增加第二类错误（Type II error）风险。
- 模型比较检验：
  - 似然比检验 (LR)：比较嵌套模型，利用两个模型的似然值差异。
  - Wald 检验：仅基于无约束模型。
  - 拉格朗日乘数检验 (LM)：仅基于约束模型。
  - 三者在大样本下渐近等价，但在小样本或非线性约束下表现不同。LR 检验通常更稳健。
非嵌套模型比较：对于无法通过简单参数约束转换的模型（如混合 Logit vs 潜类别模型），使用 AIC/BIC 或 Ben-Akiva & Swait 检验。
多重检验问题：讨论了对 $p$ 值进行多重检验校正（如 Bonferroni）的必要性，但在选择模型联合估计的背景下，作者认为这可能导致过度剔除重要变量，建议更多依赖联合假设检验（如 LR 检验）。

2.4 实证案例

使用 Leeds 大学 DECISIONS 项目的 GPS 数据（358 人，3438 次出行）。
估计多项 Logit (MNL) 模型，对比了经典、稳健和自助法（400 次重采样）的标准误及检验结果。
展示了不同检验方法（单侧/双侧、经典/稳健/自助）对 $p$ 值和显著性判断的影响。

3. 主要贡献与发现 (Key Contributions & Results)

3.1 理论贡献

澄清统计显著性的含义：强调统计显著性仅意味着“在零假设为真的情况下，观察到当前数据的概率很低”，而非“效应存在”。
区分显著性与精度：即使两个参数都通过 99% 显著性检验，它们的置信区间宽度（精度）可能差异巨大。政策制定应更关注精度和行为意义，而非单纯的显著性。
检验方向的选择：在存在明确先验符号（如成本系数为负）时，必须使用单侧检验。使用双侧检验是常见的错误，会导致 $p$ 值虚高，从而错误地接受零假设。
模型设定与检验的权衡：在模型构建中，剔除变量的风险（导致模型设定错误、内生性）通常大于保留不显著变量的风险。因此，不应机械地剔除 $p > 0.05$ 的变量，特别是那些具有明确政策意义的变量。

3.2 实证发现

标准误的差异：在面板数据中，经典标准误通常显著小于稳健标准误和自助法标准误（本例中约为 1/3 到 1/2），表明忽略个体相关性会严重低估不确定性。
检验结果的敏感性：对于某些参数（如铁路出行时间系数 $\beta_{rail,tt}$ ），经典检验在 99% 水平显著，但稳健和自助法检验仅在 96%-97% 水平显著。这证明了不同方法可能导致截然不同的结论。
非对称性：自助法生成的置信区间往往是非对称的，而基于正态假设的渐近区间是对称的。对于某些参数（如 ASC），这种非对称性显著。
星号标记的局限性：仅报告星号（*）或 $p < 0.001$ 会丢失大量信息，使得读者无法计算置信区间或比较不同参数的精度。

4. 报告规范建议 (Reporting Guidelines)

作者提出了一套具体的报告标准，以提高选择模型研究的透明度：

报告原始数据：必须报告参数估计值 ( $\hat{\beta}$ ) 和标准误 ( $\hat{\sigma}$ ) 或 $t$ 值。
精度要求：至少保留两位有效数字（不含前导零）。
明确检验方向：如果报告 $p$ 值，必须明确说明是单侧还是双侧检验。
慎用星号：星号可以作为补充，但绝不能替代标准误或 $t$ 值。
关注行为意义：即使统计不显著，如果变量具有明确的行为或政策意义（如成本），应保留在模型中并讨论其局限性。
区分显著性与精度：在解释结果时，不仅要看是否显著，还要看置信区间的宽度是否足以支持政策决策。

5. 研究意义 (Significance)

方法论纠偏：针对选择模型领域普遍存在的统计误用（特别是面板数据处理、单侧检验缺失、过度依赖 $p=0.05$ ）提供了系统的纠正指南。
政策导向：强调从“统计显著”向“行为/政策显著”转变。在交通规划等实际应用中，一个不显著但方向正确的参数可能比一个显著但效应微小的参数更有价值。
提升可复现性：通过规范报告标准（如报告标准误而非仅报告星号），使其他研究者能够复现置信区间和进行二次分析。
应对大数据挑战：指出在大数据时代，极小的 $p$ 值（如 $p < 10^{-10}$ ）可能仅反映样本量大，而非效应强。研究者需警惕“统计显著但实际无意义”的陷阱。

总结：
这篇论文是选择模型领域关于统计推断的“宣言式”文章。它不否认统计检验的价值，但强烈呼吁研究者超越机械的 $p$ 值判断，深入理解不确定性的来源（抽样误差 vs 异质性），正确选择检验方法（单侧 vs 双侧，LR vs Wald），并优先关注参数的行为解释力和估计精度。对于从事交通、经济及公共政策选择模型分析的研究人员，这是一份不可或缺的技术指南。