Statistical significance in choice modelling: computation, usage and reporting

本文评论了选择模型中统计显著性的使用,指出当前存在对 95% 置信水平的过度依赖、对显著性含义的误解以及不确定性度量报告不精确等问题,并强调在关注统计显著性的同时应结合行为或政策显著性,特别关注意愿支付、随机异质性和重复选择数据等选择模型特有的关键问题。

Stephane Hess, Andrew Daly, Michiel Bliemer, Angelo Guevara, Ricardo Daziano, Thijs Dekker

发布于 2026-03-10
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文就像是一位经验丰富的“交通模型侦探”团队(由 Stephane Hess 等六位专家组成)写给所有研究者的**“避坑指南”**。

他们的主题是:在“选择模型”(用来预测人们会选什么,比如选坐公交还是开车)的研究中,我们该如何正确看待和使用“统计显著性”这个概念。

为了让你更容易理解,我们可以把整个研究过程想象成**“在迷雾中绘制藏宝图”**。

1. 核心问题:我们太迷信"95% 的自信”了

想象一下,你正在迷雾中找宝藏(寻找数据背后的规律)。你画了一张图,说:“这里有个宝藏!”

  • 现状: 很多研究者手里拿着一个“显著性测试仪”,只要测试仪显示"95% 的把握”(也就是 p 值小于 0.05),他们就大喊:“找到了!这是真的!”如果显示"94%",他们就扔掉数据说:“没找到,这是假的。”
  • 作者的批评: 这太机械了!
    • 比喻: 就像你问:“这杯水是热的吗?”如果温度是 49.9 度(不显著),你就说它是冷的;如果是 50.1 度(显著),你就说它是热的。但 49.9 度和 50.1 度喝起来其实没区别!
    • 观点: 作者认为,我们不应该只盯着“有没有”(是不是 0),而应该更关心“有多大”(效应的大小)。有时候,即使统计上不够“显著”,但如果这个因素(比如票价)对人们的行为影响很大,我们也不能忽略它。

2. 迷雾的真相:不确定性是如何产生的?

在画藏宝图时,为什么会有误差?

  • 抽样误差: 你只调查了 1000 个人,而不是全地球的人。这就像你只尝了一口汤,就判断整锅汤咸不咸。
  • 模型错误: 你用的公式(模型)可能本身就是错的。比如,你以为人们只在乎价格,其实他们更在乎舒适度。如果模型本身错了,算出来的“显著性”就是骗人的。
  • 重复选择: 同一个人一天选了 3 次车,这 3 次选择不是独立的,它们像连体婴儿一样有关联。如果忽略这种关联,你的“迷雾”就会比实际更浓(误差被低估了)。

3. 如何计算“迷雾”的厚度?(标准误与置信区间)

作者详细讨论了如何计算“不确定性”的范围。

  • 经典方法(三明治法): 就像做三明治,中间是数据,上下两层面包是理论假设。如果面包太薄(假设太强),三明治容易散架。作者建议使用更厚实的“稳健标准误”(Robust Standard Errors),就像给三明治加了更厚的面包,防止它散架。
  • 自助法(Bootstrapping): 想象你有一袋弹珠,你从中抓一把,记录颜色,放回去,再抓一把。重复几千次。通过这种“模拟重演”来观察结果的波动。这比单纯靠公式计算更靠谱,虽然计算起来更累(就像你要亲自抓几千次弹珠)。
  • 置信区间(CI): 不要只说“价格是 -0.5",要说“价格大概在 -0.3 到 -0.7 之间”。这个范围越窄,说明你的藏宝图越精准。

4. 测试的陷阱:别被“假阳性”和“假阴性”骗了

在统计学测试中,有两种错误:

  • 第一类错误(假阳性): 明明没有宝藏,你却说找到了。(比如把噪音当成了信号)。
  • 第二类错误(假阴性): 明明有宝藏,你却漏掉了。(比如因为太谨慎,把真的信号当成了噪音)。

作者的警告:

  • 不要死守 95%: 在交通建模中,我们通常更怕漏掉重要的因素(第二类错误)。比如,如果因为 p 值不够小(比如 0.06)就把“票价”这个关键变量从模型里删掉,可能会导致整个预测模型失效,进而让政府做出错误的投资决策。
  • 单侧 vs 双侧测试: 如果你心里已经确定“票价越高,坐车的人越少”(方向是确定的),那就用“单侧测试”(只查一边)。如果你用“双侧测试”(两边都查),你的门槛会变高,更容易漏掉真正的宝藏。很多软件默认用双侧,这可能导致你错过重要的发现。

5. 报告的艺术:别只画星星!

很多论文喜欢用星星(*)来标记结果:

  • * (90%)
  • ** (95%)
  • *** (99%)

作者的建议:

  • 不要只画星星: 星星太模糊了。读者不知道这个参数到底是 0.051 还是 0.001。
  • 要报数字: 请同时报告“标准误”或"t 值”。这就像不仅告诉别人“这里有宝藏”,还要告诉别人“宝藏大概在这个坐标,误差范围是 5 米”。
  • 区分“显著”和“精确”: 两个参数可能都通过了 99% 的显著性测试,但一个的误差范围很小(很准),另一个的误差范围巨大(虽然显著,但不知道具体是多少)。在制定政策时,精确度往往比显著性更重要。

6. 总结:给研究者的“生存法则”

这篇论文最后给所有做选择模型的人提了几点建议:

  1. 少说“显著”,多说“拒绝零假设”: 不要说“这个参数是显著的”,要说“我们有足够的证据拒绝‘它等于 0'的假设”。语言要严谨。
  2. 关注“行为意义”而非“统计意义”: 如果一个变量虽然统计上不够完美,但在现实中很重要(比如成本),那就保留它,不要为了凑 p 值而删掉它。
  3. 警惕“过度拟合”和"P-hacking": 不要为了凑出漂亮的星星,就反复修改模型直到结果“显著”。这是作弊。
  4. 考虑贝叶斯方法: 除了传统的“频率学派”(只看数据),也可以尝试“贝叶斯学派”(结合先验知识和数据),这能提供更直观的概率解释。

一句话总结:
在画藏宝图(做模型)时,不要只盯着那个"95% 的自信”标签,要看看地图画得准不准(置信区间),有没有漏掉真正的宝藏(行为意义),并且诚实地告诉别人你的误差范围有多大,而不是只画几个星星来糊弄人。