Excess demand in public transportation systems: The case of Pittsburgh's Port Authority

Each language version is independently generated for its own context, not a direct translation.

这篇文章主要讲的是：如何估算那些“想坐公交车却坐不上”的人数。

想象一下，你每天早晨赶着去上班，公交车站排着长队。公交车来了，车门打开，里面已经挤得像沙丁鱼罐头一样。司机看了一眼，关上车门开走了。你只能无奈地等下一辆。

问题在于： 公交公司的数据系统里，只记录了“谁上车了”，却完全不知道“谁被挤在站台上没上去”。这就好比一家餐厅只统计了“进店的顾客数”，却忘了统计“在门口因为没位置而离开的顾客”。如果只看进店人数，餐厅老板会误以为生意很好，其实可能已经流失了大量客源。

这篇论文就是为了解决这个“看不见的需求”而设计的。

1. 核心难题：被“隐藏”的乘客

作者们发现，传统的公交数据有一个巨大的盲点：数据是“被截断”的（Censored Data）。

真实情况： 站台上有 20 个人，车只能装 10 个，结果 10 个人上车，10 个人被留下。
系统记录： 只有"10 人上车”。
后果： 如果直接用这些数据去训练电脑模型，电脑会以为“哦，这个站点只要 10 个人”，从而低估了真实需求。这就像你只根据“吃饱的人”来估算“饿肚子的人”有多少，结果肯定算少了。

2. 他们的解决方案：像侦探一样“抓出”拥挤时刻

为了解决这个问题，作者设计了一套“侦探机制”，分三步走：

第一步：识别“拥挤现场”

他们利用公交车的载客量传感器（知道车上有多少人）和上车人数来推断。

逻辑很简单： 如果一辆车到达站点时，车上已经满了（或者接近满载），但还有人试图上车（或者上车人数很少但车已满），这就极有可能是“有人被挤掉了”。
比喻： 就像你看到一家奶茶店门口排长队，但店员只给前面几个人做了奶茶，后面的人就走了。虽然店员没记录后面的人，但“队伍很长 + 只做了少量”这个现象，就暗示了“需求溢出”。

第二步：把“坏数据”挑出来扔掉

这是最关键的一步。作者发现，如果把这些“拥挤时刻”的数据直接用来教电脑模型，电脑会被误导。

比喻： 想象你在教一个学生做数学题。如果题目是“车上坐了 10 个人（其实本来有 20 个想坐）”，学生就会以为“这个站点需求就是 10"。
做法： 他们先把这些“拥挤时刻”的数据标记出来，暂时从训练数据中剔除。让电脑先学习“正常情况”下，大家是怎么上车的。

第三步：重新计算“被落下的人”

等电脑学会了正常情况下的规律后，再把它放回那些“拥挤时刻”的数据里去预测。

预测逻辑： 电脑会想：“根据我的学习，这个站点、这个时间、这种天气，本来应该有 25 个人想上车。但我看到系统只记录了 10 个人上车（因为车满了）。那么，被挤掉的 15 个人，就是‘超额需求’。”

3. 他们在匹兹堡发现了什么？

作者用这套方法分析了匹兹堡公交系统（Port Authority）一年的数据，得出了几个有趣的结论：

总体不多，但很集中： 全年下来，大概只有 1% 的乘客因为车太满而被留在站台。
早晚高峰很惨： 如果只看早晚高峰（大家急着上班上学的时候），这个比例会飙升到 8%！也就是说，高峰期每 100 个想坐车的人里，就有 8 个被“拒之门外”。
季节变化： 就像学校开学一样，秋天（学生返校）的时候，被挤掉的人最多；夏天和假期（大家放假或旅游）的时候，这种情况就很少。
不同站点不一样： 并不是所有站点都挤。有些站点就像“热门演唱会门口”，有些则像“冷门小卖部”。作者发现，不同站点、不同方向的“拥挤时间”完全不同，不能一概而论。

4. 为什么要关心这个？

你可能会问：“才 1% 或 8% 的人，值得这么麻烦吗？”
非常有价值！

对于公交公司： 这就像体检报告。以前他们只知道“车坐满了”，现在知道“有多少人因为坐不满而流失”。这能帮他们决定：是不是该在高峰期加开几班车？或者换大点的车？
对于城市： 一个先进的城市，应该是富人穷人都在坐公交。但如果公交太挤、太不可靠，大家就会转而去买车。解决“挤不上去”的问题，就是让公交系统重新变得有吸引力。

总结

这篇论文就像给公交系统装了一个**“隐形眼镜”。
以前，公交公司只能看到“上车的人”；
现在，通过巧妙的数学模型和数据分析，他们能推算出那些“没上车的人”**。

这不仅是一个技术上的突破，更是为了让我们未来的城市交通更顺畅、更公平，让每个人都能顺利坐上那辆回家的车。

Each language version is independently generated for its own context, not a direct translation.

这是一份关于《公共交通系统中的超额需求：以匹兹堡港务局为例》（Excess demand in public transportation systems: The case of Pittsburgh's Port Authority）的论文详细技术总结。

1. 研究背景与问题定义 (Problem)

核心问题：公共交通系统的可靠性不仅体现在准点率，还体现在满足总乘客需求的能力。如果系统容量不足以容纳所有乘客，会导致乘客流失（负反馈循环）。
具体挑战：量化“超额需求”（Excess Demand，即因车辆满载而被留在站台的乘客数量）非常困难。
- 数据缺失（截断数据）：现有的公交系统数据（如上车人数 ON）仅记录实际上车的人数。当公交车满载时，系统无法记录被拒绝上车的乘客数量。
- 观测偏差：如果某站上车人数为 0，并不一定代表没有需求，可能是因为车已满。直接利用这些包含“截断”的数据训练需求预测模型，会导致对需求的低估。
研究目标：设计一个框架来识别潜在的超额需求实例，并准确估计被遗漏的乘客数量。

2. 方法论 (Methodology)

研究提出了一套包含检测机制和建模估计的完整框架：

A. 超额需求检测机制 (Detection Mechanism)

利用现有的车载传感器数据（上车人数 ON、下车人数 OFF、当前载客量 LOAD、容量 CAPACITY）构建二元分类逻辑，识别潜在的超额需求实例（集合 $I_E$ ）：

判定规则：当公交车到达站点时，如果 LOAD 已达到或接近容量上限，且 ON 人数较少（或为 0），则判定为可能存在超额需求。
误差分析：
- 假阳性 (False Positives)：车已满但无人等待（误判为有需求）。
- 假阴性 (False Negatives)：车已满但司机允许少量乘客上车（漏判为有需求）。
- 策略：研究认为在估算总超额需求时，假阳性（高估）和假阴性（低估）在一定程度上会相互抵消，因此该检测机制是可行的。

B. 数据过滤与模型训练 (Filtering & Training)

关键步骤：在训练乘客需求模型时，剔除被检测为潜在超额需求的实例（即集合 $I_E$ 中的数据）。
原因：这些实例中的上车人数是被“截断”的（Censored），不能代表真实的需求分布。如果保留这些数据，模型会错误地将满载时的低上车人数关联为低需求（例如，模型可能错误地认为高峰时段需求反而低，因为此时常发生满载）。

C. 模型选择 (Model Selection)

研究对比了四种计数数据模型，用于预测特定路线、站点和时间段的乘客上车人数：

泊松回归 (Poisson Regression)
零膨胀泊松回归 (Zero-inflated Poisson Regression)
负二项回归 (Negative Binomial Regression)：适用于过离散（Overdispersion）数据。
分层模型 (Hierarchical Model)：两步法（先预测是否有超额需求，再预测需求率）。

特征变量：包括到达时间、上一班车的实际间隔时间、计划间隔时间、以及前三个站点的累计上车人数。
训练策略：所有模型均使用剔除 $I_E$ 后的数据进行训练，以消除截断偏差。

3. 关键贡献 (Key Contributions)

提出超额需求量化框架：首次提出利用现有公交数据（无 IoT 额外硬件）通过检测满载实例并过滤训练数据来估算超额需求的方法。
揭示数据截断偏差：通过模拟数据证明，如果不剔除满载时的截断数据，会导致需求模型产生严重偏差（例如错误地将高峰时段识别为低需求），从而低估超额需求。
实证分析：利用匹兹堡港务局（PPA）2018 年全年的真实数据，对最繁忙的 10 条路线进行了超额需求估算。
模型性能验证：在剔除异常值后，发现泊松回归在大多数情况下提供了最小的预测误差（RMSE），优于零膨胀和负二项模型。

4. 主要结果 (Results)

基于匹兹堡港务局（PPA）的数据分析得出以下结论：

总体超额需求比例：在全年范围内，因车辆满载而被留在站台的乘客约占该路线总乘客量的 1%。
季节性特征：超额需求具有明显的季节性，秋季（学生返校）比例最高，夏季和 12 月（假期）最低。
高峰时段差异：如果仅关注高峰时段（Rush Hours），被遗漏的乘客比例可高达总乘客量的 8%。
站点异质性：不同站点和方向的“高峰”时间不同。例如，61D 路线的进站方向在早上 8 点左右过载概率高达 35%，而出站方向在下午 3 点至 9 点过载概率较高。
模型表现：在剔除检测到的满载实例后，泊松回归模型在验证集上的表现最佳（RMSE 约为 1.44），且在不同需求密度的站点（低、中、高需求）上均表现稳健。

5. 意义与局限性 (Significance & Limitations)

实际意义：
- 为公交运营商提供了无需额外硬件投入（如 WiFi 计数、摄像头）即可量化服务缺口的方法。
- 帮助运营商识别哪些路线和时段需要增加运力（如增加班次或改用大车），从而改善服务可靠性。
- 证明了通过数据清洗（过滤截断数据）可以显著提升需求预测模型的准确性。
局限性：
- 假设分布一致性：研究假设被截断的超额需求遵循与观测需求相同的分布（泊松分布）。实际上，超额需求可能表现出过离散，需要负二项分布，但这需要实地测量（Ground Truth）来验证。
- 检测误差：检测机制存在假阳性和假阴性，虽然研究认为两者在总量估算上可相互抵消，但在特定场景下可能仍有偏差。
- 通用性：虽然框架通用，但具体参数和最佳模型选择（如是否必须用泊松）取决于具体城市的公交系统特征。

总结：该论文通过巧妙的数据过滤机制和统计建模，解决了公共交通数据中因“满载”导致的“需求不可见”难题，成功量化了匹兹堡公交系统的隐性需求，为优化运力配置提供了科学依据。