Each language version is independently generated for its own context, not a direct translation.

这篇论文解决了一个我们在日常生活中经常遇到，但背后技术非常复杂的问题：当你在手机上叫了一辆“按需公交”或“拼车”时，系统是如何在几秒钟内告诉你“可以接”还是“不行”，并且还能保证之后安排得最合理、接的人最多的？

为了让你轻松理解，我们可以把整个系统想象成一个超级繁忙的“外卖配送中心”。

1. 核心难题：既要“快”，又要“好”

想象你经营着一个外卖配送站，有 4 辆电动车（车辆），每辆车最多能装 8 份外卖（乘客）。

场景 A（传统做法 1）： 只要有人下单，你立刻看能不能塞进某辆车。如果能，马上回复“好的”。但这就像你只是把订单硬塞进箱子，没考虑后面会不会塞不下，导致后面很多订单被拒，或者路线绕得远。
场景 B（传统做法 2）： 你不着急回复，先把所有订单攒一会儿，像拼图一样慢慢研究怎么排最完美。但这有个大问题：顾客等不及了，他们想知道“到底能不能送”，等太久他们就不用了。

这篇论文提出的新方法，就是要把这两者完美结合：

瞬间回复： 顾客下单后，系统必须在不到 1 秒内给出“行”或“不行”的答复（Prompt Confirmation）。
持续优化： 在两个顾客下单的“空档期”里，系统像个不知疲倦的超级管家，不停地重新调整所有车辆的路线，试图把未来的订单也考虑进去，从而接更多的单（Continual Optimization）。

2. 他们是怎么做到的？（三个关键步骤）

第一步：快速插入（像玩俄罗斯方块）

当新订单来了，系统不会重新计算整个世界的路线，而是玩一个“俄罗斯方块”游戏：

它快速检查现有的路线，看能不能把新订单像方块一样“插”进去，而不撞到其他方块（不违反时间窗和载客量）。
如果能插进去，就立刻答应顾客。这一步非常快，因为只做了简单的“插入”检查。

第二步：随时待命的优化师（Anytime Algorithm）

这是最精彩的部分。在顾客 A 下单和顾客 B 下单之间的几秒钟甚至几分钟里，系统并没有闲着。

它启动了一个**“模拟退火”算法**（你可以把它想象成一个不断尝试微调的调酒师）。
调酒师会不断尝试把订单 A 从车 1 换到车 2，或者把车 1 的路线顺序倒过来。
每尝试一次，它都会问自己：“这样改，是不是能让未来更容易接到新订单？”
如果下一个顾客 B 突然下单了，调酒师立刻停止，把目前为止找到的最好方案拿出来用。不管它跑了多久，它总是能给出一个“当前最好的答案”。

第三步：拥有“预知未来”的大脑（强化学习）

这是这篇论文最厉害的地方。以前的系统做决定时，往往只看眼前（比如：现在有空位就接，不管后面会不会堵死）。

作者训练了一个AI 大脑（强化学习）。这个大脑不是只看现在，而是像下围棋的高手，它懂得“弃子”或者“布局”。
例子： 假设现在接一个顺路的单，虽然能赚一点，但会导致车 5 分钟后位置很尴尬，接不到后面那个大单。AI 大脑会算出：“虽然接这个单现在看起来不错，但长远看会让我损失更多，所以我拒绝这个单，或者调整路线来为后面的大单腾位置。”
这个大脑是通过模拟数百万次“如果当时这么选，结果会怎样”来学会的。它学会了如何最大化长期的接单率，而不是短期的满足。

3. 效果如何？

作者用美国真实的城市微公交数据（类似那种社区小巴）和纽约出租车数据做了测试：

速度： 确认接单的时间非常短（约 0.2 秒），顾客几乎感觉不到等待。
成功率： 相比谷歌现有的工具（OR-Tools）和其他先进算法，他们的系统拒绝的订单更少（也就是接到的单更多）。
比喻： 如果旧系统能接 90 个单，拒绝 10 个；他们的系统能接 98 个单，只拒绝 2 个。而且，旧系统如果为了多接几个单，可能需要让顾客等很久；而他们的系统是“秒回”且“多接”。

总结

这篇论文就像是为未来的智能交通系统设计了一套**“秒回消息的管家 + 深谋远虑的规划师”**组合拳。

它解决了现实世界中一个巨大的矛盾：既要让乘客立刻得到确定的答复（不让他们干等），又要让交通系统像最聪明的调度员一样，把每一辆车、每一个座位都利用到极致，接更多的乘客。

通过这种“快速响应 + 持续微调 + 长远规划”的机制，未来的按需公交服务将变得更加高效、可靠，让大家都更愿意使用。

Each language version is independently generated for its own context, not a direct translation.

论文技术总结：具有即时确认功能的动态车辆路径问题

1. 问题背景与定义 (Problem Definition)

本文针对动态车辆路径问题 (Dynamic Vehicle Routing Problem, DVRP) 提出了一个新的变体，专门针对按需微交通服务 (On-demand Microtransit) 场景。

核心痛点：现有的计算方法存在两极分化：
1. 即时确认类：能在请求到达时立即确认接受或拒绝，但缺乏后续持续优化路线的能力，导致服务率（Service Rate）较低。
2. 持续优化类：能不断重新优化路线以提高服务率，但无法保证对所有已接受请求的即时确认，或者在确认时无法保证未来一定能服务所有已接受请求。
实际需求：公共交通机构需要一种既能即时确认（让乘客能提前规划行程，确保被接受后一定能被服务），又能持续优化（在请求间隙不断调整路线以最大化未来服务率）的解决方案。
问题形式化：
- 输入：按顺序到达的乘客请求（包含取/送地点、时间窗、人数）。
- 约束：车辆容量限制、时间窗约束、行驶时间约束。
- 目标：在长期运行中最大化服务率（即被接受并成功服务的请求比例），同时满足即时确认的时效性要求。

2. 方法论 (Methodology)

作者提出了一种结合快速插入搜索与随时算法 (Anytime Algorithm) 的新型计算框架，并利用强化学习 (Reinforcement Learning, RL) 训练非短视（Non-myopic）的目标函数。

2.1 马尔可夫决策过程 (MDP) 建模

将问题建模为 MDP：

状态 (State)：包含当前车辆位置、已接受请求集、当前路线计划、最新到达的请求。
动作 (Action)：
1. 确认决策：接受或拒绝新请求。
2. 路线更新：生成新的可行路线计划（Manifest）。
奖励 (Reward)：若接受请求则奖励为 1，否则为 0。长期目标是最大化累积奖励（即服务率）。
价值函数 (Q-function)：使用强化学习近似最优策略的动作价值函数 $Q(s, a)$ ，作为指导算法的非短视目标函数。

2.2 核心算法流程

系统分为两个阶段协同工作：

A. 即时确认阶段 (Prompt Confirmation)

触发：当新请求 $T_k$ 到达时。
算法：快速插入搜索 (Quick Insertion Search)。
- 在毫秒级时间内，尝试将新请求插入现有车辆的路线中。
- 限制搜索空间为“简单插入”（不改变原有请求顺序和车辆分配），以确保计算速度。
- 目标：选择能最大化 $Q$ 值的插入方案（或拒绝请求）。
输出：在亚秒级时间内向乘客返回接受/拒绝决策。

B. 持续优化阶段 (Continual Optimization)

触发：在两个连续请求到达之间的空闲时间。
算法：模拟退火 (Simulated Annealing) 作为随时算法 (Anytime Algorithm)。
- 利用空闲时间不断对路线计划进行重排（Swap, Move, Shift, Reverse 等操作）。
- 随时性：算法可以在下一个请求到达前的任何时刻被中断，并返回当前找到的最佳可行解。
- 目标：利用 $Q$ 函数作为评估标准，寻找能最大化未来服务潜力的路线配置。

2.3 强化学习与特征工程

训练策略：
1. 监督预训练 (Supervised Pre-training)：使用简单启发式策略（总是接受且最大化空闲时间）生成数据，预训练神经网络以估计 $Q$ 值，加速收敛。
2. 强化学习微调 (RL Fine-tuning)：使用 Bellman 方程和 Q-learning 进一步微调策略。
特征表示：将复杂的路线状态映射为固定长度的特征向量，包括：
- 总空闲时间 (Total idle time)。
- 时间粒度上的车辆可用性 (Temporal availability)。
- 时空粒度上的车辆可用性 (Spatio-temporal availability，网格化空间 + 时间窗)。
网络架构：对比了多层感知机 (MLP)、Kolmogorov-Arnold 网络 (KAN) 和卷积神经网络 (CNN)，其中 MLP 和 KAN 表现最佳。

3. 主要贡献 (Key Contributions)

问题建模创新：首次形式化了“具有即时确认和持续优化的动态车辆路径问题”，填补了现有文献在“即时性”与“优化能力”之间的空白。
混合算法框架：提出了一种结合快速插入（用于确认）和模拟退火（用于持续优化）的混合架构，既保证了用户体验（即时反馈），又保证了系统效率（持续优化）。
非短视目标函数：利用强化学习学习 $Q$ 函数，使算法能够为了未来的服务率而做出当前的决策（例如，为了未来能接更多单，现在可能拒绝一个看似可行但会阻塞资源的请求，或者优化路线以预留更多空闲时间）。
开源与实证：提供了基于真实微交通数据集和 NYC 出租车数据集的完整实验代码和评估。

4. 实验结果 (Numerical Results)

实验使用了美国某中型城市的真实微交通数据（2022-2023）和 NYC 出租车数据。

确认时间 (Confirmation Time)：
- 提出的方法平均确认时间约为 0.2 秒（微交通数据）和 1 秒（NYC 数据）。
- 远快于滚动视界 (Rolling Horizon) 方法（平均 50 秒），与 Google OR-Tools 相当（0.1-0.5 秒），但性能更优。
拒绝率 (Rejection Rate)：
- 提出的方法将拒绝率降低至 1% 左右。
- 显著优于 Google OR-Tools、滚动视界 (RH) 和蒙特卡洛树搜索 (MC VRP) 等基线方法。
- 在 NYC 数据集上同样表现出显著优势。
消融实验 (Ablation Studies)：
- 持续优化的重要性：随着优化运行时间的增加，拒绝率显著下降，证明了利用请求间隙进行优化的巨大价值。
- 学习到的 Q 函数：使用学习到的非短视 $Q$ 函数比使用简单启发式规则（如最大化空闲时间）能显著降低拒绝率。

5. 意义与影响 (Significance)

提升用户体验：乘客可以在预订后立即获得确定的接受/拒绝反馈，消除了等待和不确定性，使得按需交通服务更具吸引力。
保障服务承诺：一旦接受请求，系统通过持续优化保证该请求一定能被服务，解决了“接受后无法履约”的风险。
运营效率最大化：通过非短视的长期优化，显著提高了车辆利用率和整体服务率，降低了运营成本。
实际应用价值：该方法为公共交通机构部署按需微交通 (Microtransit) 服务提供了可行的技术路径，特别是在需要处理提前预订（Advance Booking）的场景中。

总结：该论文通过结合快速启发式搜索、随时优化算法和强化学习，成功解决了一个长期存在的工程难题：如何在保证实时响应的同时，实现全局最优的车辆调度。实验证明该方法在速度和成功率上均优于现有最先进方案。

Dynamic Vehicle Routing Problem with Prompt Confirmation of Advance Requests