Impermanent: A Live Benchmark for Temporal Generalization in Time Series Forecasting

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一个名为 Impermanent（暂存/无常） 的新项目。为了让你轻松理解，我们可以把时间序列预测（比如预测明天股票涨跌、下周销量）想象成**“预测天气”**。

1. 现在的“天气预报”有什么毛病？

目前，大多数预测模型（尤其是那些号称“全能”的大模型）的考试方式是这样的：

静态试卷：考官拿出一份固定的历史数据（比如过去 10 年的天气记录），把其中最后 1 年的数据藏起来作为“考题”。
死记硬背：模型在剩下的 9 年数据上学习，然后做那 1 年的考题。
作弊风险：因为试卷是固定的，模型可能会在训练时“不小心”背下了答案，或者开发者为了刷高分，反复调整模型直到它完美匹配这份旧试卷。
结果：模型在试卷上拿了 100 分，但一旦到了真实的、每天都在变化的明天，它可能完全不会看天，因为现实世界是流动的，而试卷是静止的。

2. Impermanent 是什么？

Impermanent 就像是一个**“实时的、永不结束的生存挑战”**，而不是考完就结束的期末考试。

核心概念：它不再给模型发一张固定的试卷，而是让模型在不断流动的数据河流中游泳。
如何运作：
- 想象有一个直播流，数据每天都在更新。
- 模型必须每天根据过去的数据，预测未来几天会发生什么。
- 预测做完后，模型必须等待，直到真正的结果（比如 GitHub 上实际发生了多少代码提交）出现，才能打分。
- 然后，时间继续向前推移，模型又要预测下一天，如此循环往复。
为什么叫"Impermanent"（无常）？ 因为这个世界（数据分布）是瞬息万变的。昨天的规律今天可能就不适用了。这个基准测试就是为了看模型能不能在“无常”中保持稳健。

3. 他们用了什么数据？（GitHub 活动）

为了测试这个“生存挑战”，作者没有用枯燥的超市销售数据，而是选择了**GitHub（程序员写代码的地方）**的活动数据。

比喻：这就像是在观察一个超级繁忙的集市。
- 有时候大家很安静（没人提问题）。
- 有时候突然爆发（发布了新版本，大家疯狂提代码、点星星）。
- 有时候规则变了（平台更新了工具）。
他们追踪了 400 个最热门的项目，看“提问题”、“合并代码”、“推送代码”和“点星星”这四个指标。这些数据充满了突发状况和不规则的波动，非常像真实世界的复杂环境。

4. 他们发现了什么？

在这个“实时生存挑战”中，作者测试了各种模型：

老派选手：像 SeasonalNaive（季节性朴素模型），它只是简单地说“下周应该和上周差不多”。
统计专家：像 AutoARIMA，用复杂的数学公式找规律。
AI 大模型：像 TimesFM、Chronos 等“基础模型”，号称能通吃各种数据。

结果很有趣：

虽然 AI 大模型在点预测（猜具体数值）上表现最好，但有些老派模型在概率预测（猜“可能发生的范围”）上反而更稳。
最重要的是，排名是会变的！在静态试卷上拿第一的模型，随着时间推移，面对新的数据波动，排名可能会掉下去。这证明了**“一次考好”不等于“一直能行”**。

5. 这个项目的意义是什么？

Impermanent 就像是一个**“长期主义”的试金石**。

它告诉我们要从**“追求单次高分”转变为“追求长期稳定”**。
它防止了模型“作弊”（因为数据是实时更新的，模型无法提前背答案）。
它让我们看到，真正的智能不仅仅是记住过去，而是在变化的未来中持续适应。

总结

如果把预测模型比作赛车手：

旧方法：让赛车手在一条封闭的、没有障碍的赛道上跑圈，看谁最快。
Impermanent：让赛车手在真实的、天气多变、路况随时改变的公路上长途驾驶。
结论：只有能在公路上安全、稳定跑完全程的车，才是真正的好车。Impermanent 就是那个真实的公路测试场。

你可以访问他们的网站（链接在论文开头）看实时的排行榜，就像看一场永不落幕的预测马拉松。

Each language version is independently generated for its own context, not a direct translation.

1. 研究背景与问题 (Problem)

核心痛点：
尽管时间序列基础模型（Time-Series Foundation Models, TSFMs）声称具有广泛的泛化能力，但现有的评估协议存在严重缺陷：

静态评估的局限性： 大多数基准测试（如 GIFT-Eval, FEV, Monash）使用静态的“训练 - 测试”分割。这种设置无法反映现实世界中数据分布随时间演变（非平稳性）的特性。
数据泄露与污染风险： 由于基础模型通常是在大规模异构数据上预训练的，而下游基准测试的数据集往往也是公开且固定的，这导致模型可能在训练阶段就“见过”测试数据，或者通过测试分数进行模型选择，从而人为地 inflate（虚高）了性能表现。
缺乏对时序鲁棒性的验证： 静态评估无法衡量模型在面对概念漂移（Concept Drift）、分布偏移（Distribution Shift）或突发结构断裂时的持续表现和稳定性。

目标：
需要一种能够模拟真实世界部署环境的评估方法，即**“活体基准”（Live Benchmark）**，以评估模型在连续更新的数据流中随时间推移的泛化能力。

2. 方法论 (Methodology)

作者提出了 Impermanent，这是首个专门用于评估时间序列预测中“时序泛化”能力的活体基准。

2.1 数据集构建 (Dataset Construction)

数据源： 基于 GitHub 的开源活动数据（GH Archive），这是一个天然具有高度非平稳性的环境，受发布周期、贡献者行为变化、工具链更新及外部事件影响。
对象选择： 选取按 Star 数排名前 400 的仓库。
时间序列类型： 针对每个仓库构建四种事件类型的时间序列：
1. 开启的 Issues (Issues opened)
2. 开启的 Pull Requests (PRs opened)
3. Push 事件 (Push events)
4. 新增 Star 数 (New stargazers)
频率设置： 支持四种预测频率：小时级 ( $h=24$ )、日级 ( $h=7$ )、周级 ( $h=4$ ) 和月级 ( $h=1$ )。
数据特性分析： 通过频谱质心（Spectral Centroid）和频谱熵（Spectral Entropy）分析发现，数据混合了平滑趋势和剧烈波动，且不同事件类型在频谱空间中分布广泛，要求模型必须同时处理慢速变化和突发脉冲。

2.2 评估协议 (Evaluation Protocol)

Impermanent 采用 前序评估（Prequential） 和 滚动原点（Rolling-origin） 策略，确保“防泄露”：

时序流程： 在每一个截止点（Cutoff time），模型仅能访问截止点之前的历史数据，必须生成未来 $h$ 个时间步的预测。
评分机制： 只有当真实观测值（Ground Truth）在后续时间点出现后，才会对之前的预测进行评分。
动态更新： 截止点按预测步长（Horizon）间隔推进（例如每日预测的截止点间隔为 7 天）。最新的截止点被排除，因为数据可能尚未完整。
指标体系：
- 点预测精度： 使用 MASE (Mean Absolute Scaled Error)。
- 概率分布预测： 使用缩放后的 CRPS (Continuous Ranked Probability Score)，基于 9 个分位点 ( $\tau \in \{0.1, \dots, 0.9\}$ )。
- 标准化处理： 所有分数相对于“零模型”（ZeroModel，即始终预测 0）进行缩放，以消除不同子数据集量级差异的影响。

2.3 模型集合 (Models Evaluated)

基准测试涵盖了 12 个模型，分为三类：

基线模型 (Baselines)： ZeroModel, HistoricAverage, SeasonalNaive。
统计模型 (Statistical Models)： AutoARIMA, AutoETS, AutoCES, Dynamic Optimized Theta, Prophet。
基础模型 (Foundation Models)： Chronos-2, Moirai 2.0-R-Small, TimesFM 2.5, TiRex。

所有模型均通过 TimeCopilot 框架统一运行，基础模型在 A10G GPU 上运行，统计模型在 CPU 上运行。

3. 关键贡献 (Key Contributions)

首个时序泛化活体基准： Impermanent 是第一个设计用于评估时间序列预测中“时序泛化”（即模型在未见过的时间分布上持续表现的能力）的基准。
防泄露的评估协议： 通过“先预测、后评分”的连续流机制，彻底消除了静态基准中常见的数据泄露和测试集污染问题。
动态性能追踪： 允许研究者观察模型排名随时间推移的稳定性，识别哪些模型在分布漂移下表现稳健，哪些模型只是“过拟合”了特定时间段。
开源基础设施： 提供了完整的自动化管道（基于 Modal 和 S3），包括数据摄入、预测调度、评分和排行榜更新。所有代码、数据和实时仪表盘均开源。

4. 实验结果 (Results)

基于截至 2026 年 2 月 12 日的早期快照数据：

基础模型主导： 预训练的基础模型占据了排行榜的前四名。其中 TimesFM 在四个列（MASE 和 CRPS 的中位数及平均排名）中表现最佳。
性能分化：
- TimesFM 在点预测（MASE）和概率校准（CRPS）上均表现优异。
- SeasonalNaive 虽然点预测排名尚可（MASE 排名第 5.39），但在概率校准方面表现较差（CRPS 排名第 9.50）。
- AutoETS 和 AutoARIMA 在概率预测（CRPS）上表现与 DynOptTheta 相当，尽管其点预测精度较弱。
动态性验证： 由于 Impermanent 是连续更新的，模型排名会随着新截止点的积累而波动。这证明了静态基准无法捕捉到的性能不稳定性。

5. 意义与未来展望 (Significance & Future Work)

学术与实践意义：

重新定义评估标准： 将评估重心从“静态准确率”转移到“持续性能（Sustained Performance）”，更真实地反映了模型在现实世界部署中的表现。
解决基础模型信任危机： 为验证基础模型是否真正具备跨时间、跨分布的泛化能力提供了可信的测试床，而非仅仅依赖可能已被污染的数据集。
推动鲁棒性研究： 鼓励研究者关注模型对分布偏移、结构断裂和概念漂移的鲁棒性。

未来工作：

扩展数据源： 将基准扩展到更多类型的实时数据流（如金融、物联网等）。
丰富任务： 引入辅助上下文信息，支持多变量预测和更长的预测视界。
长期追踪： 利用更长的评估周期来深入理解模型排名的动态演变规律。

总结：
Impermanent 通过引入“活体”评估范式，填补了时间序列基础模型评估领域的关键空白，为判断模型是否真正实现了“基础级泛化”提供了科学、透明且可复现的标准。

资源链接：

GitHub 代码库：https://github.com/TimeCopilot/impermanent
实时仪表盘：https://impermanent.timecopilot.dev