Lightweight Time Series Data Valuation on Time Series Foundation Models via In-Context Finetuning

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一种名为 LTSV 的新方法，它的核心任务是：给时间序列数据（比如股票走势、天气记录、心率监测）“打分”，告诉我们在训练超级智能的“时间序列大模型”时，哪些数据是宝贝，哪些是垃圾。

为了让你更容易理解，我们可以把整个过程想象成**“挑选食材来训练一位顶级大厨”**。

1. 背景：大厨需要好食材

现在的“时间序列基础模型”（TSFMs）就像是一位天赋异禀的超级大厨。他读过海量的食谱（数据），能预测未来的天气、股价或疾病趋势。

问题：这位大厨虽然聪明，但如果给他吃的是腐烂的蔬菜（低质量数据）或者过期的肉（错误数据），他做出来的菜（预测结果）也会很难吃。
目标：我们需要一种方法，在把数据喂给大厨之前，就能精准地分辨出哪些是“顶级食材”，哪些是“废料”。

2. 旧方法的困境：太慢、太贵

以前，人们想给食材打分，用的是“影响函数”（Influence Functions）或“沙普利值”（Shapley Values）。

比喻：这就像是为了判断一颗土豆好不好，你要把整个厨房拆了，重新计算如果没有这颗土豆，大厨的厨艺会下降多少。
缺点：对于那种拥有几十亿参数（相当于拥有几亿种烹饪技巧）的超级大厨来说，这种“拆厨房重算”的方法太慢了，算到地老天荒也算不完，而且容易算错（因为数据是连续流动的，像河流一样，旧方法容易忽略这种连续性）。

3. LTSV 的妙招：试吃一口（上下文微调）

这篇论文提出的 LTSV 方法，换了一种更聪明的思路：“试吃”。

核心思想：
与其把整个厨房拆了，不如直接拿这颗土豆（数据样本），让大厨快速尝一口（进行一步“上下文微调”），看看大厨尝完这口后，做下一道菜（上下文数据）的水平有没有提升。
- 如果尝了这口土豆，大厨做下一道菜更香了 $\rightarrow$ 这颗土豆是好食材（高分）。
- 如果尝了这口土豆，大厨反而手抖做砸了 $\rightarrow$ 这颗土豆是坏食材（低分）。
为什么快？
这种方法不需要重新计算复杂的数学公式（不需要算那个巨大的“海森矩阵”），只需要做一次简单的“尝一口”动作。这就好比从“拆厨房重算”变成了“快速试吃”，速度提升了成千上万倍。

4. 特殊技巧：像切香肠一样处理时间

时间序列数据有个特点：它是连续的，像一条流动的河，或者一根长长的香肠。如果只切一小块来尝，可能尝不出整根香肠的味道。

LTSV 的“块聚合”策略：
作者把时间序列数据像切香肠一样，切成很多重叠的小块（Temporal Block Aggregation）。
- 先给每一小块“香肠”打分。
- 因为小块之间有重叠，最后把重叠部分的分数加起来平均，就能得到每一个时间点、甚至每一整段数据的准确分数。
- 好处：这样既照顾了时间的连续性（前一刻的状态会影响后一刻），又不会漏掉细节。

5. 实验结果：真的好用吗？

作者在五个不同的数据集（电力、汇率、天气等）和三种不同的大模型上做了测试：

挑得好：用 LTSV 挑出来的“好食材”（高分数据）去训练模型，效果比用全部数据训练还要好，或者至少一样好。
扔得对：把 LTSV 打低分的“坏食材”扔掉，模型反而不受影响，甚至因为去除了噪音而变得更聪明。
通用性强：用在大模型上算出来的“好食材”名单，直接拿去训练那些普通的小模型（比如 DLinear, PatchTST），小模型也能表现得更好。这说明 LTSV 找到的规律是通用的。
速度快：对于拥有几亿参数的大模型，旧方法可能需要跑几天，而 LTSV 只需要跑几分钟。

总结

LTSV 就像是一个高效的“食材质检员”。
它不需要把整个厨房（大模型）拆了重装，而是通过**“快速试吃”（上下文微调）和“分段品尝”**（块聚合），就能迅速、准确地告诉我们要保留哪些数据，扔掉哪些数据。

一句话概括：
在训练超级时间序列大模型时，LTSV 用一种既快又准的“试吃”方法，帮我们筛选出最有价值的“数据食材”，让模型学得更聪明，同时省去了昂贵的计算成本。

Each language version is independently generated for its own context, not a direct translation.

1. 研究背景与问题 (Problem)

背景：
时间序列基础模型（Time Series Foundation Models, TSFMs）通过在大规模、多样化的时间序列数据上进行预训练，展现了强大的泛化能力。然而，TSFMs 的性能高度依赖于训练数据的质量。

核心问题：
如何对时间序列数据进行准确且高效的数据估值（Data Valuation），即量化单个时间序列样本对模型整体性能的贡献？

现有方法的局限性：
- 计算瓶颈： 传统方法（如基于影响函数 Influence Functions 或 Shapley 值的方法）需要计算海森矩阵（Hessian Matrix）的逆或进行指数级的子集采样。对于参数量达百万甚至十亿级的 TSFMs，这些方法的计算成本是不可接受的。
- 时序依赖丢失： 许多估值方法未能有效捕捉时间序列数据特有的时序依赖关系（Temporal Dependencies）。
- 扩展性差： 现有方法难以扩展到大规模基础模型。

2. 方法论 (Methodology: LTSV)

作者提出了 LTSV（Lightweight Time Series Valuation），一种基于**上下文微调（In-Context Finetuning）**的轻量级时间序列数据估值框架。

2.1 核心理论：基于上下文微调的影响函数近似

理论基础： 论文证明了单步上下文微调引起的上下文损失（Context Loss）变化，可以近似经典的影响函数（Influence Function）。
数学原理：
- 经典影响函数计算样本 $z$ 对上下文样本 $z'$ 的影响需要计算海森矩阵逆 $H^{-1}$ ，计算复杂度极高。
- LTSV 利用一阶泰勒展开，将影响函数近似为：
  $\text{Infl}(z, z') \propto L(z'; \theta) - L(z'; \theta_{\text{finetuned}})$
  其中 $\theta_{\text{finetuned}}$ 是仅在样本 $z$ 上进行一次梯度下降更新后的参数。
- 优势： 这种方法将计算复杂度从 $O(P^3)$ （海森矩阵求逆）降低到了 $O(P)$ （单次梯度计算），且无需存储海森矩阵。

2.2 时间序列特定设计：时序块聚合 (Temporal Block Aggregation)

为了保留时间序列的时序依赖关系，LTSV 引入了分层估值机制：

块分割 (Block Segmentation)： 将原始时间序列划分为重叠的固定长度时间块（Time Blocks）。
块级估值 (Block Scoring)： 将每个时间块视为一个“目标样本”，对预训练的 TSFM 进行单步上下文微调，计算微调前后在上下文数据集上的损失差值，作为该块的估值分数。
点级聚合 (Point-wise Aggregation)： 由于时间点是重叠覆盖的，通过平均覆盖该时间点的所有块的分数，得到每个时间点的估值。
样本级聚合 (Sample-wise Aggregation)： 将样本内所有时间点的分数平均，得到最终样本的数据质量评分。

2.3 计算复杂度

传统方法： $O(nP^2 + P^3)$ ，其中 $n$ 为样本数， $P$ 为参数量。
LTSV： $O(nP)$ 。仅需对每个块进行一次前向和反向传播，且块之间可并行处理，具有极高的可扩展性。

3. 主要贡献 (Key Contributions)

解决可扩展性问题： 首次提出了针对现代时间序列基础模型（TSFMs）的准确且可扩展的数据估值方法，克服了传统方法在大规模模型上的计算不可行性。
提出 LTSV 框架： 创新性地利用“上下文微调”来近似影响函数，在保持估值保真度（Fidelity）的同时，实现了轻量级计算。
引入时序感知机制： 通过时序块聚合策略，有效捕捉了时间序列的局部依赖关系，避免了传统方法对时序结构的破坏。
广泛的实验验证： 在 5 个主流数据集和 3 种不同架构的 TSFMs（Time-MoE, Time-LLM, MOMENT）上进行了验证，并证明了估值结果能有效迁移到下游传统模型。

4. 实验结果 (Results)

实验在 Electricity, Exchange Rate, Weather, Illness, ETT 五个数据集上进行，对比了 Time-MoE, Time-LLM, MOMENT 三种基础模型。

数据选择有效性 (Main Results)：
- Top-k 选择： 使用 LTSV 评分最高的 50% 数据进行微调，其预测性能（MSE/MAE）显著优于使用最低 50% 数据的情况，甚至在某些场景下优于使用全量数据微调的效果。
- Bottom-k 选择： 使用低分数据微调往往带来微小的提升甚至性能下降，证明 LTSV 能有效识别低质量/无信息样本。
计算效率 (Efficiency)：
- 随着模型参数量增加（从线性模型到 2 亿参数的 TimeMoE），传统影响函数方法的计算时间呈近立方级增长，而 LTSV 保持线性增长。
- 对于大规模基础模型，传统方法因计算时间过长而无法执行，LTSV 则能在合理时间内完成。
泛化能力 (Generalization)：
- 在基础模型（如 Time-MoE）上计算出的数据估值，能够有效地迁移到下游不同架构的模型（如 DLinear, PatchTST, PAttn）。
- 基于 LTSV 筛选的高质量数据，能显著提升下游模型的预测性能，其效果与直接在下游模型上计算昂贵的影响函数或 Shapley 值相当。
消融实验： 验证了不同块长度（Block Length）对结果的影响，表明 LTSV 对块长度参数具有鲁棒性，中等长度的块（如 75-100）效果最佳。

5. 意义与价值 (Significance)

理论与实践的桥梁： 该工作成功地将数据归因（Data Attribution）理论与时间序列基础模型的泛化能力相结合，证明了在基础模型上进行上下文微调是进行数据估值的有效途径。
资源优化： 为 TSFMs 的训练提供了高效的数据筛选工具，使得在资源受限的情况下，通过筛选高质量数据即可达到甚至超越全量数据训练的效果。
数据质量治理： 提供了一种可落地的方案，用于识别和过滤时间序列数据中的噪声、异常或无代表性样本，对于金融、医疗、气候等关键领域的数据清洗和模型训练具有重要指导意义。
开源贡献： 作者开源了代码，推动了时间序列数据估值领域的进一步发展。

总结：
LTSV 通过巧妙的理论近似（用单步微调替代海森矩阵求逆）和时序结构设计（块聚合），解决了时间序列基础模型数据估值中“计算昂贵”和“时序依赖丢失”两大痛点，为大规模时间序列模型的数据治理提供了一套高效、准确且通用的解决方案。