Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一种名为 HaKAN 的新模型，它就像是一个超级聪明的“时间序列预测员”，专门用来预测未来的数据（比如明天的天气、下个月的用电量或未来的交通流量）。

为了让你更容易理解，我们可以把预测未来想象成**“看云识天气”或者“读故事猜结局”**。

1. 为什么我们需要 HaKAN？（现有的问题）

在 HaKAN 出现之前，预测未来主要靠两类“专家”，但它们都有点“偏科”：

Transformer 类模型（像“显微镜”）：
- 特点： 它们非常擅长观察数据中长长的、复杂的联系（比如今天下雨可能和三天前的气压有关）。
- 缺点： 它们太“费脑子”了。数据一多，计算量就会爆炸式增长（就像你要同时盯着成千上万只蚂蚁，眼睛都花了）。而且，它们有时候会搞混时间的先后顺序，把“昨天”和“明天”混在一起看。
MLP 类模型（像“直线思维者”）：
- 特点： 它们计算很快，很轻量级。
- 缺点： 它们太“死板”了。现实世界的数据往往忽高忽低、弯弯曲曲（像过山车），但这类模型习惯用直线去拟合，导致它们抓不住那些复杂的、剧烈的波动（比如突然的股市崩盘或气温骤降）。

HaKAN 的出现，就是为了解决这两个问题：既要有 Transformer 的“大局观”，又要有 MLP 的“轻快身法”，还要能看懂复杂的“曲线”。

2. HaKAN 是怎么工作的？（核心魔法）

HaKAN 的核心魔法来自一个叫 KAN（柯尔莫哥洛夫 - 阿诺德网络） 的东西，但它加了一个特殊的“调料”——哈恩多项式（Hahn Polynomials）。

我们可以把 HaKAN 的工作流程想象成**“切菜、腌制、烹饪”**的过程：

第一步：切菜（Patching & Channel Independence）

切菜（Patching）： 模型不会把一整年的数据一次性吞下去，而是像切黄瓜一样，把时间轴切成一段一段的小块（Patch）。这样既能看清局部细节（比如这一小时发生了什么），又能处理长数据。
独立腌制（Channel Independence）： 如果有 20 个变量（比如温度、湿度、风速），HaKAN 不会把它们混在一起搅拌，而是每个变量单独腌制。因为温度有自己的规律，湿度有自己的脾气，混在一起反而容易搞乱。

第二步：特殊的“魔法调料”（Hahn Polynomials）

这是 HaKAN 最厉害的地方。

普通的模型（MLP）用的激活函数像是固定的模具，形状是死的。
HaKAN 用的哈恩多项式像是**“智能橡皮泥”。它不是固定的形状，而是可以根据数据自己变形**。
- 如果数据是平缓的，它就变平缓；
- 如果数据是剧烈波动的，它就变出复杂的波浪形状。
- 比喻： 就像你捏泥人，普通模型只能捏出固定的圆球，而 HaKAN 能捏出任何你需要的形状，而且捏得特别快，不需要像传统方法那样先画网格再填色。

第三步：双层烹饪（Intra & Inter-Patch KAN）

HaKAN 的厨房里有两个厨师，分工合作：

内层厨师（Intra-Patch）： 专门盯着每一小块（Patch）内部。比如，它负责分析“这一小时内”温度是怎么突然飙升的。它负责细节。
外层厨师（Inter-Patch）： 专门看所有小块之间的关系。比如，它负责分析“这一小时”和“上一小时”以及“昨天同一时间”有什么联系。它负责大局。

这两个厨师互相配合，既能看清微观的波动，又能把握宏观的趋势。

第四步：压缩与输出（Bottleneck）

最后，模型会把学到的所有复杂信息，通过一个“瓶颈”（Bottleneck）进行压缩，提炼出最精华的结论，然后预测未来的数值。这就像把一本厚厚的书压缩成一张精华摘要，既省空间又保留了核心思想。

3. HaKAN 厉害在哪里？（实验结果）

作者在多个著名的数据集上（比如天气、电力、交通、流感数据）进行了测试，结果发现：

更准： 在预测未来 24 小时到 720 小时（30 天）的数据时，HaKAN 的准确率通常比目前最先进的方法（SOTA）都要高。
更快、更省： 因为它不需要像 Transformer 那样进行复杂的“注意力”计算，也不需要像传统 KAN 那样依赖复杂的网格，所以它的计算速度非常快，占用的内存也很少。
可解释： 因为它的“智能橡皮泥”（哈恩多项式）是可以被数学公式描述的，所以科学家不仅能知道它预测对了，还能大致理解它是怎么算出来的（不像某些黑盒模型）。

4. 总结

简单来说，HaKAN 就是一个“既懂大局又懂细节，还能灵活变通”的预测专家。

它不像 Transformer 那样笨重；
它不像普通 MLP 那样死板；
它利用哈恩多项式这把“万能钥匙”，完美地打开了复杂时间序列预测的大门。

这篇论文告诉我们：在预测未来这件事上，有时候不需要更复杂的“大模型”，而是需要更聪明、更灵活的“小模型”。HaKAN 就是这样一个聪明的小模型。

Each language version is independently generated for its own context, not a direct translation.

论文技术总结：基于 Hahn 科尔莫戈罗夫 - 阿诺德网络 (HaKAN) 的时间序列预测

1. 研究背景与问题定义

时间序列预测是零售、能源、交通、医疗和金融等领域的关键任务。尽管基于 Transformer 和多层感知机（MLP）的模型在长期多变量时间序列预测中取得了显著进展，但它们仍存在以下局限性：

Transformer 类模型：虽然能捕捉长程依赖，但存在二次方复杂度（随序列长度平方增长），且其排列等变（permutation-equivariant）的注意力机制与时间序列的因果性质相悖。
MLP 类模型：计算效率高，但存在频谱偏差（spectral bias），难以建模高频分量，且过度依赖线性变换，导致在非线性动态主导的数据集上表现次优。
现有 KAN 模型：虽然引入了可学习激活函数，但通常基于 B-样条，需要网格离散化，导致参数和计算复杂度高。

核心问题：如何设计一个既具备计算高效性（低复杂度），又能有效捕捉局部和全局非线性时间模式，且可解释的模型，以克服上述方法的缺陷。

2. 方法论：HaKAN 框架

作者提出了 HaKAN (Hahn Kolmogorov-Arnold Network)，一种基于 Hahn 多项式的可学习激活函数的新型多变量长期时间序列预测框架。

2.1 核心架构组件

模型采用**通道独立性（Channel Independence）**策略，即对每个变量单独处理，最后合并结果。主要流程如下：

输入预处理：
- 可逆实例归一化 (RevIN)：处理数据分布随时间的偏移。
- Patching (分块)：将时间序列划分为重叠的块（Patches），以捕捉局部语义并提高计算效率。
- Patch 与位置编码：将每个 Patch 投影到嵌入空间，并添加可学习的位置编码以保留时间顺序。
Hahn-KAN Block (核心模块)：
- 模型堆叠了 $R$ $R$ 个 Hahn-KAN 块。每个块包含两层 KAN 层，均使用 Hahn 多项式参数化可学习激活函数：
  - Intra-Patch KAN (块内层)：专注于局部时间模式（如短窗口内的突变），进行特征混合。
  - Inter-Patch KAN (块间层)：专注于全局时间模式（如跨越整个回看窗口的趋势），进行 Patch 间的关系建模。
- 残差连接：确保训练稳定性，允许模型学习增量更新。
- Hahn 多项式优势：
  - 无需网格离散化（Grid Discretization），消除了标准 KAN 对网格大小 $G$ 的依赖。
  - 计算复杂度从标准 KAN 的 $O(d_{in}d_{out}[9d(G+1.5d)+...])$ 降低至 $O(d_{in}d_{out}d)$ （其中 $d$ 为多项式次数，通常很小），与 MLP 相当。
  - 参数量显著减少，且具备闭式递推关系，计算高效。
瓶颈结构输出层 (Bottleneck Structure)：
- 将特征展平后，通过一个由两个全连接层组成的瓶颈结构（先降维至 $H$ ，再升维至预测长度 $T$ ）。
- 这种设计减少了过拟合风险并降低了输出层的计算成本。
- 最后通过 RevIN 反归一化恢复原始数据尺度。

2.2 数学原理

KAN 层中的激活函数 $\phi_{q,p}$ 被定义为 Hahn 多项式的加权和：
$\phi_{q,p}(x_p) = \sum_{r=0}^{d} \gamma_{q,p,r} P_r(x_p)$
其中 $P_r(x)$ 是参数为 $a, b, n$ 的 Hahn 多项式， $\gamma$ 为可学习系数。Hahn 多项式是离散域上的正交基，适合处理离散时间序列数据。

3. 主要贡献

提出 HaKAN 框架：首个将 Hahn 多项式参数化的 KAN 应用于多变量长期时间序列预测的模型，结合了 KAN 的表达能力和 Hahn 多项式的计算效率。
创新的双层 KAN 块设计：设计了集成 Intra-Patch（局部）和 Inter-Patch（全局）K AN 层的 Hahn-KAN 块，能够同时捕捉细粒度的局部波动和长程的全局依赖，且无需像 MLP 那样依赖极长的输入序列。
性能与效率的双重突破：
- 在多个基准数据集上超越了 SOTA 方法（如 PatchTST, iTransformer, TimeKAN 等）。
- 通过消除网格依赖，实现了接近 MLP 的线性时间复杂度，同时保留了 KAN 的可解释性和非线性拟合能力。

4. 实验结果与分析

4.1 数据集与基线

数据集：Weather, Electricity, Illness, Traffic, 以及 4 个 ETT 数据集 (ETTh1/2, ETTm1/2)。
基线模型：包括 Transformer 类 (PatchTST, iTransformer, FEDformer)、MLP 类 (DLinear, RLinear)、以及最新的 KAN 类 (TimeKAN, TsKAN) 和 Mamba 类 (S-Mamba)。

4.2 主要发现

预测精度：HaKAN 在 32 个测试案例中，MSE 和 MAE 指标均取得了最佳或次佳结果。特别是在 Illness 数据集上，平均 MSE 和 MAE 分别降低了 8.98% 和 3.96%。
固定回看窗口表现：在固定 $L=96$ 的设定下，HaKAN 在 5 个基准数据集上均取得了最佳的平均误差，优于 PatchTST 和 Crossformer 等强基线。
消融实验：
- 基函数选择：Hahn 多项式优于 Lucas、Chebyshev 和 B-Splines。
- 模块数量： $R=5$ 个块在性能和参数量之间达到最佳平衡。
- 局部与全局：移除 Intra-Patch 层导致性能下降最严重（MSE 升至 0.559），移除 Inter-Patch 层次之，证明两者缺一不可，且局部特征细化至关重要。
- Patch 长度： $P=16$ 时效果最佳。
HaKAN vs. MLP：将 KAN 层替换为全连接层（MLP 变体）后，性能显著下降，证明了 Hahn 多项式激活函数在捕捉复杂时间动态方面的优越性。

4.3 复杂度分析

时间复杂度： $O(M[R(N^2D + ND^2) + NDH + HT])$ 。由于 Patching 使得 $N \ll L$ ，且去除了注意力机制的 $L^2$ 项，HaKAN 在处理长序列时比 Transformer 更高效。
空间复杂度：显著低于标准 KAN，因为不需要存储网格相关的参数。

5. 意义与局限性

意义：

理论创新：成功将离散正交多项式（Hahn）引入深度学习的时间序列建模，解决了标准 KAN 计算昂贵的问题。
实用价值：提供了一个轻量级、可解释且高精度的预测模型，特别适合资源受限或需要快速推理的场景。
架构设计：证明了“通道独立 + Patching + 分层 KAN"架构在捕捉多尺度时间依赖方面的有效性。

局限性：

通道独立性假设：模型假设各变量独立处理，这在变量间存在强相关性（如 Traffic 数据集）时可能限制性能上限。
未来方向：作者计划探索将 HaKAN 与频域技术结合，以进一步增强对周期性模式的建模能力。

总结：HaKAN 通过引入 Hahn 多项式参数化的 KAN 层，成功平衡了时间序列预测中的表达能力、计算效率和可解释性，为长期预测任务提供了一种极具潜力的新范式。

Time series forecasting with Hahn Kolmogorov-Arnold networks