Each language version is independently generated for its own context, not a direct translation.

想象一下，你正在尝试教一个机器人理解由一系列数字（时间序列）讲述的故事。在人工智能领域，一种流行的工具被称为Transformer。你可以把 Transformer 想象成一个超级聪明的读者，它一次性审视整个故事以理解其含义。

然而，这里有一个陷阱：Transformer 天生对顺序“视而不见”。如果你打乱一本书的页码，Transformer 看到的仍然是相同的文字，但它不知道哪一页在前，哪一页在后。为了解决这个问题，我们通常会为每一页给机器人一个“姓名标签”，告诉它：“你是第 1 页”、“你是第 2 页”，以此类推。这被称为位置编码。

问题：“一刀切”的姓名标签

该论文指出，以往分配这些姓名标签的方式存在缺陷。目前，机器人获得的标签仅基于页码，是通用的。

缺陷所在：想象故事中的两页。第 10 页是一个平静、安静的场景，什么也没发生。第 100 页则是一场混乱的爆炸，动作迅速。
旧方法：机器人获得了一个代表“第 10 页”的标签和一个代表“第 100 页”的标签。但故事的内容并没有改变标签。机器人对待安静页面和爆炸页面的方式完全相同，仅仅因为它们都是“页面”。它忽略了数据实际的氛围。

这对于时间序列（如心率监测仪或股票价格）来说是不利的，因为“氛围”在不断变化。有时信号平滑缓慢，有时则参差不齐且迅速。旧方法忽略了这一点。

解决方案：DyWPE（“智能”姓名标签）

作者引入了DyWPE（动态小波位置编码）。他们不再根据数字给机器人一个通用标签，而是根据数据在那一刻实际发生的情况，给它一个智能的、量身定制的标签。

以下是他们如何做到的，使用一个简单的类比：

1. 小波“显微镜”（DWT）
想象你有一段漫长且杂乱的暴风雨录音。

旧方法只是说：“这是第 5 分钟。”
DyWPE 方法使用一种名为小波变换的特殊数学工具。你可以把它想象成一台可以放大和缩小的显微镜。它将信号分解为不同的“层”：
- 宏观图景：暴风雨中缓慢翻滚的波浪（低频）。
- 细节：闪电的尖锐爆裂声和急促的雨声（高频）。

2. “动态门控”（智能过滤器）
一旦显微镜将信号分解为这些层，DyWPE 不仅仅观察这些层；它利用这些层来生成位置标签。

如果那一刻的信号平静缓慢，标签会说：“我是时间线上的一个平静点。”
如果信号混乱且迅速，标签会说：“我是时间线上的一个混乱点。”
这就像给旅行者颁发一枚徽章，徽章的颜色会根据他们当前行走的天气而变化，而不仅仅是根据他们在地图上的位置。

3. 重新整合
最后，他们将这些定制标签重新拼接在一起，输入到 Transformer 中。现在，当 Transformer 读取数据时，它不仅知道它在哪里，还知道它正在经历什么样的时刻。

他们发现了什么？

研究人员在10 个不同的数据集上测试了这种新的“智能标签”系统，范围包括：

脑电图（EEG）脑电波（睡眠和自我调节）。
人类运动（行走、跑步）。
音频（日语元音）。
交通和传感器数据。

结果：

更高的准确率：在几乎每一项测试中，使用“智能标签”（DyWPE）的机器人都比使用旧“通用标签”的机器人更好地理解数据。
长故事：改进在长序列数据中尤为巨大。故事越长，旧方法越容易混淆，而 DyWPE 则保持敏锐。
复杂信号：它在混乱、复杂的信号（如脑电波）上效果最好，这些信号的图案变化迅速。
速度：尽管它需要更多工作来分析信号，但它仍然足够快，具有实用性，并且与现有的最佳方法相比，并没有显著拖慢速度。

结论

该论文声称，通过阻止人工智能忽略数据的实际“形状”，而是让数据本身决定位置标签，我们获得了一个更智能、更准确的模型，用于理解基于时间的信息。这就像是一个只会数"1、2、3"的机器人与一个理解"1 是平静，2 是混乱，3 是安静”的机器人之间的区别。

Each language version is independently generated for its own context, not a direct translation.

技术摘要：DyWPE——面向时间序列 Transformer 的信号感知动态小波位置编码

1. 问题陈述

Transformer 架构中当前的位置编码（PE）方法在根本上是信号无关的。无论是利用正弦编码、可学习的绝对嵌入，还是相对位置方案，这些方法都仅从抽象的序列索引（ $0, 1, \dots, L-1$ ）中推导位置信息。它们对输入信号的基础特征一无所知。

这一局限性在时间序列分析中尤为关键，因为数据通常表现出复杂的非平稳动态和多尺度模式。传统的位置编码将相同的表示分配给出现在相同绝对索引处的不同时间上下文——例如，将一段稳定、低方差的时期与一段波动、高频振荡的时期视为具有相同的位置表示。这种无法捕捉不同时间特征的能力阻碍了有效建模，特别是在非平稳信号中，其统计特性随时间变化，或者不同频率分量承载不同语义意义的情况下。尽管近期研究已注意到不同位置编码策略之间的性能差异，但尚无现有方法解决信号无关定位这一根本局限性。

2. 方法论：动态小波位置编码（DyWPE）

作者提出了DyWPE，这是一种新颖的框架，直接从输入时间序列信号内容而非序列索引生成位置嵌入。其核心理念是将位置编码视为信号的可学习函数 $P = f(X, \theta)$ ，而非索引的函数 $P = f(\text{indices})$ 。

该架构通过五个顺序步骤运行：

通道投影：对于多变量输入，一个可学习的投影向量（ $w_{channel}$ ）将输入通道压缩为单个代表性通道（ $x_{mono}$ ），以捕捉最相关的时间动态。
多级小波分解：对投影后的信号应用 $J$ $J$ 级一维离散小波变换（DWT）。这产生：
- 近似系数（ $c_{A_J}$ ），代表低频、大尺度趋势。
- 细节系数（ $c_{D_j}$ ），代表高频、细粒度模式。
可学习尺度嵌入：模型引入可学习的嵌入向量，作为每个时间尺度的“原型”（ $e_{A_J}, e_{D_J}, \dots, e_{D_1}$ ）。
动态调制：这是核心创新。实际的小波系数通过门控机制动态调制可学习的尺度嵌入：
$\text{gate}(e, c) = (\sigma(W_g e) \odot \tanh(W_v e)) \otimes c'$
这使得位置表示能够适应信号的局部行为（例如，区分瞬态尖峰与平滑趋势），通过根据信号的实际内容对尺度原型进行加权。
重构：利用小波的完美重构特性，通过逆离散小波变换（IDWT）将调制的多尺度信息合成为长度为 $L$ 的序列，从而生成最终的位置嵌入 $P_{DyWPE}$ 。

3. 主要贡献

该论文概述了四项主要贡献：

首个信号感知框架：DyWPE 是首个直接从信号内容而非序列索引推导位置信息的位置编码方法。
计算效率：实现利用具有线性 $O(L)$ 复杂度的 DWT/IDWT 操作，避免了其他先进位置编码方法中常见的二次缩放。
全面验证：在十个多样化的时间序列数据集上进行的广泛实验表明，其性能一致优于八种既有的位置编码方法。
消融分析：研究验证了特定组件（包括动态调制和多尺度分解）的必要性，表明信号感知性和层次化分析对于性能提升至关重要。

4. 实验结果

实验在涵盖人类活动识别（HAR）、音频、脑电图（EEG）分类和传感器数据（包括 UEA 档案）的十个数据集上进行。DyWPE 框架被集成到 PatchTST 模型中，并与八种基线方法（如正弦、可学习、RoPE、ALiBi、T-PE）进行了比较。

整体性能：DyWPE 在10 个数据集中的 6 个上取得了最高准确率，并在其余数据集中排名前 2。
长序列：该方法在较长序列上表现出特别显著的改进。例如，在 SelfRegulationSCP2 数据集（1152 个时间步）上，DyWPE 达到了 61.2% 的准确率，大幅优于其他方法。
生物医学信号：在涉及复杂生理动态的领域（Sleep EEG、SelfRegulation），DyWPE 始终表现出顶级性能，有效捕捉了多尺度模式。
计算权衡：虽然由于信号处理，DyWPE 相比信号无关方法引入了轻微的实际开销，但其相对开销（基线的 1.48 倍）仍与其他最先进（SOTA）方法具有竞争力，许多其他方法具有更高的开销（例如 T-PE 为 1.95 倍）和二次复杂度。

消融研究结果

信号感知性：移除动态调制（静态小波 PE）导致所有数据集的平均性能下降1.09%，证实了适应信号特征的重要性。
多尺度分析：将完整的 DyWPE 与单尺度变体进行比较，表明多尺度分解有利于复杂信号（例如在 SR2 上提升 +7.3%），尽管简单模式可能不需要深度分解。
小波类型：虽然 Daubechies（db4）作为鲁棒的默认选择，但双正交小波（如 bior2.2）在复杂信号上显示出轻微改进，表明重构特性有助于信号感知编码。

5. 意义与主张

该论文声称，DyWPE 解决了时间序列 Transformer 中的一个根本性差距：位置信息与信号动态之间的脱节。通过将局部模式识别的负担卸载到位置编码层，DyWPE 使得自注意力机制能够更有效地专注于捕捉长程、高层级的依赖关系。

作者将 DyWPE 定位为不仅仅是渐进式改进，而是从基于索引到基于内容的定位的范式转变。结果表明，对于时间序列数据——特别是那些具有非平稳或多尺度特征的数据——将信号感知的归纳偏置纳入位置编码对于实现最先进性能至关重要。这项工作为涉及复杂时间数据的序列建模任务中如何构想位置信息确立了新的基准。

DyWPE: Signal-Aware Dynamic Wavelet Positional Encoding for Time Series Transformers