DyWPE: Signal-Aware Dynamic Wavelet Positional Encoding for Time Series Transformers

本文介绍了 DyWPE,这是一种新颖的信号感知位置编码框架,它利用离散小波变换直接从输入时间序列生成嵌入,从而在处理跨多种数据集的复杂非平稳动态方面优于现有方法。

原作者: Habib Irani, Vangelis Metsis

发布于 2026-05-07
📖 1 分钟阅读☕ 轻松阅读

原作者: Habib Irani, Vangelis Metsis

原始论文采用 CC BY 4.0 许可(http://creativecommons.org/licenses/by/4.0/)。 这是对下方论文的AI生成解释。它不是由作者撰写或认可的。如需技术准确性,请参阅原始论文。 阅读完整免责声明

Each language version is independently generated for its own context, not a direct translation.

想象一下,你正在尝试教一个机器人理解由一系列数字(时间序列)讲述的故事。在人工智能领域,一种流行的工具被称为Transformer。你可以把 Transformer 想象成一个超级聪明的读者,它一次性审视整个故事以理解其含义。

然而,这里有一个陷阱:Transformer 天生对顺序“视而不见”。如果你打乱一本书的页码,Transformer 看到的仍然是相同的文字,但它不知道哪一页在前,哪一页在后。为了解决这个问题,我们通常会为每一页给机器人一个“姓名标签”,告诉它:“你是第 1 页”、“你是第 2 页”,以此类推。这被称为位置编码

问题:“一刀切”的姓名标签

该论文指出,以往分配这些姓名标签的方式存在缺陷。目前,机器人获得的标签仅基于页码,是通用的。

  • 缺陷所在:想象故事中的两页。第 10 页是一个平静、安静的场景,什么也没发生。第 100 页则是一场混乱的爆炸,动作迅速。
  • 旧方法:机器人获得了一个代表“第 10 页”的标签和一个代表“第 100 页”的标签。但故事的内容并没有改变标签。机器人对待安静页面和爆炸页面的方式完全相同,仅仅因为它们都是“页面”。它忽略了数据实际的氛围

这对于时间序列(如心率监测仪或股票价格)来说是不利的,因为“氛围”在不断变化。有时信号平滑缓慢,有时则参差不齐且迅速。旧方法忽略了这一点。

解决方案:DyWPE(“智能”姓名标签)

作者引入了DyWPE(动态小波位置编码)。他们不再根据数字给机器人一个通用标签,而是根据数据在那一刻实际发生的情况,给它一个智能的、量身定制的标签

以下是他们如何做到的,使用一个简单的类比:

1. 小波“显微镜”(DWT)
想象你有一段漫长且杂乱的暴风雨录音。

  • 旧方法只是说:“这是第 5 分钟。”
  • DyWPE 方法使用一种名为小波变换的特殊数学工具。你可以把它想象成一台可以放大和缩小的显微镜。它将信号分解为不同的“层”:
    • 宏观图景:暴风雨中缓慢翻滚的波浪(低频)。
    • 细节:闪电的尖锐爆裂声和急促的雨声(高频)。

2. “动态门控”(智能过滤器)
一旦显微镜将信号分解为这些层,DyWPE 不仅仅观察这些层;它利用这些层来生成位置标签。

  • 如果那一刻的信号平静缓慢,标签会说:“我是时间线上的一个平静点。”
  • 如果信号混乱且迅速,标签会说:“我是时间线上的一个混乱点。”
  • 这就像给旅行者颁发一枚徽章,徽章的颜色会根据他们当前行走的天气而变化,而不仅仅是根据他们在地图上的位置。

3. 重新整合
最后,他们将这些定制标签重新拼接在一起,输入到 Transformer 中。现在,当 Transformer 读取数据时,它不仅知道它在哪里,还知道它正在经历什么样的时刻

他们发现了什么?

研究人员在10 个不同的数据集上测试了这种新的“智能标签”系统,范围包括:

  • 脑电图(EEG)脑电波(睡眠和自我调节)。
  • 人类运动(行走、跑步)。
  • 音频(日语元音)。
  • 交通和传感器数据

结果:

  • 更高的准确率:在几乎每一项测试中,使用“智能标签”(DyWPE)的机器人都比使用旧“通用标签”的机器人更好地理解数据。
  • 长故事:改进在长序列数据中尤为巨大。故事越长,旧方法越容易混淆,而 DyWPE 则保持敏锐。
  • 复杂信号:它在混乱、复杂的信号(如脑电波)上效果最好,这些信号的图案变化迅速。
  • 速度:尽管它需要更多工作来分析信号,但它仍然足够快,具有实用性,并且与现有的最佳方法相比,并没有显著拖慢速度。

结论

该论文声称,通过阻止人工智能忽略数据的实际“形状”,而是让数据本身决定位置标签,我们获得了一个更智能、更准确的模型,用于理解基于时间的信息。这就像是一个只会数"1、2、3"的机器人与一个理解"1 是平静,2 是混乱,3 是安静”的机器人之间的区别。

您所在领域的论文太多了?

获取与您研究关键词匹配的最新论文每日摘要——附技术摘要,使用您的语言。

试用 Digest →