Anomaly Detection from a Tensor Train Perspective

想象一下，你拥有一个巨大的图书馆，里面藏书无数。大多数书籍都是同一本流行小说的副本（即“正常”数据），但其中几本却是奇怪的手写涂鸦或完全不同的体裁（即“异常”）。你的目标是在不阅读每一本书的情况下，找出那些奇怪的书籍。

本文提出了一种利用名为张量流（Tensor Trains）的数学工具来实现这一目标的新方法。请将此工具想象成并非一本书，而是一台高效的压缩机器（类似于超级先进的 Zip 文件）。

以下是其工作原理、所尝试的方法以及发现结果的简要概述。

核心理念：“挤压”测试

作者的主要理念基于一个简单原则：正常的事物彼此契合；怪异的事物则不然。

设置： 他们将数据集（例如数字图片或计算机网络日志）输入到压缩机器中。
挤压： 他们指示机器将数据“压扁”，丢弃微小的、不重要的细节以节省空间。
结果：
- 正常数据： 由于这些项目共享共同模式（例如所有数字"1"看起来都很相似），机器可以将它们压扁，然后将其复原到几乎原始的形状。它们完美地契合了模具。
- 异常数据： 由于这些项目怪异或独特，它们无法契合模具。当机器试图压扁它们时，会丢弃过多独特的结构。当尝试复原时，它们看起来会变形或破碎。

测试： 他们将原始项目与“复原”后的版本进行比较。如果两者非常相似，则为正常；如果差异很大，则为异常。

两种主要方法

本文描述了运行此测试的两种方式，就像组织图书馆的两种不同策略：

1. “全局”方法（群体拥抱）

工作原理： 你将整个图书馆（或其巨大的一部分）一次性输入压缩机器。机器学习整个群体的“平均”形状。
类比： 想象拍摄整个图书馆的照片，压缩该照片，然后观察每本书与该压缩照片的契合程度。
优点： 速度快，适用于大型数据集。
缺点： 启动时需要大量数据。

2. “局部”方法（一对一）

工作原理： 你只挑选一个完美的“正常”书籍示例（训练样本）。你基于这一本书构建模具。然后，你将所有其他书籍与该特定模具进行测试。
类比： 从数字数据集中选取一个完美的"1"，记住其形状，然后检查其他每个数字，看它们是否符合该特定的"1"模具。
优点： 它可以极其准确（有时完美）。
缺点： 速度极慢。论文指出，其速度比全局方法慢约 50 倍。

测试内容

作者在三个不同的“图书馆”上测试了这些方法：

手写数字： 尝试在主要由"1"组成的图书馆中找出"7"。
人脸： 尝试在满是同一个人的房间里找出不同的脸。
网络安全： 尝试在正常的计算机请求流中识别黑客攻击。

令人惊讶的发现

论文揭示了一些反直觉的结果：

不要过度压缩： 你可能会认为尽可能多地压缩数据是最好的。然而，作者发现非常轻微的压缩（仅轻微挤压）往往效果最好。如果挤压得太用力，你也会开始破坏“正常”模式，使得难以区分差异。
“缩放器”陷阱： 在数据科学中，通常在处理前对数据进行“缩放”（例如将所有照片调整为相同的亮度或大小）。作者发现，对于他们特定的方法，缩放实际上破坏了结果。这就像试图将方钉塞入圆孔；缩放破坏了机器需要看到的特定模式。
速度与准确性： “局部”方法最准确（在数字识别上获得完美分数），但对于大多数实际应用来说，它太慢而不切实际。“全局”方法是一个极佳的平衡点，提供了非常好的准确性（检测出 98% 的网络攻击），同时速度足够快，可以投入使用。

结论

作者创造了一种新方法，通过观察数据在压缩测试中的生存能力来发现“怪异”数据。他们表明，通过保持“正常”结构完整并让“怪异”结构瓦解，可以有效地识别异常。

关键要点： 有时，在干草堆中寻找针的最佳方式并非更努力地寻找，而是观察当你试图挤压它时，干草能保持多么紧密。如果干草散架了，你可能就找到了那根针。

技术摘要：基于张量积网络的异常检测视角

问题陈述
异常检测是工业监控、医疗诊断、欺诈检测和网络安全等领域的一项关键任务。其主要目标是识别显著偏离正常行为的数据点。尽管传统的统计方法、机器学习和深度学习已取得成功，但它们通常难以处理高维数据，往往需要主成分分析（PCA）等降维技术。作者提出利用张量网络（TN），特别是张量积（TT），来高效处理高维数据。核心假设是：正常数据共享常见的结构模式，而异常数据则具有独特或罕见的结构。通过将数据压缩为近似的张量表示，该方法旨在保留正常数据的结构，同时破坏异常数据的结构，从而实现两者的区分。

方法论
本文提出了一套基于两种概念不同的压缩策略的八种算法，均利用张量积（TT）表示。压缩过程由参数 $\tau$ （范围从 0 到 1）控制，该参数决定了在 TT-SVD 过程中保留奇异值的程度。

全局压缩算法：
- 概念： 将整个数据集视为单个高阶张量。算法对全局数据集进行压缩，保留大多数数据点（正常数据）共享的主导结构。缺乏这些共享结构的异常数据在压缩过程中会被更显著地移位。
- 决策函数：
  - 自比较（ACGCTNAD）： 通过计算原始数据点与其压缩重构之间的标量积，并除以原始数据点的平方范数，得出“自保留分数”（ $s_{self}$ ）。该分数同时捕捉方向对齐和幅度保留。
  - 组比较（GCGCTNAD）： 将每个数据点与集合中所有其他数据点的压缩版本进行比较，使用余弦相似度指标，侧重于几何对齐而非幅度。
- 学习模式： 这些方法可应用于无监督（无先验知识）、有监督（使用标记的正常训练数据）或半监督模式。
局部压缩算法：
- 概念： 该方法不压缩整个数据集，而是使用一个代表性的正常数据点（或集合）来定义“正常”的 TT 结构。测试数据点 TT 表示的前 $n-1$ 个节点被强制与训练数据的核（cores）匹配，仅保留最后一个节点以包含测试点的独特信息。
- 启发式对齐： 该方法采用启发式对齐步骤，将测试数据的截断基与正常训练核进行对齐。
- 决策函数： 与全局方法类似，它使用自比较（ACLCTNAD）和组比较（GCLCTNAD）评分。
- 基于投影的变体： 作者提出了一种基于正交投影（最小化相对于学习到的 TT 接口的最小二乘误差）的数学原理局部变体，但他们指出，论文中报告的实验结果对应于原始的启发式版本。

主要贡献

新颖框架： 引入了基于压缩过程中张量网络结构的保留与破坏的异常检测算法。
算法套件： 开发了四种主要算法（ACGCTNAD、GCGCTNAD、ACLCTNAD、GCLCTNAD），涵盖全局和局部压缩策略，适用于无监督、有监督和半监督场景。
高维效率： 证明了 TT 表示能够有效处理高维数据（如图像、网络流量日志），克服了传统降维方法的局限性。
实证验证： 在三个不同的数据集上进行了测试：
- 数字数据集： 区分一个数字类别与其他类别。
- Olivetti 人脸数据集： 区分人脸身份。
- 网络安全数据集： 检测网络攻击（暴力破解、扫描、Slowloris）与正常网络请求。

结果

数字数据集：
- ACGCTNAD（全局）： 最大 AUROC 值范围从 0.74 到 0.997。性能通常在极低的压缩值（ $\tau$ ）下达到峰值，表明激进的压缩移除了异常结构，同时保留了正常结构。
- ACLCTNAD（局部）： 对所有数字类别均实现了完美的 AUROC（1.0）。然而，该方法被指出比全局方法慢 50 倍。此外，它在低压缩值下表现出“分数方向反转”（AUROC 降至 0），需要事后反转分数，这限制了其在无监督情况下的实用性。
Olivetti 人脸数据集：
- 全局方法（ACGCTNAD）的表现因类别而异，AUROC 值范围从 0.69 到 1.0。作者将某些情况下的较低表现归因于样本量较小（每个类别约 8-9 个正常样本）或数据的特定性质。
网络安全数据集：
- 未使用标准化器： ACGCTNAD 方法取得了卓越的结果，在 $\tau = 0.01$ 时 AUROC 为 0.98，准确率为 97.72%。
- 使用标准标准化器： 性能显著下降。作者观察到，应用标准标准化器“破坏了结果”，这可能是因为它改变了张量网络赖以检测的底层结构规范。
- 无监督模式： 当在没有训练数据集（仅使用测试数据）的情况下进行测试时，该方法在不使用标准化器的情况下保持了高性能（97.5% 准确率），但使用标准化器后性能降至 64.7%。

意义与主张
本文声称，所提出的张量网络方法为异常检测提供了一种通用且有效的替代方案，特别是在高维设置中。作者强调：

结构保留： 该方法的力量源于张量网络能够捕捉并保留正常数据的结构关系，同时丢弃异常数据的弥散结构。
反直觉的压缩： 最佳检测通常发生在低压缩值（低 $\tau$ ）下，此时表示删除了异常结构但保留了正常结构，这一现象与标准压缩目标相比可能显得反直觉。
对预处理的敏感性： 结果强调，数据预处理（特别是标准缩放）可能对该特定方法有害，因为它可能会破坏算法旨在检测的结构特征。
权衡： 虽然局部方法（ACLCTNAD）可以实现完美的分离，但它们计算成本高昂且依赖启发式对齐。全局方法（ACGCTNAD）在速度和准确性之间提供了更好的平衡，使其更适用于许多应用。

作者总结道，虽然他们的结果令人鼓舞，但未来的工作需要进行更全面的评估，包括与标准基线（PCA、孤立森林、自编码器等）的比较，以及严格的统计报告（随机种子、标准差）。他们还建议未来的研究方向包括使用其他张量网络结构（如 PEPS）、应用于文本和视频数据，以及评估基于数学原理的投影局部变体。