Encoding Robust Topological Signatures for Hyperdimensional Computing

想象一下，你正在教计算机识别手写数字，就像纸上的那些数字一样。通常，计算机是通过查看每一个像素（构成图像的微小点）并精确记忆墨水的外观来做到这一点的。

这篇论文指出，这种“逐像素”的方法就像试图通过一个人脸上雀斑的确切图案来认出一个朋友。如果那个朋友戴上了帽子、晒黑了皮肤，或者站在不同的光线下，计算机就会感到困惑并失败。这种方法太脆弱了。

作者提出了一种教计算机的新方法，称为超维计算（HDC）。他们不是让计算机查看像素，而是教计算机去观察形状的骨架及其孔洞。

以下是他们的方法如何运作，分解为简单的概念：

1. “形状侦探”与“像素摄影师”

将标准的计算机视觉模型想象成一位像素摄影师。它拍摄每一个点的快照。如果你旋转照片或在图像上添加一些静态干扰（噪声），点的图案就会完全改变，摄影师就会迷失方向。

作者的方法则像一位形状侦探。侦探不是数点，而是问两个简单的问题：

轮廓是什么？（数字的大致形状）。
孔洞在哪里？（形状内部的空白区域，比如"8"中间的洞或"6"顶部的洞）。

用数学术语来说，这些“孔洞”被称为拓扑基元。孔洞的奇妙之处在于它们是顽固的。如果你拉伸、旋转或缩小一个形状像"8"的橡皮筋，它仍然有两个孔。仅仅因为形状变得摇晃，孔洞的数量并不会改变。

2. 构建"ID 卡”

为了让这发挥作用，计算机为每张图像构建一张特殊的"ID 卡”（超向量）。它分三步完成：

步骤 A：外框（轮廓）：
计算机查看数字的主轮廓。为了确保无论数字是倾斜还是放大都能被识别，它使用一种称为Zernike 矩的数学工具。
- 类比： 想象给一栋建筑拍照。如果你旋转相机，建筑看起来会不同。但如果你通过其“质量分布”（左右墙壁的重量分布）而不是屋顶的确切角度来描述这栋建筑，即使相机旋转，你仍然能认出它。这一步创建了一个外部形状的描述，即使你旋转或调整图像大小，它也能保持不变。
步骤 B：内部孔洞（拓扑）：
计算机找出数字内部的孔洞。它测量孔洞的形状以及它相对于外边缘的位置。
- 类比： 想象一个甜甜圈。无论甜甜圈是大是小，或者是倾斜的，它中间总是有一个洞。计算机学会说：“啊，这个形状中心有一个洞”，而不管甜甜圈边缘多么杂乱。
步骤 C：“信任分数”（可靠性权重）：
有时图像太脏（充满噪声），计算机看不清轮廓，但仍然能看到孔洞。其他时候，轮廓很清晰，但孔洞很模糊。
系统学会为每个线索分配一个“信任分数”。如果图像充满噪声，它更信任孔洞计数；如果图像清晰，它更信任轮廓。它将这些线索结合成一个最终答案。

3. 这为何重要：“噪声”测试

作者使用 MNIST 数据集（手写数字）将他们的“形状侦探”与标准的“像素摄影师”以及现代深度学习模型（紧凑型 CNN）进行了测试。

他们不仅测试了干净的图像，还向计算机抛出了各种“破坏”：

高斯噪声： 就像在图像上添加电视雪花。
椒盐噪声： 就像在纸上撒黑白斑点。
缩放： 将数字变得巨大或微小。
遮挡： 用黑色方块覆盖数字的一部分。

结果：

像素摄影师（朴素 HDC）： 当他们添加噪声或旋转数字时，其准确率崩溃了。它从在干净图像上 95% 的准确率，下降到在噪声图像上低于 10% 的准确率。这就像一个只通过朋友脸上确切的雀斑图案来认人的人；如果雀斑被帽子遮住，他就不知道那是谁了。
深度学习模型（CNN）： 它在识别干净数字方面表现出色（99% 的准确率），但一旦添加噪声，它也崩溃了，下降到接近随机猜测的水平（约 11%）。
形状侦探（拓扑引导的 HDC）： 它保持了强劲。即使面对重度噪声或旋转，它仍保持了高准确率（约 70–88%）。它不需要重新训练就能处理噪声；它观察“孔洞和轮廓”的方法天生就能抵御混乱。

结论

该论文声称，通过明确教计算机观察拓扑特征（如孔洞和整体形状），而不仅仅是原始像素，我们可以构建出更强大、更可靠的 AI。

这之间的区别在于：是试图记忆一张特定的人脸照片，还是记忆“这个人有两只眼睛和一个鼻子”这一事实。如果你在黑暗中或从奇怪的角度给他们拍照，照片会改变，但他们有两只眼睛和一个鼻子这一事实依然成立。这种方法使计算机能够抵御现实世界中的“噪声”。

技术摘要：为超维计算编码鲁棒的拓扑特征

问题陈述
超维（HD）计算为边缘学习提供了一种资源高效的深度学习替代方案，其特点是基于原型的快速推理以及与在线更新的兼容性。然而，标准的 HD 编码器依赖于基于像素的朴素表示（绑定位置和强度向量），表现出显著的脆弱性。正如论文引言所示，微小的分布偏移——例如旋转、高斯噪声、椒盐噪声或缩放——会导致准确率灾难性下降（例如，在 MNIST 数据集上，高斯噪声导致准确率从 95% 降至 9%）。虽然深度学习系统在很大程度上以效率换取了深度，但它们对结构化扰动仍然脆弱。所解决的核心问题是 HD 框架缺乏显式的拓扑编码，这限制了它们对破坏局部像素统计但保留全局形状结构的扰动的鲁棒性。

方法论
作者提出了一种“拓扑引导的 HD"框架，该框架从二值化形状中显式提取离散拓扑基元，并将其编码为高维超向量。方法论通过以下阶段进行：

基元提取：对图像进行处理以识别多重集基元：外轮廓（全局形状）和内部孔洞（拓扑特征）。
RTS 不变描述符：
- 外轮廓：外轮廓使用基于形状主轴和质心的旋转、平移和缩放（RTS）规范框架进行归一化。随后使用空间金字塔 Zernike 矩描述符来描述该形状。该描述符结合了全局质量分布（通过 Zernike 幅度实现旋转不变性）与局部空间布局（通过网格分解），以捕捉全局几何形状和粗略的结构细节。此外，还包含方向梯度直方图（HOG）以捕捉全局矩通常遗漏的局部边缘结构。
- 孔洞：对于每个检测到的孔洞，该方法计算：
  - 相对几何：将孔洞的质心映射到相对于外轮廓框架的 RTS 规范坐标。
  - 内在形状：对孔洞边界进行重采样和参数化。计算径向特征，并使用其傅里叶幅度（排除直流分量）作为旋转不变形状描述符。
HD 编码：
- 每个基元通过随机投影和角色绑定（使用特定类型的角色向量）映射到双极性超向量（ $\{-1, +1\}^D$ ）。
- 可变基数的孔洞集合使用置换不变的捆绑（逐元素求和后接符号阈值化）进行聚合，形成单个图像超向量。
可靠性加权：为了防止过度加权不可靠的线索，系统学习 Zernike 通道和孔洞通道相对于 HOG 通道的非负可靠性权重（ $\alpha, \beta$ ）。这些权重通过在验证集上融合来自单独特征通道的余弦相似度得分进行优化。
分类：分类通过原型学习执行，其中类别原型从训练数据中累积并在线更新。

主要贡献

显式拓扑编码：本文首次将离散拓扑基元（特别是孔洞及其相对几何）显式集成到 HD 计算范式中。
RTS 稳定描述符：它构建了在数学上对旋转、平移和缩放具有不变性的描述符，利用 Zernike 矩描述全局形状，利用傅里叶描述符描述孔洞形状。
通过拓扑实现鲁棒性：该工作证明了拓扑特征（孔洞数量、连通性、相对位置）提供了与基于像素的特征互补的信息，特别是在局部外观受损时。
轻量级在线学习：该框架保持了 HD 轻量级在线训练的核心优势，允许原型在不从头重新训练的情况下进行适应。

结果
实验在 MNIST 和 EMNIST 数据集上进行，并在受控扰动（旋转、高斯噪声、椒盐噪声、裁剪和缩放）下测试。

与朴素 HD 对比：拓扑引导的 HD 在所有扰动类型上均显著优于基于像素的朴素 HD 基线。例如，在高斯噪声（ $\sigma=0.1$ ）下，朴素 HD 的准确率降至约 7%，而所提出的方法在（在线训练前）保持约 83%，在（训练后）保持约 89%。
与紧凑型 CNN 对比：与在干净数据上训练的紧凑型 CNN 相比：
- 干净数据：CNN 在干净数据集上实现了更高的准确率（例如，MNIST 上为 99.1%，而拓扑引导的 HD 为 97.68%）。
- 扰动数据：拓扑引导的 HD 表现出明显更优越的鲁棒性。在高斯噪声（ $\sigma=0.1$ ）下，CNN 崩溃至接近随机水平（约 11%），而拓扑引导的 HD 保留了约 89% 的准确率。在椒盐噪声和裁剪遮挡下也观察到类似趋势。
- EMNIST：在更复杂的 EMNIST 字母数据集上，拓扑引导的 HD 在噪声条件下大幅优于 CNN（例如，训练前在高斯噪声下为 57.7% 对比 3.84%）。

意义与主张
论文主张，显式的拓扑结构是实现鲁棒 HD 表示的实用途径。其意义在于证明 HD 计算可以在实现具有竞争力的干净数据准确率的同时，提供比深度学习模型“明显更强的鲁棒性”以应对像素级扰动，且无需针对扰动的特定数据增强。作者认为，通过利用拓扑固有的不变性属性（同胚），即使局部像素统计严重退化，系统仍能保持类别可分性。

局限性
作者承认，该方法依赖于初始二值化和基元提取步骤的稳定性。严重的噪声或低对比度可能导致边界破碎或产生虚假孔洞，从而对下游准确率产生负面影响。此外，理论保证涵盖相似变换（RTS），但不扩展到非刚性变形、透视效应或涉及背景杂乱的严重域偏移。预处理阶段（分割和轮廓提取）也被指出取决于具体实现，可能成为计算瓶颈。

1. “形状侦探”与“像素摄影师”

2. 构建"ID 卡”

3. 这为何重要：“噪声”测试

结论

技术摘要：为超维计算编码鲁棒的拓扑特征

类似论文