Encoding Robust Topological Signatures for Hyperdimensional Computing

本文提出了一种鲁棒的超维计算框架,该框架将旋转、平移和尺度不变的拓扑基元(特别是外部形状和孔洞)编码为超向量,在保持具有竞争力的干净准确率的同时,相较于基于像素的标准编码器和紧凑卷积神经网络,展现出对像素级噪声显著增强的鲁棒性。

原作者: Arpan Kusari

发布于 2026-05-19✓ Author reviewed
📖 1 分钟阅读☕ 轻松阅读

原作者: Arpan Kusari

原始论文采用 CC BY 4.0 许可(http://creativecommons.org/licenses/by/4.0/)。 这是对下方论文的AI生成解释。它不是由作者撰写的。如需技术准确性,请参阅原始论文。 阅读完整免责声明

想象一下,你正在教计算机识别手写数字,就像纸上的那些数字一样。通常,计算机是通过查看每一个像素(构成图像的微小点)并精确记忆墨水的外观来做到这一点的。

这篇论文指出,这种“逐像素”的方法就像试图通过一个人脸上雀斑的确切图案来认出一个朋友。如果那个朋友戴上了帽子、晒黑了皮肤,或者站在不同的光线下,计算机就会感到困惑并失败。这种方法太脆弱了。

作者提出了一种教计算机的新方法,称为超维计算(HDC)。他们不是让计算机查看像素,而是教计算机去观察形状的骨架及其孔洞

以下是他们的方法如何运作,分解为简单的概念:

1. “形状侦探”与“像素摄影师”

将标准的计算机视觉模型想象成一位像素摄影师。它拍摄每一个点的快照。如果你旋转照片或在图像上添加一些静态干扰(噪声),点的图案就会完全改变,摄影师就会迷失方向。

作者的方法则像一位形状侦探。侦探不是数点,而是问两个简单的问题:

  • 轮廓是什么?(数字的大致形状)。
  • 孔洞在哪里?(形状内部的空白区域,比如"8"中间的洞或"6"顶部的洞)。

用数学术语来说,这些“孔洞”被称为拓扑基元。孔洞的奇妙之处在于它们是顽固的。如果你拉伸、旋转或缩小一个形状像"8"的橡皮筋,它仍然有两个孔。仅仅因为形状变得摇晃,孔洞的数量并不会改变。

2. 构建"ID 卡”

为了让这发挥作用,计算机为每张图像构建一张特殊的"ID 卡”(超向量)。它分三步完成:

  • 步骤 A:外框(轮廓):
    计算机查看数字的主轮廓。为了确保无论数字是倾斜还是放大都能被识别,它使用一种称为Zernike 矩的数学工具。

    • 类比: 想象给一栋建筑拍照。如果你旋转相机,建筑看起来会不同。但如果你通过其“质量分布”(左右墙壁的重量分布)而不是屋顶的确切角度来描述这栋建筑,即使相机旋转,你仍然能认出它。这一步创建了一个外部形状的描述,即使你旋转或调整图像大小,它也能保持不变。
  • 步骤 B:内部孔洞(拓扑):
    计算机找出数字内部的孔洞。它测量孔洞的形状以及它相对于外边缘的位置。

    • 类比: 想象一个甜甜圈。无论甜甜圈是大是小,或者是倾斜的,它中间总是有一个洞。计算机学会说:“啊,这个形状中心有一个洞”,而不管甜甜圈边缘多么杂乱。
  • 步骤 C:“信任分数”(可靠性权重):
    有时图像太脏(充满噪声),计算机看不清轮廓,但仍然能看到孔洞。其他时候,轮廓很清晰,但孔洞很模糊。
    系统学会为每个线索分配一个“信任分数”。如果图像充满噪声,它更信任孔洞计数;如果图像清晰,它更信任轮廓。它将这些线索结合成一个最终答案。

3. 这为何重要:“噪声”测试

作者使用 MNIST 数据集(手写数字)将他们的“形状侦探”与标准的“像素摄影师”以及现代深度学习模型(紧凑型 CNN)进行了测试。

他们不仅测试了干净的图像,还向计算机抛出了各种“破坏”:

  • 高斯噪声: 就像在图像上添加电视雪花。
  • 椒盐噪声: 就像在纸上撒黑白斑点。
  • 缩放: 将数字变得巨大或微小。
  • 遮挡: 用黑色方块覆盖数字的一部分。

结果:

  • 像素摄影师(朴素 HDC): 当他们添加噪声或旋转数字时,其准确率崩溃了。它从在干净图像上 95% 的准确率,下降到在噪声图像上低于 10% 的准确率。这就像一个只通过朋友脸上确切的雀斑图案来认人的人;如果雀斑被帽子遮住,他就不知道那是谁了。
  • 深度学习模型(CNN): 它在识别干净数字方面表现出色(99% 的准确率),但一旦添加噪声,它也崩溃了,下降到接近随机猜测的水平(约 11%)。
  • 形状侦探(拓扑引导的 HDC): 它保持了强劲。即使面对重度噪声或旋转,它仍保持了高准确率(约 70–88%)。它不需要重新训练就能处理噪声;它观察“孔洞和轮廓”的方法天生就能抵御混乱。

结论

该论文声称,通过明确教计算机观察拓扑特征(如孔洞和整体形状),而不仅仅是原始像素,我们可以构建出更强大、更可靠的 AI。

这之间的区别在于:是试图记忆一张特定的人脸照片,还是记忆“这个人有两只眼睛和一个鼻子”这一事实。如果你在黑暗中或从奇怪的角度给他们拍照,照片会改变,但他们有两只眼睛和一个鼻子这一事实依然成立。这种方法使计算机能够抵御现实世界中的“噪声”。

您所在领域的论文太多了?

获取与您研究关键词匹配的最新论文每日摘要——附技术摘要,使用您的语言。

试用 Digest →