SPoT: Subpixel Placement of Tokens in Vision Transformers

该论文提出了一种名为 SPoT 的新颖令牌化策略,通过将令牌连续放置在图像子像素位置而非离散网格上,并利用神谕引导搜索优化定位,从而在显著减少推理所需令牌数量的同时大幅提升性能,将稀疏性重新定义为视觉 Transformer 架构的战略优势。

Martine Hjelkrem-Tan, Marius Aasan, Gabriel Y. Arteaga, Adín Ramírez Rivera

发布于 2026-03-09
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文提出了一种名为 SPoT(Subpixel Placement of Tokens,即“亚像素级令牌放置”)的新方法,旨在让计算机视觉模型(Vision Transformers,简称 ViT)变得更聪明、更高效。

为了让你轻松理解,我们可以把传统的图像识别模型想象成一个正在玩“找茬”游戏的侦探,而这张“找茬”的画就是我们要识别的图片。

1. 传统方法的痛点:被“方格纸”困住的侦探

现状:
目前的 AI 模型在看图时,习惯把图片像切披萨一样,切成一个个固定大小的正方形方块(Patch Grid)。

  • 比喻: 想象侦探手里拿着一张方格纸,必须把纸盖在图片上。他只能透过方格的孔洞看东西。
  • 问题: 如果图片里最重要的特征(比如一只猫的眼睛)刚好落在两个方格的交界处,或者在方格的边缘,侦探就看不清楚了。他要么只能看到一半,要么被迫把两个方格都算上,导致他必须看很多没用的背景(比如猫耳朵旁边的墙壁),效率很低。
  • 结果: 为了看清细节,侦探不得不看很多格子,计算量巨大,而且如果格子没对齐,他很容易漏掉关键信息。

2. SPoT 的革新:扔掉方格纸,用“激光笔”

核心创意:
SPoT 提出,我们不需要被方格束缚。我们可以让侦探手里拿一支可以精确到像素甚至亚像素(亚像素就是比一个像素点还小的位置)的激光笔

  • 比喻: 侦探不再透过方格纸看,而是直接在图片上点选他最感兴趣的地方。
  • 优势:
    • 精准打击: 如果猫的眼睛在两个方格中间,SPoT 的激光笔可以直接点在那个精确的中心点上,不会漏掉任何细节。
    • 少即是多: 因为点选的位置非常精准,侦探只需要点很少的几个点(比如只选 12.5% 的点),就能看清整只猫,而不需要看满屏的方块。
    • 灵活: 点的位置可以是连续的,想放哪就放哪,不再受死板的网格限制。

3. 他们是怎么做的?(两大发现)

研究人员不仅提出了这个想法,还做了两个有趣的实验来验证:

A. “神谕”搜索(Oracle-Guided Search):如果侦探有“上帝视角”会怎样?

为了证明“点选”真的比“方格”好,他们先假设有一个全知全能的“神谕”(Oracle)。这个“神谕”知道每一张图片里绝对完美的 25 个点在哪里。

  • 结果: 当让模型只看这 25 个完美点时,它的准确率竟然高达 90.9%
  • 对比: 如果用传统的方格法,只看同样数量的格子,准确率只有 66.2% 左右。
  • 结论: 只要位置选得对,哪怕只看很少的信息,模型也能看得非常准。这证明了传统方格法浪费了大量算力在“没用的背景”上。

B. 侦探的“直觉”(空间先验):点哪里最好?

既然不能每次都靠“神谕”,那侦探自己该怎么选点呢?研究人员测试了几种不同的“选点策略”:

  • 随机乱点(均匀分布): 效果一般。
  • 盯着中间看(中心偏置): 因为很多照片的主体在中间,所以效果不错。
  • 盯着最显眼的地方看(显著性): 比如猫的眼睛、人的脸。这是效果最好的策略!
  • 结论: 在信息很少(稀疏)的情况下,“盯着重点看”“均匀地看” 要聪明得多。

4. 为什么这很重要?(现实意义)

  • 省电、省时间: 想象一下,以前的手机摄像头要处理 256 个方块才能认出你的脸,现在只需要处理 32 个精准点。这意味着速度更快、耗电更少,手机发热更少。
  • 更聪明: 模型不再被死板的规则限制,能像人类一样灵活地关注重点。
  • 可解释性: 我们可以清楚地看到模型到底在图片的哪个位置“看”到了关键信息,而不是黑盒操作。

总结

这篇论文就像是在告诉 AI 世界:

“别再拿着方格纸死板地切图了!学会像人类一样,用‘激光笔’精准地点击图片中最关键的地方。这样,你只需要看很少的信息,就能做出最准确的判断。”

SPoT 就是那个让 AI 学会“精准点击”的新工具,它让 AI 在资源有限(比如手机、嵌入式设备)的情况下,也能跑得飞快且看得很准。