Each language version is independently generated for its own context, not a direct translation.

这篇论文提出了一种名为 SPoT（Subpixel Placement of Tokens，即“亚像素级令牌放置”）的新方法，旨在让计算机视觉模型（Vision Transformers，简称 ViT）变得更聪明、更高效。

为了让你轻松理解，我们可以把传统的图像识别模型想象成一个正在玩“找茬”游戏的侦探，而这张“找茬”的画就是我们要识别的图片。

1. 传统方法的痛点：被“方格纸”困住的侦探

现状：
目前的 AI 模型在看图时，习惯把图片像切披萨一样，切成一个个固定大小的正方形方块（Patch Grid）。

比喻： 想象侦探手里拿着一张方格纸，必须把纸盖在图片上。他只能透过方格的孔洞看东西。
问题： 如果图片里最重要的特征（比如一只猫的眼睛）刚好落在两个方格的交界处，或者在方格的边缘，侦探就看不清楚了。他要么只能看到一半，要么被迫把两个方格都算上，导致他必须看很多没用的背景（比如猫耳朵旁边的墙壁），效率很低。
结果： 为了看清细节，侦探不得不看很多格子，计算量巨大，而且如果格子没对齐，他很容易漏掉关键信息。

2. SPoT 的革新：扔掉方格纸，用“激光笔”

核心创意：
SPoT 提出，我们不需要被方格束缚。我们可以让侦探手里拿一支可以精确到像素甚至亚像素（亚像素就是比一个像素点还小的位置）的激光笔。

比喻： 侦探不再透过方格纸看，而是直接在图片上点选他最感兴趣的地方。
优势：
- 精准打击： 如果猫的眼睛在两个方格中间，SPoT 的激光笔可以直接点在那个精确的中心点上，不会漏掉任何细节。
- 少即是多： 因为点选的位置非常精准，侦探只需要点很少的几个点（比如只选 12.5% 的点），就能看清整只猫，而不需要看满屏的方块。
- 灵活： 点的位置可以是连续的，想放哪就放哪，不再受死板的网格限制。

3. 他们是怎么做的？（两大发现）

研究人员不仅提出了这个想法，还做了两个有趣的实验来验证：

A. “神谕”搜索（Oracle-Guided Search）：如果侦探有“上帝视角”会怎样？

为了证明“点选”真的比“方格”好，他们先假设有一个全知全能的“神谕”（Oracle）。这个“神谕”知道每一张图片里绝对完美的 25 个点在哪里。

结果： 当让模型只看这 25 个完美点时，它的准确率竟然高达 90.9%！
对比： 如果用传统的方格法，只看同样数量的格子，准确率只有 66.2% 左右。
结论： 只要位置选得对，哪怕只看很少的信息，模型也能看得非常准。这证明了传统方格法浪费了大量算力在“没用的背景”上。

B. 侦探的“直觉”（空间先验）：点哪里最好？

既然不能每次都靠“神谕”，那侦探自己该怎么选点呢？研究人员测试了几种不同的“选点策略”：

随机乱点（均匀分布）： 效果一般。
盯着中间看（中心偏置）： 因为很多照片的主体在中间，所以效果不错。
盯着最显眼的地方看（显著性）： 比如猫的眼睛、人的脸。这是效果最好的策略！
结论： 在信息很少（稀疏）的情况下，“盯着重点看” 比 “均匀地看” 要聪明得多。

4. 为什么这很重要？（现实意义）

省电、省时间： 想象一下，以前的手机摄像头要处理 256 个方块才能认出你的脸，现在只需要处理 32 个精准点。这意味着速度更快、耗电更少，手机发热更少。
更聪明： 模型不再被死板的规则限制，能像人类一样灵活地关注重点。
可解释性： 我们可以清楚地看到模型到底在图片的哪个位置“看”到了关键信息，而不是黑盒操作。

总结

这篇论文就像是在告诉 AI 世界：

“别再拿着方格纸死板地切图了！学会像人类一样，用‘激光笔’精准地点击图片中最关键的地方。这样，你只需要看很少的信息，就能做出最准确的判断。”

SPoT 就是那个让 AI 学会“精准点击”的新工具，它让 AI 在资源有限（比如手机、嵌入式设备）的情况下，也能跑得飞快且看得很准。

Each language version is independently generated for its own context, not a direct translation.

SPoT: 视觉 Transformer 中的子像素令牌放置 (Subpixel Placement of Tokens) 技术总结

1. 研究背景与问题定义

核心问题： 传统的视觉 Transformer (ViT) 将图像分割为离散的、非重叠的固定网格补丁 (patches)。这种基于网格的离散化限制导致模型无法充分利用稀疏性 (Sparsity)。

网格对齐限制： 当关键特征（如物体边缘或纹理）恰好落在网格线之间时，标准的网格采样会强制将这些特征分散到多个补丁中，或者完全错过，导致信息丢失。
稀疏采样的困境： 为了加速推理，现有的稀疏化方法（如 PatchDropout）通常是在固定网格上随机丢弃补丁。然而，由于网格的刚性，这种随机丢弃往往无法保留最具判别力的特征，迫使模型在“保留完整网格”和“牺牲精度换取速度”之间做出妥协。
优化困难： 在离散网格上选择最优的子集是一个组合优化问题（NP-hard），难以使用梯度下降法进行端到端优化。

核心假设： 图像特征的最佳采样位置是连续的，而非离散的。如果允许令牌 (Token) 在子像素级别 (Subpixel) 连续放置，模型可以更灵活地捕捉关键特征，从而在极少的令牌数量下实现高精度。

2. 方法论：SPoT (Subpixel Placement of Tokens)

作者提出了一种名为 SPoT 的新型令牌化策略，其核心思想是将令牌放置从离散网格扩展到连续子像素空间。

2.1 连续子像素采样

定义： 不再将图像视为 $H \times W$ 的固定网格，而是将其视为连续空间 $\Omega_{subpix} = [0, H-1] \times [0, W-1]$ 。
特征提取： 对于图像中的任意子像素位置 $s_i = (h, w)$ $s_{i} = (h, w)$ ，通过双线性插值 (Bilinear Interpolation) 提取特征窗口。
- 公式： $I_q(s_i; k) = I_q(h - \frac{k}{2} : h + \frac{k}{2}, w - \frac{k}{2} : w + \frac{k}{2})$
- 由于双线性插值是可微的，梯度可以干净地传播回位置参数 $\{s_1, ..., s_m\}$ ，使得基于梯度的优化成为可能。

2.2 空间先验 (Spatial Priors)

由于失去了离散网格隐含的空间结构，SPoT 引入了不同的空间先验来指导初始令牌位置的采样：

均匀 (Uniform)： 随机采样，无空间偏差。
高斯 (Gaussian)： 中心偏差，假设物体通常位于图像中心。
Sobol： 准随机采样，旨在实现均匀覆盖并减少重叠。
各向同性 (Isotropic)： 确定性均匀分布。
中心 (Center)： 轻微的中心偏差。
显著性 (Salient)： 基于预训练显著性模型 (Saliency Model) 识别的视觉显著区域进行采样。

2.3 神谕引导的邻域搜索 (Oracle-guided Neighborhood Search, SPoT-ON)

为了探索理论上的性能上限并分析稀疏 ViT 的性质，作者提出了 SPoT-ON：

机制： 冻结编码器，针对每张图像直接对令牌位置 $S$ 进行梯度下降优化，以最小化分类损失。
目的： 并非用于实际推理（计算成本高），而是作为分析工具，揭示在给定图像下“理想”的令牌位置在哪里，从而量化通过改进采样策略所能获得的性能增益。

3. 关键贡献

提出 SPoT 框架： 首个将 ViT 令牌化扩展到连续子像素位置的方法，显著增强了 ViT 在稀疏设置下的鲁棒性和效率。
SPoT-ON 分析工具： 通过神谕引导搜索，实证证明了理想的子像素位置可以仅用约 12.5% 的原始令牌数量达到甚至超过密集网格的性能。这为模型性能设定了一个新的理论上限。
空间先验的系统性研究：
- 发现稀疏 regime（令牌少）下，中心偏差和显著性驱动的先验表现最佳。
- 发现密集 regime（令牌多）下，均匀覆盖（如各向同性或网格）比物体中心性更重要。
跨模型迁移性验证： 证明了在一个模型上通过 SPoT-ON 优化出的令牌位置，可以直接迁移到另一个独立训练的模型上并带来性能提升，说明这些位置捕捉的是图像本身的语义结构，而非特定模型的过拟合特征。

4. 实验结果

实验在 ImageNet-1k 和 ImageNet-21k 数据集上进行，使用了 ViT-B/16 架构（包括监督训练 CLS 和自监督 MAE 模型）。

网格 vs. 离网 (Off-grid)： 在仅使用 12.5% 令牌（25 个）的极端稀疏设置下，SPoT-ON（离网优化）的准确率比传统网格方法高出 16.9% (从 61.7% 提升至 78.6% 左右，具体取决于基准)。即使网格方法经过更多优化步骤，仍无法突破离散网格的限制。
先验的影响：
- 在 25 个令牌下，基于显著性 (Salient) 的初始化配合 SPoT-ON 优化，在 MAE 模型上达到了 66.13% 的初始准确率，优化后达到 90.93% (接近全量令牌性能)。
- 相比之下，均匀随机采样在稀疏设置下表现较差。
吞吐量与精度权衡： 如图 5 所示，SPoT 在提高图像吞吐量 (Throughput) 的同时，比基线方法（如 PatchDropout）保持了更高的精度。在 25 个令牌下，SPoT 的吞吐量提升显著，且精度损失远小于基线。
与现有稀疏方法的对比：
- vs. ToMe (Token Merging)： SPoT 在 100 个令牌预算下，实现了 3.31x 的加速，而精度仅下降 1.13%；ToMe 加速为 1.95x，精度下降 4.87%。
- vs. ElasticViT： SPoT 在所有稀疏配置下均优于 ElasticViT（后者通过随机扰动网格实现弹性，但仍基于离散像素）。
鲁棒性分析： 当使用“背景先验”（采样非显著区域）或“对抗性先验”（最大化损失）时，性能急剧下降，证明 SPoT 确实依赖于语义显著性，而非简单的空间相关性。

5. 意义与未来展望

研究意义：

重新定义稀疏性： 将稀疏性从一种“被迫的限制”转变为一种“战略优势”。通过连续采样，模型可以在极少的计算资源下实现高精度推理。
可解释性： SPoT-ON 揭示了模型真正关注的区域，证明了即使在没有显式物体检测监督的情况下，ViT 也能通过优化采样位置找到最具判别力的特征。
架构灵活性： 打破了 ViT 必须依赖固定网格的教条，为设计更高效、更灵活的视觉架构开辟了新方向。

未来方向：

可学习的先验 (Learnable Priors)： 目前先验是预定义的。未来可以训练一个轻量级的“策略网络 (Policy Network)"，根据图像内容动态预测最佳令牌位置，从而在推理时替代昂贵的 SPoT-ON 搜索。
任务扩展： 将 SPoT 应用于需要精细空间推理的任务，如目标检测、定位和视频理解（引入时空先验）。
动态窗口大小： 探索在训练过程中动态调整补丁窗口大小，以适应不同尺度的特征。

总结： SPoT 通过引入子像素连续采样，解决了传统 ViT 网格化带来的特征对齐问题，证明了在稀疏设置下，“在哪里采样”比“采样多少”更为关键。该方法为构建高效、可解释的下一代视觉 Transformer 提供了强有力的理论基础和技术路径。

SPoT: Subpixel Placement of Tokens in Vision Transformers