Scaling Laws in Patchification: An Image Is Worth 50,176 Tokens And More

Each language version is independently generated for its own context, not a direct translation.

这篇论文就像是在给计算机视觉领域的一群“老古董”提了一个大胆的建议：别再把图片“压缩”了，让我们直接看“像素”吧！

为了让你轻松理解，我们可以把这篇论文的核心思想想象成**“看地图”和“看照片”**的故事。

1. 过去的做法：把照片切成“马赛克”

想象一下，你有一张非常高清的 4K 照片（比如 224x224 像素）。
以前的计算机视觉模型（比如 ViT，视觉 Transformer）觉得：“哇，这张图太细节了，处理起来太累！不如我把这张图切成很多块，比如每块 16x16 像素，然后把每一块当成一个‘单词’（Token）。”

比喻：这就像你有一本厚厚的书，为了快速阅读，你把每 16 个字强行合并成一个“词块”。
- 原本 224x224 的图片有 50,176 个像素点（字）。
- 切成 16x16 的块后，只剩下 196 个“词块”。
后果：虽然读得快了（计算量小了），但你丢失了很多细节。就像把“一只在草地上奔跑的金色小狗”压缩成“一个棕色物体”，你再也分不清它是狗还是猫，是跑还是跳了。论文作者认为，这种**“压缩”**导致了信息的永久丢失。

2. 作者的发现：越小越好，直到“像素级”

作者做了一个疯狂的实验：他们不断把切块的尺寸变小。

从 16x16 切成 8x8，性能变好了。
切成 4x4，更好了。
切成 2x2，甚至 1x1（也就是不切块，直接看每一个像素），性能竟然还在提升！

核心发现（Scaling Law）：
这就好比**“分辨率越高，看得越清”**。
以前大家认为，为了算得快，必须牺牲清晰度（压缩）。但作者发现，只要你的电脑够强（现在的 GPU 很强），直接把每一个像素都当作一个“单词”喂给模型，效果是最好的。

在 ImageNet 测试中，他们把序列长度从 196 个词，直接拉到了 50,176 个词（也就是 5 万个像素点），准确率从 82.6% 提升到了 84.6%。
这证明了：图片的价值在于它包含的每一个像素，而不是被压缩后的“大概意思”。

3. 一个意外的惊喜：不需要“翻译官”了

在传统的深度学习模型里，通常需要一个“解码器”（Decoder）。

比喻：如果编码器（Encoder）把图片压缩得太厉害（比如只给了你几个大词块），那么解码器就像一个**“翻译官”**，它得根据这几个词块，努力猜出图片里每个像素是什么（比如猜出哪里是树，哪里是路）。
新发现：当作者把压缩率降到最低（直接看像素）时，编码器自己就把细节看得清清楚楚了。这时候，那个“翻译官”（解码器）就变得多余了！
意义：这意味着未来的模型可以变得更简单，不需要复杂的“解码”步骤，光靠一个强大的“编码器”就能直接搞定所有任务（比如分割、检测）。

4. 为什么以前没人这么做？（硬件的进步）

你可能会问：“既然直接看像素这么好，为什么以前不这么做？”

原因：以前电脑太慢了。
- 把 5 万个像素都算一遍，计算量是巨大的（就像要把 5 万个单词都读一遍，而不是只读 196 个词块）。
- 以前的显卡（GPU）内存不够，算着算着就“爆”了。
现在：随着硬件（如 A100 显卡）和算法（如线性复杂度的 Mamba 架构）的进步，处理这 5 万个“单词”已经变得可行且高效了。

5. 总结：未来的方向

这篇论文告诉我们一个重要的趋势：
“一张图片，价值 50,176 个 Token（甚至更多）。”

以前我们为了省算力，不得不把图片“糊弄”一下（压缩）。现在算力上来了，我们应该回归本质，不再压缩，让模型直接学习每一个像素的细节。

一句话总结：
这就好比以前我们为了快速浏览，只读书的“目录”和“摘要”；现在既然时间（算力）充裕了，我们决定逐字逐句地精读，结果发现，这样理解得才最透彻，而且连“翻译官”（解码器）都不需要了！

Each language version is independently generated for its own context, not a direct translation.

这是一份关于论文《Scaling Laws in Patchification: An Image Is Worth 50,176 Tokens And More》（分块化中的缩放定律：一张图像价值 50,176 个 Token 甚至更多）的详细技术总结。

1. 研究背景与问题 (Problem)

现状： 自 Vision Transformer (ViT) 问世以来，分块化（Patchification） 已成为视觉架构事实上的标准图像 Token 化方法。通过将图像压缩为较小的特征图（例如将 $224 \times 224$ 的图像压缩为 $14 \times 14$ 的 Token 序列），该方法旨在降低计算成本，使视觉表示空间类似于中等长度的文本序列。
核心问题： 作者指出，这种压缩编码范式会导致不可逆的信息丢失。
- 直观上， $224 \times 224$ 分辨率图像包含的信息量远大于 196 个单词的文本，但在 $16 \times 16$ 分块下，两者的表示空间大小几乎相同。
- 存储需求差异巨大：未压缩的 $224 \times 224$ 图像约需 147KB，而 196 个单词仅需约 1.15KB。
- 经验观察：手动降低压缩率（如将 DeiT-Base 的分块大小从 $16 \times 16$ 改为 $8 \times 8$ ）能显著提升 ImageNet 分类准确率（从 81.8% 提升至 83.5%）。
挑战： 由于自注意力机制（Self-Attention）的计算复杂度随序列长度呈二次方增长，传统的 ViT 架构受限于显存和训练时间，不得不妥协于高分块大小（高压缩率）。随着硬件和线性复杂度架构（如 Mamba）的发展，重新审视这一压缩范式成为可能。

2. 方法论 (Methodology)

核心假设： 分块化并非构建有效视觉模型的必要条件，而是资源受限时的妥协。通过减小分块大小（降低压缩率），可以解锁被压缩丢失的视觉信息，从而提升性能。
实验设置：
- 模型架构： 使用了两种主要架构进行验证：
  1. ViT (DeiT-Base)： 用于较短序列（长度 < 4096）。
  2. Adventurer (基于 Mamba)： 一种线性复杂度的架构，能够处理超长序列，用于验证在标准输入（如 $224 \times 224$ ）下将分块缩小至 $1 \times 1$ （即像素级 Token 化）的可行性。
- 任务范围： 涵盖了图像分类（ImageNet-1k）、语义分割（ADE20k）、目标检测（COCO）和实例分割（COCO）。
- 分块缩放策略： 将分块大小（Patch Size）从传统的 $16 \times 16$ 逐步减小至 $8 \times 8, 4 \times 4, 2 \times 2$ ，直至 $1 \times 1$ （像素级）。
- 对比实验：
  - 分块缩放 vs. 参数量缩放： 比较减小分块大小与增加模型参数对性能的影响。
  - 分块缩放 vs. 输入尺寸缩放： 比较减小分块与直接增大输入分辨率的效果。
  - 序列长度控制： 验证性能提升是源于信息量的增加（降低压缩率），还是仅仅源于序列长度的增加（通过插值扩展 Token 但不增加新信息）。
- 解码器消融： 在语义分割任务中，探索在极低压缩率下，移除传统的任务特定解码器头（Decoder Head）是否仍能保证性能。

3. 关键贡献与发现 (Key Contributions & Findings)

A. 发现分块化缩放定律 (Patchification Scaling Laws)

现象： 随着分块大小的减小（压缩率降低），模型在测试集上的损失平滑且一致地下降，预测性能持续提升。
极限： 这种趋势一直持续到最小分块大小 $1 \times 1$ （即像素级 Token 化）。这意味着“非压缩编码”范式在视觉任务中是有效的。
普适性： 该定律适用于不同的视觉任务（分类、分割、检测）、不同的输入分辨率以及不同的架构（ViT 和 Mamba）。

B. 实现超长视觉序列与像素级 Token 化

突破： 利用 Adventurer 的线性复杂度优势，成功将 ImageNet 输入序列扩展至 50,176 个 Token（对应 $224 \times 224$ 图像的像素级处理）。
性能： 在 ImageNet-1k 上，Base 规模模型（约 1 亿参数）通过像素级 Token 化取得了 84.6% 的测试准确率，显著优于传统 $16 \times 16$ 分块的 82.6%。
意义： 证明了视觉理解可以在极长的上下文（Long Context）中有效进行，且无需像 NLP 那样进行复杂的分词。

C. 解码器头（Decoder Head）的重要性降低

发现： 在语义分割任务中，随着分块大小减小至像素级，传统上必需的复杂解码器（如 UperNet）变得不再关键。
结果： 仅使用简单的线性层作为解码头，甚至仅依靠编码器（Encoder-only），在低压缩率下也能达到与使用复杂解码器相当甚至更好的性能（mIoU 提升）。
启示： 这为构建无解码器（Decoder-free）的通用视觉基础模型提供了理论依据，表明只要编码器能提取足够细粒度的特征，下游任务无需复杂的适配。

D. 分块缩放优于参数缩放

对比： 在固定输入尺寸下，减小分块大小带来的性能提升比单纯增加参数量更显著且更具扩展性。
瓶颈： 参数量缩放容易遇到瓶颈（如超过 7 亿参数后收益递减甚至崩溃），而分块缩放表现出持续的性能上升趋势。
成本效益： 分块缩放不需要改变训练策略或数据集，只需调整分块大小，且能解锁被压缩的视觉信息，性价比更高。

4. 实验结果 (Results)

ImageNet 分类：
- DeiT-Base ( $64 \times 64$ 输入)：分块从 $16 \times 16$ 降至 $1 \times 1$ ，准确率从 68.2% 提升至 81.3%。
- Adventurer-Base ( $224 \times 224$ 输入)：分块从 $16 \times 16$ 降至 $1 \times 1$ ，准确率从 82.6% 提升至 84.6%。
ADE20k 语义分割：
- 移除解码器后，随着分块减小，mIoU 持续上升。例如 Adventurer-Base 在 $2 \times 2$ 分块下，无解码器模型 mIoU 达到 46.8%，优于 $16 \times 16$ 分块带 UperNet 解码器的 45.7%。
COCO 目标检测与实例分割：
- 同样呈现随分块减小性能提升的趋势。Adventurer-Base 在 $2 \times 2$ 分块下，APb 达到 50.3%，显著高于 $16 \times 16$ 的 48.4%。
消融实验验证：
- 单纯通过插值扩展序列长度（不减少分块，即不增加信息量）带来的提升微乎其微（<0.2%），证明性能提升主要源于信息量的解锁，而非序列长度本身。

5. 意义与展望 (Significance)

理论突破： 提出了视觉领域的“分块化缩放定律”，挑战了“分块化是视觉编码器必要组件”的传统认知，确立了“像素即 Token"（A pixel is worth a token）的非压缩表示学习范式。
架构简化： 揭示了在低压缩率下，任务特定的解码器头不再是必须的，为构建统一的、端到端的、仅基于编码器的视觉基础模型铺平了道路。
未来方向： 随着硬件（如 A100/H100 GPU）和高效注意力机制的发展，未来的视觉模型应逐步放弃空间压缩机制，转向直接从像素学习，以充分利用数据中的丰富信息。
资源消耗： 尽管训练像素级模型需要巨大的计算资源（论文涉及约 50,000 A100 GPU 小时），但这被视为迈向下一代视觉基础模型的必要投资。

总结： 该论文通过系统的缩放实验证明，减少图像分块大小（直至像素级）能显著提升视觉模型性能，且这种提升源于信息量的恢复而非单纯的序列长度增加。这一发现为构建更高效、更强大的非压缩视觉基础模型提供了新的理论支撑和实践路径。