Scaling Laws in Patchification: An Image Is Worth 50,176 Tokens And More

该论文通过广泛的实验揭示了视觉 Transformer 中分块(patchification)的缩放规律,发现模型性能随分块尺寸减小而持续提升,直至达到像素级(1x1)分块,从而证明了非压缩视觉模型在多种任务和架构下的有效性,并成功将视觉序列扩展至 50,176 个 token 以在 ImageNet-1k 上取得 84.6% 的准确率。

Feng Wang, Yaodong Yu, Guoyizhe Wei, Wei Shao, Yuyin Zhou, Alan Yuille, Cihang Xie

发布于 2026-02-23
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文就像是在给计算机视觉领域的一群“老古董”提了一个大胆的建议:别再把图片“压缩”了,让我们直接看“像素”吧!

为了让你轻松理解,我们可以把这篇论文的核心思想想象成**“看地图”和“看照片”**的故事。

1. 过去的做法:把照片切成“马赛克”

想象一下,你有一张非常高清的 4K 照片(比如 224x224 像素)。
以前的计算机视觉模型(比如 ViT,视觉 Transformer)觉得:“哇,这张图太细节了,处理起来太累!不如我把这张图切成很多块,比如每块 16x16 像素,然后把每一块当成一个‘单词’(Token)。”

  • 比喻:这就像你有一本厚厚的书,为了快速阅读,你把每 16 个字强行合并成一个“词块”。
    • 原本 224x224 的图片有 50,176 个像素点(字)。
    • 切成 16x16 的块后,只剩下 196 个“词块”。
  • 后果:虽然读得快了(计算量小了),但你丢失了很多细节。就像把“一只在草地上奔跑的金色小狗”压缩成“一个棕色物体”,你再也分不清它是狗还是猫,是跑还是跳了。论文作者认为,这种**“压缩”**导致了信息的永久丢失。

2. 作者的发现:越小越好,直到“像素级”

作者做了一个疯狂的实验:他们不断把切块的尺寸变小。

  • 从 16x16 切成 8x8,性能变好了。
  • 切成 4x4,更好了。
  • 切成 2x2,甚至 1x1(也就是不切块,直接看每一个像素),性能竟然还在提升!

核心发现(Scaling Law):
这就好比**“分辨率越高,看得越清”**。
以前大家认为,为了算得快,必须牺牲清晰度(压缩)。但作者发现,只要你的电脑够强(现在的 GPU 很强),直接把每一个像素都当作一个“单词”喂给模型,效果是最好的。

  • 在 ImageNet 测试中,他们把序列长度从 196 个词,直接拉到了 50,176 个词(也就是 5 万个像素点),准确率从 82.6% 提升到了 84.6%
  • 这证明了:图片的价值在于它包含的每一个像素,而不是被压缩后的“大概意思”。

3. 一个意外的惊喜:不需要“翻译官”了

在传统的深度学习模型里,通常需要一个“解码器”(Decoder)。

  • 比喻:如果编码器(Encoder)把图片压缩得太厉害(比如只给了你几个大词块),那么解码器就像一个**“翻译官”**,它得根据这几个词块,努力猜出图片里每个像素是什么(比如猜出哪里是树,哪里是路)。
  • 新发现:当作者把压缩率降到最低(直接看像素)时,编码器自己就把细节看得清清楚楚了。这时候,那个“翻译官”(解码器)就变得多余了!
  • 意义:这意味着未来的模型可以变得更简单,不需要复杂的“解码”步骤,光靠一个强大的“编码器”就能直接搞定所有任务(比如分割、检测)。

4. 为什么以前没人这么做?(硬件的进步)

你可能会问:“既然直接看像素这么好,为什么以前不这么做?”

  • 原因:以前电脑太慢了。
    • 把 5 万个像素都算一遍,计算量是巨大的(就像要把 5 万个单词都读一遍,而不是只读 196 个词块)。
    • 以前的显卡(GPU)内存不够,算着算着就“爆”了。
  • 现在:随着硬件(如 A100 显卡)和算法(如线性复杂度的 Mamba 架构)的进步,处理这 5 万个“单词”已经变得可行且高效了。

5. 总结:未来的方向

这篇论文告诉我们一个重要的趋势:
“一张图片,价值 50,176 个 Token(甚至更多)。”

以前我们为了省算力,不得不把图片“糊弄”一下(压缩)。现在算力上来了,我们应该回归本质,不再压缩,让模型直接学习每一个像素的细节。

一句话总结:
这就好比以前我们为了快速浏览,只读书的“目录”和“摘要”;现在既然时间(算力)充裕了,我们决定逐字逐句地精读,结果发现,这样理解得才最透彻,而且连“翻译官”(解码器)都不需要了!

在收件箱中获取类似论文

根据您的兴趣定制的每日或每周摘要。Gist或技术摘要,使用您的语言。

试用 Digest →