Thicker and Quicker: A Jumbo Token for Fast Plain Vision Transformers

该论文提出了一种名为“Jumbo"的新型大令牌机制,通过减少普通令牌宽度并增加一个共享参数的全局大令牌,在保持纯 Vision Transformer 架构通用性与灵活性的同时,显著提升了模型在速度、精度及多种下游任务中的表现。

Anthony Fuller, Yousef Yassin, Daniel G. Kyrollos, Evan Shelhamer, James R. Green

发布于 2026-03-03
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一种名为 "Jumbo"(巨无霸) 的新方法,旨在让计算机视觉中一种叫做 ViT(视觉 Transformer) 的模型变得更快、更聪明,同时保持简单

为了让你轻松理解,我们可以把训练一个 AI 模型想象成指挥一支庞大的交响乐团来演奏一首复杂的乐曲(比如识别一张图片)。

1. 现状:乐团有点“头重脚轻”

目前的 ViT 模型(就像现在的乐团)是这样工作的:

  • 乐谱(图片):被切成了很多小块(比如 196 个 16x16 的小方块),每个小块就是一个“乐手”(Token)。
  • 指挥(CLS Token):还有一个专门的“指挥家”Token,负责把所有乐手的信息汇总,最后告诉 AI 这张图是什么(比如“这是猫”)。
  • 问题:在这个乐团里,有 196 个普通乐手,却只有1 个指挥家。指挥家虽然很重要,但他只有和单个乐手一样的“大脑容量”(宽度)。这就好比让一个普通的小学生去指挥整个交响乐团,他忙不过来,导致乐团要么跑得太慢(为了快,就得把指挥家变弱,结果指挥不好),要么跑得太慢(为了强,就得让所有乐手都变强,结果太费资源)。

2. 解决方案:引入"Jumbo 巨无霸”指挥

作者提出了一种新架构,叫 Jumbo。它的核心思想是:给指挥家换个超级大脑,但别让他干太多杂活。

  • 更宽的指挥(Jumbo Token)
    作者把那个唯一的“指挥家”Token 变得超级宽(比如是普通乐手的 6 倍宽)。想象一下,这个指挥家现在戴着一个超级智能的“外置大脑”,能处理极其复杂的信息。
  • 独特的“分身”技巧
    虽然这个指挥家很宽,但在和乐手们交流(注意力机制)时,他会把自己拆分成几个小分身,像普通乐手一样去听大家说话。交流完后,他又合体变回那个超级宽的大指挥家。
  • 专属的“超级大脑”(Jumbo FFN)
    合体后,这个超级指挥家会进入一个专属的、更强大的处理室(FFN 层)去消化信息。这个处理室是专门为他设计的,而且所有层级的指挥家都共用这一套处理室(参数共享),这大大节省了内存。

3. 为什么这很厉害?(三大优势)

🚀 速度更快,效率更高

  • 比喻:以前的做法是,如果想让乐团更强,就得把所有196 个乐手都升级成超级乐手,这太费钱了(计算量大)。
  • Jumbo 的做法:只把1 个指挥家升级成超级大脑,其他乐手保持原样。因为指挥家只占极小的比例,所以升级他的成本几乎可以忽略不计,但效果却立竿见影。
  • 结果:在同样的速度下,Jumbo 模型比以前的模型更准;或者在同样的准确度下,Jumbo 跑得更快。

🧩 保持“原汁原味”的兼容性

  • 比喻:很多为了求快而设计的模型(比如 EfficientViT 等),就像把乐团改成了“电子合成器”或者“混合乐队”。虽然快,但原来的乐谱(ViT 的生态)用不了了,很多原本为 ViT 设计的特效(比如自监督学习、时间序列分析)都失效了。
  • Jumbo 的做法:它依然是一个标准的“原声乐团”(Plain ViT),只是指挥家变强了。
  • 结果:它完全兼容现有的所有 ViT 黑科技。你可以直接用它来做图像分割、视频分析、甚至处理时间序列数据,不需要重新发明轮子。

🌍 全能选手

论文测试了 Jumbo 在各种任务上的表现,它就像那个“超级指挥家”:

  • 看图说话(图像分类):在 ImageNet 数据集上,比之前的记录保持者(Registers)更准、更快。
  • 找东西(图像分割):能更精准地画出物体的轮廓。
  • 自学成才(自监督学习):在没标签的数据上自学时,进步巨大。
  • 抗干扰(鲁棒性):当图片被模糊、加噪点时,它依然能认出物体,比别的模型更“皮实”。
  • 甚至能听歌(时间序列):把这套逻辑用到时间数据上,效果也是第一。

4. 总结

这篇论文的核心贡献就是:我们不需要为了速度而牺牲智能,也不需要为了智能而牺牲速度。

通过给 ViT 模型加一个**“超级宽但参数共享的指挥家(Jumbo Token)”,作者成功打造了一个既快又强、且极其灵活**的新架构。它就像给现有的 AI 模型装了一个“涡轮增压”,让它在保持简单架构的同时,性能直接起飞,甚至超过了那些专门为了快而设计得复杂的“特制模型”。

一句话总结:Jumbo 让 AI 模型在保持“简单、通用”的同时,拥有了“超级大脑”,实现了速度与精度的完美平衡。