Separators in Enhancing Autoregressive Pretraining for Vision Mamba

该论文提出了一种名为 STAR 的创新自回归预训练方法,通过在每个图像前插入分隔符来显著扩展 Vision Mamba 的输入序列长度,从而在 ImageNet-1k 上实现了 83.5% 的优异准确率。

Hanpeng Liu, Zidan Wang, Shuoxi Zhang, Kaiyuan Gao, Kun He

发布于 2026-03-05
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一种名为 STAR 的新方法,旨在让一种叫 Vision Mamba 的 AI 模型变得更聪明、更擅长看图。

为了让你轻松理解,我们可以把整个过程想象成**“教一个学生读故事书”**。

1. 背景:Mamba 是个“长跑健将”,但以前只让他跑短跑

  • Mamba 是什么? 想象 Mamba 是一个记忆力超群、处理速度极快的“长跑健将”(AI 模型)。它特别擅长处理长长的序列(比如读一整本小说,或者看很长的视频流),而且非常省电(计算效率高)。
  • 以前的问题: 虽然 Mamba 擅长跑“长跑”,但以前的训练方法(自回归预训练)就像只让它一次只读一张图片。这就好比让一个能跑马拉松的运动员,每次只让他跑 100 米。这完全浪费了他的天赋,他没法发挥处理“长序列”的特长。

2. 核心创新:STAR 的“分隔符”魔法

为了解决这个问题,作者们想出了一个绝妙的办法,就像给故事书加上了**“章节分隔符”**。

  • 以前的做法(单图模式):
    想象你要教学生认字。以前,你拿出一张图片,把它切成很多小方块(像拼图一样),让学生一个个猜下一个方块是什么。猜完一张图,就换下一张。学生脑子里没有“上下文”的连贯感,因为每张图都是孤立的。

  • STAR 的做法(长序列模式):
    作者们想:“既然 Mamba 擅长读长文,那我们就把多张图片连起来,变成一本‘连环画’!”
    但是,直接把图片拼在一起,学生会糊涂:“这张图的结尾和下一张图的开头有什么关系?它们是一起的吗?”

    于是,他们发明了“分隔符”(Separator):

    • 这就好比在每一章(每一张图片)的开头,都放一个特殊的“书签”
    • 这个“书签”长得很特别(论文里叫它“对角线是 1,其他是 0"的图案),它明确地告诉学生:“注意!新的一章开始了,前面的故事结束了,现在我们要看新故事了。”
    • 有了这个“书签”,Mamba 就可以一次性吞下8 张、16 张甚至更多图片,把它们当成一个超长的故事序列来学习。

3. 具体怎么操作?(比喻版)

  1. 切蛋糕(分块): 先把一张图片切成很多小块(Patch)。
  2. 打包(聚类): 把相邻的小块打包成“小包裹”(Cluster)。
  3. 加书签(插入分隔符): 在每一个“小包裹”序列的最前面,放一个特制的“书签包裹”。
  4. 连成长龙(拼接): 把“书签 + 图片 1"、“书签 + 图片 2"、“书签 + 图片 3"……全部串在一起,变成一条长长的“信息龙”。
  5. 开始学习(预测): Mamba 看着这条长龙,根据前面的内容,预测下一个“包裹”里是什么。
    • 当它预测完“图片 1"的最后一个包裹后,下一个预测目标就是“图片 2"开头的**“书签”**。
    • 这就像学生读完一章,看到“第二章”的标题,自然就知道要开始读新内容了。

4. 为什么要这样做?(好处)

  • 物尽其用: 以前 Mamba 只能处理短序列,现在它能处理4 倍甚至更长的序列,真正发挥了它“长跑健将”的特长。
  • 学得更深: 通过阅读“连环画”,模型不仅能看懂单张图片,还能理解图片与图片之间的潜在联系(虽然它们可能不相关,但模型学会了如何快速切换上下文)。
  • 成绩斐然: 在著名的 ImageNet 图片分类考试(相当于 AI 界的“高考”)中,使用 STAR 方法训练的模型,准确率达到了 83.5%。这个成绩非常厉害,甚至能和目前最顶尖的模型(如 VMamba)掰手腕,而且训练效率更高。

5. 一些有趣的发现(实验细节)

作者在研究这个“书签”时,还发现了一些有趣的规律:

  • 书签放哪? 放在图片最前面效果最好。如果放在后面,就像书读完了才告诉你这是第一章,学生就懵了。
  • 书签长啥样? 用一种“对角线是 1,其他是 0"的特殊图案(Identity Separator)效果最好,因为它既醒目,又不会和正常的图片内容混淆。
  • 一次读多少页? 一次读 4 到 8 张 图片效果最佳。读太少(1 张)没发挥特长,读太多(16 张)模型会“消化不良”,效果反而下降。
  • 修改“总结句”: 他们把原本放在图片中间的“总结标签”(Class Token),移到了整张图的最后。这就像让学生读完整个故事后,再写总结,比读到一半就总结要准确得多。

总结

这篇论文的核心思想就是:不要浪费 Mamba 的“长跑”天赋。

通过给每一张图片加一个特殊的“分隔符”,把多张图片串成一条长龙,让 Mamba 能够像读长篇小说一样去“阅读”图片。这种方法简单、巧妙,而且效果惊人,让 AI 在看图任务上变得更聪明、更高效。

这就好比:以前是让一个马拉松选手在客厅里来回踱步(短序列),现在 STAR 方法给他铺了一条通往远方的跑道(长序列),让他真正跑出了速度!