Do VLMs Need Vision Transformers? Evaluating State Space Models as Vision Encoders

该论文通过系统评估证明,在匹配初始化及经过密集任务微调后,状态空间模型(SSM)作为视觉编码器在视觉语言模型中不仅能保持与 Transformer 相当的竞争力,且具备更小的模型规模,同时揭示了图像分类精度或模型规模并非决定 VLM 性能的唯一因素,并提出了提升定位稳定性的策略。

Shang-Jui Ray Kuo, Paola Cascante-Bonilla

发布于 2026-03-20
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文其实是在探讨一个非常有趣的问题:当我们教人工智能(AI)“看”世界时,是不是非得用那种最流行、最昂贵的“大变压器”(Transformer)架构?有没有更聪明、更省钱的替代方案?

为了让你轻松理解,我们可以把构建一个“视觉 - 语言大模型”(VLM,比如能看图说话的 AI)想象成开一家“图文翻译餐厅”

1. 餐厅的构成:谁在做什么?

这家餐厅有三个主要部门:

  • 视觉部(Vision Encoder): 负责看菜单(图片),把图片里的内容翻译成“食材清单”(视觉特征)。
  • 连接器(Connector): 负责把“食材清单”翻译成厨师能听懂的“语言指令”。
  • 主厨(LLM,大语言模型): 负责根据指令,用流利的语言写出最终的“菜品描述”(回答用户的问题)。

过去的做法: 大家默认“视觉部”必须用一种叫 ViT(Vision Transformer) 的超级大厨。这种大厨很厉害,但也很贵、很耗能,而且有时候看东西太“宏观”,忽略了细节。

这篇论文想问: 如果我们换一种叫 SSM(状态空间模型,比如 VMamba) 的新式大厨,餐厅的生意(AI 的表现)会变好吗?

2. 核心发现:新大厨(SSM)更擅长“指哪打哪”

研究人员做了一场严格的“盲测”,把不同的视觉大厨(ViT、MaxViT、VMamba 等)放进同一个餐厅,用同样的菜单和同样的主厨,看看谁表现最好。

结果令人惊讶:

  • ViT(老派大厨): 虽然名气大,但在需要精准定位(比如“指出图片里那只穿黄裤子的长颈鹿在哪里”)的任务上,表现往往不如预期。它有时候看得太“散”,找不到重点。
  • VMamba(新派 SSM 大厨): 这个新大厨虽然个头不大(模型参数少),但表现惊人!
    • 比喻: 如果 ViT 是用广角镜头拍全景,VMamba 就像是一个拿着手电筒在房间里仔细扫描的人。它不仅能看清整体,还能精准地指出“那个绿色的蛋糕在左边”。
    • 数据说话: 在“指物定位”的考试中,VMamba 的得分远高于同级别的 ViT,甚至在某些任务上能打败比它大好几倍的 ViT 模型。

3. 为什么有时候“越大越差”?(打破迷信)

论文发现了一个反直觉的现象:并不是模型越大、在 ImageNet(一个标准图片考试)上考分越高,这个餐厅的生意就越好。

  • 比喻: 想象一个在“识别猫狗”考试中拿了满分(ImageNet 高分)的厨师,他可能只学会了怎么把猫和狗区分开,却忘了猫耳朵长什么样、狗尾巴怎么摇(丢失了空间细节)。
  • 结论: 有些大模型为了追求考试高分,变得“死记硬背”,反而失去了对图片细节的敏感度。而 VMamba 这种新架构,天生就保留了更多空间细节,所以即使它考分不是最高,但在“看图说话”这种需要细节的任务上,它反而更聪明。

4. 遇到“翻车”怎么办?(稳定策略)

在实验中,研究人员发现有些配置(特别是把图片切得很碎、分辨率很高时)会导致餐厅“翻车”——AI 突然不会指东西了,这叫**“定位崩溃”**。

原因分析:

  • 比喻: 就像视觉部(视觉编码器)把很丰富的信息传给了连接器,但连接器太细(容量太小),或者传话的方式不对(图片形状太奇怪,比如长条形),导致主厨(大语言模型)听不清或者听不懂。

解决方案(论文提出的“急救包”):

  1. 加厚连接器: 给传话员(连接器)升级装备,让他能搬运更多、更复杂的细节信息。
  2. 调整图片形状: 把长条形的图片强行变成正方形(512x512),这样主厨更容易理解空间关系。
  • 效果: 只要加上这两个简单的“补丁”,那些原本会“翻车”的大模型就能立刻恢复正常,甚至表现更好。

5. 总结:这篇论文告诉我们什么?

  1. 不必迷信 Transformer: 在视觉 - 语言模型中,SSM(如 VMamba) 是一个被低估的强力选手。它更小、更快,而且在需要精准定位的任务上表现更好。
  2. 细节决定成败: 对于 AI 来说,能“指”出物体在哪里,比单纯“认出”物体是什么更重要。
  3. 架构不是万能的: 即使换了最好的视觉大厨,如果“传话机制”(连接器)和“传话方式”(图片格式)没配合好,也会翻车。
  4. 未来方向: 我们不需要盲目追求更大的模型,而是应该寻找**“架构 + 训练目标 + 接口设计”**的最佳组合。

一句话总结:
这篇论文就像是在告诉 AI 开发者:“别只盯着那个最贵的‘大变压器’大厨了,试试这个叫 VMamba 的‘新式扫描工’吧!它更懂细节,更省钱,只要把传话的通道修好,它能让你的 AI 看得更准、说得更对。”

您所在领域的论文太多了?

获取与您研究关键词匹配的最新论文每日摘要——附技术摘要,使用您的语言。

试用 Digest →