Do VLMs Need Vision Transformers? Evaluating State Space Models as Vision Encoders

Each language version is independently generated for its own context, not a direct translation.

这篇论文其实是在探讨一个非常有趣的问题：当我们教人工智能（AI）“看”世界时，是不是非得用那种最流行、最昂贵的“大变压器”（Transformer）架构？有没有更聪明、更省钱的替代方案？

为了让你轻松理解，我们可以把构建一个“视觉 - 语言大模型”（VLM，比如能看图说话的 AI）想象成开一家“图文翻译餐厅”。

这家餐厅有三个主要部门：

过去的做法： 大家默认“视觉部”必须用一种叫 ViT（Vision Transformer） 的超级大厨。这种大厨很厉害，但也很贵、很耗能，而且有时候看东西太“宏观”，忽略了细节。

这篇论文想问： 如果我们换一种叫 SSM（状态空间模型，比如 VMamba） 的新式大厨，餐厅的生意（AI 的表现）会变好吗？

研究人员做了一场严格的“盲测”，把不同的视觉大厨（ViT、MaxViT、VMamba 等）放进同一个餐厅，用同样的菜单和同样的主厨，看看谁表现最好。

结果令人惊讶：

ViT（老派大厨）： 虽然名气大，但在需要精准定位（比如“指出图片里那只穿黄裤子的长颈鹿在哪里”）的任务上，表现往往不如预期。它有时候看得太“散”，找不到重点。
VMamba（新派 SSM 大厨）： 这个新大厨虽然个头不大（模型参数少），但表现惊人！
- 比喻： 如果 ViT 是用广角镜头拍全景，VMamba 就像是一个拿着手电筒在房间里仔细扫描的人。它不仅能看清整体，还能精准地指出“那个绿色的蛋糕在左边”。
- 数据说话： 在“指物定位”的考试中，VMamba 的得分远高于同级别的 ViT，甚至在某些任务上能打败比它大好几倍的 ViT 模型。

论文发现了一个反直觉的现象：并不是模型越大、在 ImageNet（一个标准图片考试）上考分越高，这个餐厅的生意就越好。

比喻： 想象一个在“识别猫狗”考试中拿了满分（ImageNet 高分）的厨师，他可能只学会了怎么把猫和狗区分开，却忘了猫耳朵长什么样、狗尾巴怎么摇（丢失了空间细节）。
结论： 有些大模型为了追求考试高分，变得“死记硬背”，反而失去了对图片细节的敏感度。而 VMamba 这种新架构，天生就保留了更多空间细节，所以即使它考分不是最高，但在“看图说话”这种需要细节的任务上，它反而更聪明。

在实验中，研究人员发现有些配置（特别是把图片切得很碎、分辨率很高时）会导致餐厅“翻车”——AI 突然不会指东西了，这叫**“定位崩溃”**。

原因分析：

比喻： 就像视觉部（视觉编码器）把很丰富的信息传给了连接器，但连接器太细（容量太小），或者传话的方式不对（图片形状太奇怪，比如长条形），导致主厨（大语言模型）听不清或者听不懂。

解决方案（论文提出的“急救包”）：

不必迷信 Transformer： 在视觉 - 语言模型中，SSM（如 VMamba） 是一个被低估的强力选手。它更小、更快，而且在需要精准定位的任务上表现更好。
细节决定成败： 对于 AI 来说，能“指”出物体在哪里，比单纯“认出”物体是什么更重要。
架构不是万能的： 即使换了最好的视觉大厨，如果“传话机制”（连接器）和“传话方式”（图片格式）没配合好，也会翻车。
未来方向： 我们不需要盲目追求更大的模型，而是应该寻找**“架构 + 训练目标 + 接口设计”**的最佳组合。

一句话总结：
这篇论文就像是在告诉 AI 开发者：“别只盯着那个最贵的‘大变压器’大厨了，试试这个叫 VMamba 的‘新式扫描工’吧！它更懂细节，更省钱，只要把传话的通道修好，它能让你的 AI 看得更准、说得更对。”

类似论文