SF-Mamba: Rethinking State Space Model for Vision

该论文提出了 SF-Mamba,一种通过辅助块交换实现双向信息流以及利用批折叠与周期性状态重置优化 GPU 并行性的新型视觉状态空间模型,旨在解决现有 Mamba 架构在视觉任务中非因果交互受限及短序列计算效率低的问题,并在多项视觉任务中实现了超越现有最先进基线的性能与吞吐量。

Masakazu Yoshimura, Teruaki Hayashi, Yuki Hoshino, Wei-Yao Wang, Takeshi Ohashi

发布于 2026-03-18
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一种名为 SF-Mamba 的新人工智能模型,它旨在解决当前计算机视觉领域的一个核心难题:如何让 AI 既看得准(高精度),又跑得快(高效率)

为了让你更容易理解,我们可以把 AI 处理图片的过程想象成一个学生在阅读一本厚厚的画册

1. 背景:现有的两种“读书”方式

在 SF-Mamba 出现之前,主要有两种流行的“读书”方法:

  • 方法 A:Transformer (ViT) —— “全知全能的图书馆员”

    • 怎么读: 这位学生非常聪明,他可以把画册撕成无数个小碎片(图像块),然后同时看所有的碎片。他能看到第 1 页和第 100 页之间的联系。
    • 缺点: 这种“同时看”的方法非常消耗精力。画册越厚(图片分辨率越高),他需要同时处理的信息量就呈平方级爆炸增长。就像如果书有 1000 页,他需要同时盯着 100 万对页码的关系,累得半死,速度极慢。
  • 方法 B:Mamba —— “按顺序读书的勤奋学生”

    • 怎么读: 这位学生很勤奋,他从左到右、一页一页地读。因为不需要同时看所有页,他的精力消耗是线性的(书多几页,只多花一点点时间),所以速度很快。
    • 缺点: 他有个致命弱点——因果限制。当他读到第 50 页时,他完全不知道第 51 页写了什么。这就像你读小说时,如果只能看前面,不能看后面,你就很难理解剧情的全貌(比如伏笔)。为了弥补这个缺点,以前的 Mamba 模型会尝试“倒着读”或者“多方向读”,但这就像让学生把书撕下来重新拼凑,反而更慢了。

2. SF-Mamba 的两大创新:聪明的“作弊”技巧

SF-Mamba 的作者(索尼的研究团队)觉得,既然“全知全能”太累,“按顺序读”又太傻,那能不能结合两者的优点?他们提出了两个巧妙的“作弊”技巧:

技巧一:辅助贴片交换 (Auxiliary Patch Swapping) —— “传递小纸条”

  • 问题: 按顺序读的学生(Mamba)读不到后面的内容。
  • 以前的笨办法: 让学生把书倒过来再读一遍,或者把书撕成四块分别读。这太浪费时间了(就像频繁地整理书架)。
  • SF-Mamba 的妙招:
    • 想象学生在读每一页时,手里拿着两张特殊的“小纸条”(辅助 Token)。
    • 一张纸条在开头,一张在结尾。
    • 当学生读完这一章(一层网络),他会把结尾的纸条(包含了刚才读过的所有信息)和开头的纸条交换位置。
    • 效果: 下一轮读书时,开头的纸条已经带着“未来的信息”了!这样,学生虽然还是按顺序读,但他通过交换纸条,巧妙地知道了后面的内容。
    • 比喻: 就像在接力赛中,不需要每个人跑完全程再回头,而是通过一个聪明的“传话员”把后面的消息提前传给前面的人。这只需要极小的代价,却实现了“双向交流”。

技巧二:批次折叠 (Batch Folding) —— “把短队伍排成长龙”

  • 问题: 现在的 GPU(显卡)就像一条高速公路,它喜欢处理长车队。但在处理小图片时,图像被切成的“碎片”(Token)很少,就像只有几辆车在高速上跑,导致高速公路的大部分车道都空着,效率极低。
  • SF-Mamba 的妙招:
    • 既然单张图片的“车队”太短,那就把多张图片(比如 128 张)的碎片首尾相接,拼成一条超级长的车队
    • 关键点: 为了防止不同图片的信息“串台”(比如把猫的信息传给狗),他们在拼接处设置了一个**“重置开关”**(Periodic State Reset)。每读完一张图片的长度,就瞬间清空记忆,确保下一段车队是独立的。
    • 比喻: 就像把 10 个短小的排队队伍,合并成 1 个超长的队伍,让高速收费站(GPU)能一次性通过更多车辆,大大提升了通行效率。

3. 结果:又快又准

通过这两个技巧,SF-Mamba 做到了:

  1. 速度极快: 它不需要像以前的方法那样频繁地重新排列数据,也不需要像 Transformer 那样计算量爆炸。在同样的硬件上,它处理图片的速度(吞吐量)比现有的最先进模型快很多。
  2. 精度很高: 因为它通过“传纸条”解决了“读不到未来”的问题,所以它理解图片的能力非常强,在分类、检测物体、分割图像等任务上都取得了最好的成绩。

总结

简单来说,SF-Mamba 就像是一个既勤奋又聪明的学生

  • 他依然保持按顺序阅读的高效习惯(不像 Transformer 那么累)。
  • 但他通过交换小纸条,巧妙地知道了后面的内容(解决了 Mamba 的短视问题)。
  • 他学会了把多个人的任务合并处理,让机器跑得飞快(解决了小图片处理慢的问题)。

这项技术让 AI 在处理高清图片、医疗影像、自动驾驶等需要“既快又准”的场景时,有了更强的潜力,甚至可能在未来取代目前主流的 Transformer 架构。

您所在领域的论文太多了?

获取与您研究关键词匹配的最新论文每日摘要——附技术摘要,使用您的语言。

试用 Digest →