VidEoMT: Your ViT is Secretly Also a Video Segmentation Model

该论文提出了 VidEoMT,一种仅依赖编码器且无需专用跟踪模块的简易视频分割模型,通过轻量级的查询传播与融合机制实现跨帧信息传递,在保持高精度的同时将推理速度提升了 5 至 10 倍。

Narges Norouzi, Idil Esen Zulfikar, Niccolò Cavagnero, Tommie Kerssies, Bastian Leibe, Gijs Dubbelman, Daan de Geus

发布于 2026-03-05
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一个名为 VidEoMT 的新模型,它的核心思想非常有趣:你原本用来处理单张图片的“视觉大模型”(ViT),其实偷偷地也能完美处理视频,根本不需要那些复杂的“追踪器”插件。

为了让你更容易理解,我们可以把视频分割任务想象成**“在繁忙的舞会上给每个人贴标签并记住他们”**。

1. 以前的做法:复杂的“双人舞”团队

在 VidEoMT 出现之前,处理视频(比如识别视频里的人、车、狗)通常需要两个专门的团队配合工作:

  • 团队 A(分割员): 负责在每一帧画面里,把每个人从背景里“抠”出来,贴上标签(比如“这是张三”)。
  • 团队 B(追踪员): 负责在下一帧画面里,把上一帧的“张三”认出来,确保“这一帧的张三”和“上一帧的张三”是同一个人。

问题在于: 这个“追踪员”团队非常复杂,需要很多专门的神经网路模块(像是一个带着放大镜、拿着记事本、还要时刻计算距离的侦探)。这导致整个系统非常笨重、计算量大,而且速度很慢。就像为了在舞会上认人,你不仅派了个摄影师,还派了个侦探队,甚至还要派个后勤组,效率极低。

2. VidEoMT 的灵感:大模型其实是个“全才”

作者发现,现在的视觉基础模型(ViT,比如 DINOv2) 就像是一个**“超级天才”**。

  • 这些“超级天才”在海量数据上受过训练,它们看图片时,不仅能认出物体,还能理解物体的特征。
  • 之前的研究(EoMT)已经证明,给这个“超级天才”加几个简单的“问题(Query)”,它就能直接搞定图片分割,根本不需要那个复杂的“分割员团队”。

作者的猜想是: 既然这个“超级天才”这么聪明,它是不是也能顺便把“追踪”这件事给做了?是不是我们根本不需要那个笨重的“追踪员团队”?

3. VidEoMT 的魔法:两个小道具

为了验证猜想,作者把那个复杂的“追踪员团队”拆了,只留下了一个**“纯编码器”(Encoder-only)** 的架构。为了让这个“超级天才”在视频里也能认人,他们加了两个非常轻量的“魔法道具”:

道具一:记忆传递(Query Propagation)

  • 比喻: 想象你在舞会上,上一秒你刚跟“张三”聊完天。下一秒,你不需要重新去人群里找“张三”,而是直接把上一秒关于“张三”的记忆(Query)带过来,继续盯着他。
  • 作用: 这样模型就知道“这一帧的张三”和“上一帧的张三”是同一个,实现了时间上的连续性

道具二:新旧融合(Query Fusion)

  • 比喻: 如果舞会上突然来了个新朋友“李四”,你光带着“张三”的记忆是不够的,你还需要新的注意力去发现李四。
  • 作用: 模型把“上一帧的记忆”和“新的学习问题”结合起来。既保留了旧人的记忆,又能灵活地发现新出现的人。

4. 惊人的效果:快如闪电,准如神算

通过这种“做减法”的方法,VidEoMT 带来了巨大的改变:

  • 速度提升 5 到 10 倍: 以前的模型处理视频可能像老牛拉破车(比如每秒 15 帧),而 VidEoMT 像F1 赛车(每秒 160 帧!)。这意味着它可以在普通电脑上实时处理高清视频,甚至能在手机上流畅运行。
  • 精度依然很高: 虽然拆掉了复杂的追踪模块,但它的识别准确率(AP)依然和那些最顶尖的复杂模型不相上下,甚至在某些情况下更好。
  • 结构简单: 整个系统就像一个单兵作战的特种兵,不需要后勤大队,不需要复杂的指挥链,所有工作在一个统一的“大脑”里就完成了。

总结

这篇论文告诉我们一个反直觉的道理:有时候,我们不需要把系统做得更复杂,而是需要挖掘现有“大模型”的潜力。

就像你不需要给一个超级大脑再配一个复杂的计算器,因为它自己就能算得很快。VidEoMT 证明了,只要给预训练好的大模型(ViT)加上一点点巧妙的“记忆传递”机制,它就能从“静态图片识别者”进化成“动态视频追踪者”,而且更快、更省资源、更聪明

这对于未来的应用(比如自动驾驶、手机实时翻译、无人机监控)来说,是一个巨大的突破,因为它让高性能的视频分析变得触手可及