Deforming Videos to Masks: Flow Matching for Referring Video Segmentation

该论文提出了名为 FlowRVS 的新框架,通过将指代视频分割任务重构为从视频整体表征到目标掩码的语言引导连续形变问题,利用预训练文生视频模型的优势克服传统级联方法的局限,并在多个基准测试中取得了最先进的性能。

Zanyi Wang, Dengyang Jiang, Liuzhuozheng Li, Sizhe Dang, Chengzu Li, Harry Yang, Guang Dai, Mengmeng Wang, Jingdong Wang

发布于 2026-02-27
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一个名为 FlowRVS 的新方法,它的任务是:给视频里的物体“穿”上精准的“隐身衣”(分割),而且这个指令是用人说的话(自然语言)来下达的。

想象一下,你给电脑看一段视频,然后说:“把那只正在跳跃的白兔子圈出来”。电脑不仅要认出兔子,还要在每一帧里精准地描出兔子的轮廓,哪怕兔子跳来跳去、被遮挡或者变形。

以前的电脑做这件事很笨拙,而 FlowRVS 就像是一个天才的变形魔术师。下面我用几个生活中的比喻来解释它是怎么工作的,以及为什么它这么厉害。

1. 以前的做法:像“先指路,再画画”的笨办法

以前的方法(论文里叫"Locate then Segment")分两步走,就像让一个笨拙的助手干活:

  • 第一步(指路): 助手先听你的话,在视频里大概指一下:“哦,兔子在那边,大概在这个框里。”(这叫“定位”)。
  • 第二步(画画): 助手看着那个模糊的框,再试图把兔子的轮廓画出来。

问题在哪?
这就好比你让助手先猜个大概,再让他画细节。一旦第一步指错了,或者指得不够细(比如只给了个大概的方框,没告诉兔子是“正在跳”的),后面的画就全废了。而且,因为这两步是分开的,助手很容易“断片”,视频里兔子跳远了,他就跟丢了,或者把两只兔子搞混了。

2. FlowRVS 的做法:像“流体变形”的魔法

FlowRVS 彻底改变了思路。它不再分两步,而是把整个任务看作一个连续的变形过程

核心比喻:把视频想象成一块“橡皮泥”,把文字指令想象成“模具”。

  • 以前的做法是:先用手大概捏个形状,再慢慢修。
  • FlowRVS 的做法是:它手里拿着一块原本就是“视频画面”的橡皮泥。当你输入“跳跃的白兔子”这个指令时,它不是去“找”兔子,而是直接指挥这块橡皮泥发生变形
    • 橡皮泥里属于“背景”的部分,慢慢被压扁、消失。
    • 属于“跳跃的白兔子”的部分,慢慢被拉伸、保留,最终变成一张完美的“兔子面具”。

这个过程就像水流一样,从“视频”的状态,顺着文字指令的引导,平滑、连续地流动变成“面具”的状态。

3. 为什么它这么强?(三个独门秘籍)

论文里提到,直接把这种“变形魔法”用在视频上会有困难,因为视频太复杂了。FlowRVS 用了三个聪明的 tricks(技巧)来解决:

  • 秘籍一:起步要稳(边界偏置采样 BBS)

    • 比喻: 就像开车,起步的那一瞬间最重要。如果起步方向偏了一点点,后面开得再快也到不了目的地。
    • 做法: FlowRVS 在训练时,特别关注“起步”的那一步。它强迫模型在刚开始变形时,必须极其精准地理解文字(比如分清是“大猴子”还是“小猴子”)。只要起步对了,后面的变形就顺理成章了。
  • 秘籍二:时刻看原图(直接视频注入 DVI)

    • 比喻: 就像你一边画画一边看参考图。如果画到一半把参考图扔了,只靠脑子记,很容易画歪。
    • 做法: 在变形的每一瞬间,FlowRVS 都紧紧抓着原始视频不放。它时刻提醒自己:“嘿,别忘了原始视频长啥样”,这样就不会在变形过程中“迷路”或把背景误当成兔子。
  • 秘籍三:多练练手(起点增强 SPA)

    • 比喻: 就像练书法,不能只在一个完美的纸上练,要在各种稍微有点抖动的纸上练,这样手稳了,在哪都能写好。
    • 做法: 它让模型在训练时,面对稍微有点变化的“起点”,强迫模型学会更通用的变形规律,这样遇到新视频时也能应对自如。

4. 成果如何?

  • 更聪明: 它能听懂复杂的指令,比如“第一只出现的老虎”或者“那只正在睡觉的熊猫”,以前的方法经常搞混,FlowRVS 能精准区分。
  • 更连贯: 视频里物体动来动去,FlowRVS 描出来的线非常稳,不会像以前的方法那样忽大忽小、闪烁不定。
  • 成绩好: 在几个很难的测试题(基准测试)上,它把以前的最高分都打破了,特别是在那些物体动作复杂、视频很长的场景下,优势巨大。

总结

简单来说,FlowRVS 就是把“理解视频”这件事,从**“先找后画”的笨办法,升级成了“顺势变形”的魔法。它利用了一个强大的生成式 AI 模型(原本是用来生成视频的),把它改造成了“视频变面具”**的专家。

这就好比以前我们是用放大镜去找东西,现在 FlowRVS 是直接用魔法把不需要的东西变没,只留下你想要的东西,而且这个过程行云流水,精准无比。

在收件箱中获取类似论文

根据您的兴趣定制的每日或每周摘要。Gist或技术摘要,使用您的语言。

试用 Digest →