Deforming Videos to Masks: Flow Matching for Referring Video Segmentation

Die Arbeit stellt FlowRVS vor, ein neuartiges, einstufiges Framework für die referenzbasierte Video-Segmentierung, das die Aufgabe als bedingten kontinuierlichen Fluss neu konzeptualisiert und durch das Lernen einer sprachgesteuerten Deformation von der Video-Repräsentation zur Zielmaske neue State-of-the-Art-Ergebnisse erzielt.

Zanyi Wang, Dengyang Jiang, Liuzhuozheng Li, Sizhe Dang, Chengzu Li, Harry Yang, Guang Dai, Mengmeng Wang, Jingdong Wang

Veröffentlicht 2026-02-27
📖 4 Min. Lesezeit☕ Kaffeepausen-Lektüre

Each language version is independently generated for its own context, not a direct translation.

Das große Problem: Die „Suche-und-Zerlege"-Methode

Stell dir vor, du hast einen langen Videoclip und möchtest genau den Bereich im Bild markieren, auf den sich eine Sprachanweisung bezieht. Zum Beispiel: „Markiere den Panda, der auf dem Rücken des anderen liegt."

Bisher haben Computer das so gemacht:

  1. Suchen: Zuerst schaut das System hin und sagt: „Ah, da ist ein Panda!" (Es findet grob die Position).
  2. Zerlegen: Dann nimmt es diesen groben Hinweis und versucht, Schritt für Schritt die genaue Form zu zeichnen.

Das Problem dabei: Es ist wie ein Spiel „Stille Post". Wenn die erste Person (die Suche) den Panda nur grob findet, verliert die zweite Person (das Zeichnen) wichtige Details. Das System vergisst oft, dass die Pandas sich bewegen, oder es verwechselt sie, wenn sie sich drehen. Es ist ein zweistufiger Prozess, bei dem Informationen verloren gehen.

Die neue Idee: FlowRVS – Ein einziger, flüssiger Tanz

Die Forscher von FlowRVS sagen: „Warum machen wir das in zwei Schritte? Machen wir es in einem!"

Stell dir das alte System wie einen Handwerker vor, der erst einen Rohbau errichtet und dann versucht, die Tapete darauf zu kleben. Wenn der Rohbau schief ist, sieht die Tapete auch schief aus.

FlowRVS ist anders. Es nutzt ein neuartiges Modell, das eigentlich dafür trainiert wurde, Videos aus Text zu erzeugen (wie ein KI-Künstler, der aus dem Satz „Ein Hund läuft" ein Video macht).

Die Forscher haben dieses Modell aber „umgedreht":

  • Statt aus dem Nichts (Rauschen) ein Video zu erschaffen, nehmen sie das fertige Video und „verformen" es direkt in eine Maske (eine schwarze und weiße Zeichnung, die genau zeigt, wo der Panda ist).
  • Die Sprachanweisung („Der liegende Panda") wirkt dabei wie ein Dirigent, der dem Computer sagt, wie genau er das Video verformen soll.

Die drei genialen Tricks (Die „Geheimzutaten")

Da diese Umkehrung (Video zu Maske) mathematisch sehr schwierig ist, haben die Forscher drei Tricks angewendet, damit es funktioniert:

  1. Der „Startschuss"-Trick (Boundary-Biased Sampling):
    Stell dir vor, du musst einen Ball von Punkt A nach Punkt B rollen. Der wichtigste Moment ist der allererste Stoß. Wenn du den falsch machst, rollt der Ball in die falsche Richtung und du hast keine Chance mehr, ihn zu korrigieren.
    FlowRVS konzentriert sich beim Lernen besonders stark auf diesen ersten Moment. Es übt unendlich oft den ersten Schritt, damit das System sofort weiß: „Aha, der Text sagt diesen Panda, nicht den anderen!"

  2. Der „Anker"-Trick (Direct Video Injection):
    Während das System das Video in eine Maske verwandelt, könnte es den Bezug zum Original verlieren (wie wenn man beim Malen vergisst, was man eigentlich malen wollte).
    FlowRVS hält sich das Originalvideo die ganze Zeit wie einen Anker in der Hand. Es schaut bei jedem Schritt noch einmal auf das Original, um sicherzustellen, dass es nicht „verirrt".

  3. Der „Schleifstein"-Trick (Start-Point Augmentation):
    Damit das System nicht nur auswendig lernt, wie ein bestimmter Panda aussieht, sondern wirklich versteht, wie man Pandas findet, wird es beim Training leicht „verwirrt". Es bekommt das Video in leicht veränderten Versionen gezeigt. So lernt es, robust zu sein und nicht auf Details zu reagieren, die nur Zufall sind.

Warum ist das so toll?

  • Es ist schneller und genauer: Weil es nicht erst suchen und dann zeichnen muss, sondern beides gleichzeitig in einem flüssigen Prozess tut.
  • Es versteht Zusammenhänge: Wenn im Text steht „Der erste Tiger", versteht FlowRVS, dass es im Zeitverlauf genau diesen Tiger verfolgen muss, auch wenn andere Tiger vorbeilaufen.
  • Es ist ein Weltmeister: In Tests (wie auf dem MeViS-Datensatz) hat FlowRVS alle bisherigen Methoden geschlagen. Es ist wie ein Sportler, der nicht nur schnell läuft, sondern auch perfekt im Slalom durch die Bäume navigiert.

Zusammenfassung in einem Satz

FlowRVS verwandelt das schwierige Problem, ein Video basierend auf Sprache zu markieren, von einem mühsamen „Suchen-und-Zeichnen"-Prozess in einen einzigen, flüssigen Tanz, bei dem das Video sich direkt in die gewünschte Form verformt – gesteuert von den Worten des Benutzers.

Erhalten Sie solche Paper in Ihrem Posteingang

Personalisierte tägliche oder wöchentliche Digests passend zu Ihren Interessen. Gists oder technische Zusammenfassungen, in Ihrer Sprache.

Digest testen →