Deforming Videos to Masks: Flow Matching for Referring Video Segmentation
Die Arbeit stellt FlowRVS vor, ein neuartiges, einstufiges Framework für die referenzbasierte Video-Segmentierung, das die Aufgabe als bedingten kontinuierlichen Fluss neu konzeptualisiert und durch das Lernen einer sprachgesteuerten Deformation von der Video-Repräsentation zur Zielmaske neue State-of-the-Art-Ergebnisse erzielt.