Deforming Videos to Masks: Flow Matching for Referring Video Segmentation
El artículo presenta FlowRVS, un marco novedoso que reformula la segmentación de objetos en video referenciada por lenguaje como un problema de flujo continuo guiado por texto, logrando un rendimiento superior al estado del arte al aprender deformaciones directas desde la representación del video hacia la máscara objetivo.