VINCIE: Unlocking In-context Image Editing from Video
Il paper introduce VINCIE, un modello basato su trasformatori di diffusione che impara l'editing di immagini in contesto direttamente da video, superando le dipendenze da pipeline specifiche e ottenendo risultati all'avanguardia su benchmark multi-turno.