Kiwi-Edit: Versatile Video Editing via Instruction and Reference Guidance
O artigo apresenta o Kiwi-Edit, uma nova arquitetura unificada e um pipeline escalável de geração de dados que, ao criar o conjunto de dados RefVIE, supera as limitações atuais na edição de vídeo baseada em instruções, permitindo um controle visual preciso e fiel através da combinação de instruções textuais e referências visuais.