Kiwi-Edit: Versatile Video Editing via Instruction and Reference Guidance

El artículo presenta Kiwi-Edit, un marco unificado que supera las limitaciones del control visual en la edición de video mediante instrucciones y referencias, apoyado por un pipeline escalable de generación de datos que crea el conjunto RefVIE y demuestra un nuevo estado del arte en la fidelidad y seguimiento de instrucciones.

Yiqi Lin, Guoqiang Liang, Ziyun Zeng, Zechen Bai, Yanzhe Chen, Mike Zheng Shou

Publicado 2026-03-06
📖 4 min de lectura☕ Lectura para el café

Each language version is independently generated for its own context, not a direct translation.

¡Hola! Imagina que quieres editar un video, como cambiar el fondo de una escena o ponerle un sombrero a un personaje, pero en lugar de escribir una larga descripción, simplemente le muestras una foto de lo que quieres lograr.

El artículo que presentas, "Kiwi-Edit", es como un superpoder nuevo para editar videos que combina dos cosas: tus instrucciones en palabras y una foto de referencia visual.

Aquí te lo explico con analogías sencillas:

1. El Problema: "Hablar" no siempre es suficiente

Antes, para editar un video con inteligencia artificial, tenías que ser muy específico con tus palabras. Si decías "cambia la camisa por una roja", la IA a veces te ponía una camisa roja, pero de un estilo que no te gustaba, o con un corte extraño.

  • La analogía: Es como pedirle a un chef que te haga un pastel "delicioso". El chef podría hacer un pastel rico, pero quizás tú querías uno de chocolate con fresas, y él te dio uno de vainilla. Las palabras a veces son ambiguas.

2. La Solución: "Muestra, no solo digas"

Kiwi-Edit introduce la idea de usar una foto de referencia.

  • La analogía: Ahora, en lugar de solo decirle al chef "haz un pastel rico", le muestras una foto del pastel exacto que quieres. La IA mira la foto y dice: "¡Ah! Quieres ese tipo de chocolate y ese tipo de fresas". Esto hace que el resultado sea mucho más fiel a lo que tienes en mente.

3. El Gran Obstáculo: La falta de "recetas"

El problema es que, para enseñar a una IA a hacer esto, necesitas miles de ejemplos de:

  1. El video original.
  2. La instrucción (texto).
  3. La foto de referencia (lo que quieres cambiar).
  4. El video final editado.

Antes, nadie tenía suficientes de estos "cuartetos" de datos. Las empresas grandes los tenían en secreto, pero para la comunidad científica era como intentar cocinar sin recetas.

4. La Magia de Kiwi-Edit: Creando sus propias recetas

Los autores crearon un taller de construcción de datos (un pipeline) que funciona como una fábrica inteligente:

  • Paso 1: Toman videos que ya existen (donde alguien pidió un cambio).
  • Paso 2: Usan otras inteligencias artificiales muy avanzadas para "imaginar" y crear la foto de referencia que le falta. Si el video original dice "cambia el fondo por una playa", la IA genera una foto de una playa perfecta para usarla como guía.
  • Resultado: Crearon un libro de recetas gigante (llamado RefVIE) con casi medio millón de ejemplos, todo abierto y gratis para que cualquiera lo use.

5. El Cerebro del Sistema: Kiwi-Edit

Con estos datos, entrenaron un modelo llamado Kiwi-Edit. Imagina que este modelo tiene dos cerebros trabajando juntos:

  • El Cerebro Lector: Entiende lo que dices (el texto).
  • El Cerebro Visual: Mira la foto de referencia y entiende los detalles finos (texturas, colores exactos).
  • El Mecanismo de Fusión: Una parte especial del sistema toma la estructura del video original (para que los personajes no se desvanezcan o se muevan mal) y le "pega" los nuevos detalles de la foto de referencia, como si fuera un pegamento mágico que respeta la física del mundo.

6. ¿Qué logra esto?

Gracias a este sistema, Kiwi-Edit puede hacer cosas increíbles con mucha precisión:

  • Cambiar ropa: "Ponle a esta mujer un sombrero negro clásico" (y usa una foto de un sombrero real para que se vea auténtico).
  • Cambiar fondos: "Cambia el fondo por una escena de invierno" (y usa una foto de nieve para que la iluminación y la nieve se vean reales).
  • Eliminar objetos: "Quita a la persona de la camisa azul" (y rellena el espacio de forma natural).

En resumen

Kiwi-Edit es como darle a una IA un lápiz y una foto de referencia en lugar de solo un micrófono. Ha creado una enorme biblioteca de ejemplos (RefVIE) para enseñarle a la IA a entender no solo lo que dices, sino lo que ves. Esto hace que editar videos sea mucho más fácil, preciso y accesible para todos, no solo para expertos.

¡Es un paso gigante para que la tecnología de video se sienta más como un juego de "dibujar sobre lo que ya existe" y menos como adivinar lo que quieres!