Kaleido: Open-Sourced Multi-Subject Reference Video Generation Model

Kaleido es un modelo de generación de video basado en múltiples imágenes de referencia que supera las limitaciones actuales en consistencia y fidelidad mediante un pipeline de construcción de datos optimizado y una nueva técnica de codificación posicional rotatoria (R-RoPE) para la integración de referencias.

Zhenxing Zhang, Jiayan Teng, Zhuoyi Yang, Tiankun Cao, Cheng Wang, Xiaotao Gu, Jie Tang, Dan Guo, Meng Wang

Publicado 2026-03-05
📖 5 min de lectura🧠 Análisis profundo

Each language version is independently generated for its own context, not a direct translation.

¡Imagina que tienes una caja mágica de juguetes! 🧸✨

Normalmente, si le pides a una inteligencia artificial que haga un video, le das una descripción escrita (como "un perro corriendo") y ella inventa todo desde cero. A veces sale genial, a veces sale un perro con tres patas o un perro que cambia de color cada segundo.

Otras veces, le das una foto de un objeto específico (como tu gato) y le pides que se mueva. Pero aquí está el problema: la IA a menudo se "pega" a la foto. Si en la foto tu gato está en una cocina, el video siempre será en esa cocina, aunque tú le pidas que esté en la playa. O peor aún, si le das dos fotos (un gato y un perro), la IA se confunde y mezcla sus caras o los hace chocar.

Kaleido es como un nuevo superpoder para esta caja mágica. Es un modelo de código abierto (gratis para todos) que puede tomar varias fotos de referencia y crear un video donde los personajes se ven exactamente igual, pero pueden hacer cosas nuevas y estar en lugares nuevos.

Aquí te explico cómo funciona, usando analogías sencillas:

1. El Problema: La "Masa de Pan" Pegajosa 🍞

Antes de Kaleido, entrenar a estas IAs era como intentar hornear pan con una masa que ya tenía trozos de jamón y queso pegados.

  • El problema de los datos: Los científicos usaban videos existentes para enseñar a la IA. Pero en esos videos, el personaje y el fondo estaban "pegados" (entrelazados). La IA aprendía que "el gato" siempre venía con "la cocina de fondo".
  • El problema de la confusión: Si le dabas dos fotos, la IA pensaba que eran una sola cosa gigante y mezclaba todo.

2. La Solución de Kaleido: El "Cocinero Detallista" 👨‍🍳

Kaleido tiene dos trucos principales para arreglar esto:

A. La Fábrica de Datos Limpios (El Pipeline)

Imagina que Kaleido tiene un equipo de chefs muy estrictos que preparan los ingredientes antes de cocinar.

  • El truco del "Despegado": En lugar de usar fotos tal cual, Kaleido toma una foto, borra digitalmente el fondo (como si recortaras la silueta de una persona con tijeras mágicas) y luego le pone un fondo nuevo y diferente.
  • La mezcla cruzada: ¡Aquí viene lo genial! Toman la foto de un "gato" de un video y la combinan con el "fondo de una playa" de otro video totalmente distinto. Esto le enseña a la IA: "¡Oye! El gato es el gato, no importa si está en la cocina o en la playa. El gato es el protagonista, el fondo es solo decoración".
  • Resultado: La IA aprende a separar al personaje del escenario, como si pudiera ver al actor detrás del maquillaje y el vestuario.

B. La Etiqueta Mágica (R-RoPE)

Ahora, imagina que le das a la IA dos fotos: una de un hombre y una de una mujer.

  • El problema anterior: La IA pensaba: "¿Son dos fotos de la misma persona? ¿Son dos cuadros seguidos de un video?". Se confundía y los hacía chocar.
  • El truco de Kaleido (R-RoPE): Kaleido les pone una "etiqueta de posición" especial a cada foto. Es como ponerles un letrero invisible que dice: "¡Oye! Esta foto es el Personaje A y está en el Lugar 1. Esta otra es el Personaje B y está en el Lugar 2".
  • La analogía: Es como tener dos actores en un escenario. Sin Kaleido, los actores se chocarían porque no saben dónde están sus sillas. Con Kaleido, cada actor tiene su propia silla numerada y sabe exactamente dónde sentarse para no molestar al otro.

3. ¿Qué logra Kaleido? 🎬✨

Gracias a estos trucos, Kaleido puede hacer cosas que antes eran muy difíciles:

  • Consistencia: Si le das una foto de un niño con una gorra roja, el niño en el video tendrá esa misma gorra roja en cada segundo, sin cambiar de color ni desaparecer.
  • Múltiples Personajes: Puedes poner a un perro y a un gato juntos, y la IA sabrá exactamente quién es quién, sin mezclar sus caras.
  • Fondos Libres: Puedes pedirle que el personaje camine por una ciudad, por un bosque o por el espacio, y la IA cambiará el fondo sin tocar al personaje.

En resumen

Kaleido es como un director de cine muy talentoso que, en lugar de usar actores que se olvidan de sus líneas o se confunden con el escenario, les da un guion perfecto y un sistema de luces que les dice exactamente dónde estar.

Lo mejor de todo es que es de código abierto. Esto significa que no es un secreto de una gran empresa (como las películas de Hollywood que solo se ven en cines), sino que es una receta que cualquiera puede usar, mejorar y compartir para crear sus propios videos mágicos. 🚀🎥