Kaleido: Open-Sourced Multi-Subject Reference Video Generation Model

Kaleido è un modello open-source per la generazione di video multi-soggetto che supera le limitazioni degli approcci esistenti grazie a una pipeline di costruzione dati dedicata e a una nuova codifica posizionale rotazionale (R-RoPE), garantendo una maggiore coerenza, fedeltà e disentanglement dello sfondo.

Zhenxing Zhang, Jiayan Teng, Zhuoyi Yang, Tiankun Cao, Cheng Wang, Xiaotao Gu, Jie Tang, Dan Guo, Meng Wang

Pubblicato 2026-03-05
📖 4 min di lettura☕ Lettura da pausa caffè

Each language version is independently generated for its own context, not a direct translation.

Immagina di voler creare un filmato in cui i tuoi personaggi preferiti (un amico, il tuo gatto, o un giocattolo particolare) saltano fuori da una foto e iniziano a vivere una storia, muovendosi e interagendo con un nuovo sfondo che tu hai scelto.

Fino a poco tempo fa, farlo era come cercare di dipingere un quadro mentre qualcuno ti spinge la mano: i personaggi cambiavano faccia, si mescolavano allo sfondo o si comportavano in modo strano.

Ecco di cosa parla Kaleido, presentato in questo nuovo documento di ricerca, spiegato in modo semplice:

🎨 Il Problema: "Il Personaggio che non vuole cambiare"

Pensa alle vecchie macchine per fare video. Se gli dicevi: "Fai muovere questo gatto in una foresta", spesso il video risultava con il gatto che sembrava un'immagine incollata, o peggio, il gatto diventava un cane perché la macchina non capiva bene la differenza tra il "gatto" e la "sua vecchia foto".
I modelli esistenti avevano due grossi problemi:

  1. Non distinguevano bene: Se il gatto nella foto era su un divano rosso, nel video il gatto sembrava ancora seduto su quel divano rosso, anche se dovevi metterlo nella foresta.
  2. Si confondevano con più personaggi: Se mostravi due foto (un gatto e un cane), spesso il video finiva con un "mostro" mezzo gatto e mezzo cane, o i due animali si fondevano insieme.

🚀 La Soluzione: Kaleido, il "Regista Magico"

Kaleido è un nuovo sistema open-source (quindi gratuito e accessibile a tutti) che risolve questi problemi. Immaginalo come un regista cinematografico super intelligente che ha due superpoteri speciali:

1. La Cucina dei Dati (Il Pipeline di Addestramento)

Per insegnare a un'intelligenza artificiale a fare bene questo lavoro, non basta darle mille foto a caso. I ricercatori hanno costruito una "cucina" speciale:

  • Tagliano via il superfluo: Prendono le foto, rimuovono digitalmente lo sfondo (come se togliessero il gatto dal divano rosso) e lo mettono su uno sfondo neutro.
  • Mescolano tutto (Cross-Pairing): Prendono un gatto da una foto e lo abbinano a un testo che dice "gatto nella foresta", anche se nella foto originale il gatto era in cucina.
  • Risultato: L'AI impara che il "gatto" è il gatto, e il "divano rosso" è solo un optional che può essere cambiato. Impara a separare il personaggio dal suo passato.

2. L'Etichetta Magica (R-RoPE)

Quando mostri all'AI più foto insieme (es. un gatto e un cane), come fa a sapere quale è quale?

  • Il vecchio metodo: Era come mettere due persone in una stanza senza nomi. Si confondevano e si mescolavano.
  • Il metodo Kaleido (R-RoPE): Immagina di dare a ogni foto un biglietto con un indirizzo GPS unico.
    • Il video che stiamo creando ha un indirizzo (es. "Via del Tempo 1, 2, 3...").
    • Le foto di riferimento hanno un indirizzo diverso, come "Via del Tempo 100, 101...".
    • Grazie a questo "indirizzo", l'AI sa esattamente: "Ah, questa è la foto del gatto, quella è la foto del cane, e ora devo creare il video qui". Non si confondono più!

🌟 Cosa ottieni alla fine?

Grazie a queste due innovazioni, Kaleido riesce a:

  • Mantenere l'identità: Se mostri una foto di tua nonna, nel video sarà tua nonna, con la stessa faccia e i vestiti giusti, non un'anziana generica.
  • Cambiare scena: Puoi dire "Metti tua nonna in un mercato notturno giapponese" e lei ci sarà, senza portare con sé il divano di casa sua.
  • Gestire gruppi: Puoi mettere insieme un gatto, un cane e un'automobile, e ognuno rimarrà se stesso, senza fondersi in un mostro.

🏆 Perché è importante?

Fino ad oggi, solo le grandi aziende chiuse (come quelle che fanno Kling o Vidu) avevano modelli così bravi. Kaleido porta questa tecnologia aperta a tutti, permettendo a chiunque di creare video personalizzati di alta qualità, mantenendo i personaggi fedeli alle foto originali e lasciando libera la fantasia per lo sfondo.

In sintesi: Kaleido è come avere un mago che prende le tue foto statiche, le "sveste" dal loro vecchio contesto, e le fa recitare in un nuovo film, assicurandosi che ogni attore sappia esattamente chi è e dove deve stare.