InfinityStory: Unlimited Video Generation with World Consistency and Character-Aware Shot Transitions

Il paper presenta InfinityStory, un nuovo framework, dataset e modello progettati per generare video narrativi di lunga durata con coerenza visiva globale, mantenendo l'identità dei personaggi e garantendo transizioni fluide tra inquadrature complesse con più soggetti.

Mohamed Elmoghany, Liangbing Zhao, Xiaoqian Shen, Subhojyoti Mukherjee, Yang Zhou, Gang Wu, Viet Dac Lai, Seunghyun Yoon, Ryan Rossi, Abdullah Rashwan, Puneet Mathur, Varun Manjunatha, Daksh Dangi, Chien Nguyen, Nedim Lipka, Trung Bui, Krishna Kumar Singh, Ruiyi Zhang, Xiaolei Huang, Jaemin Cho, Yu Wang, Namyong Park, Zhengzhong Tu, Hongjie Chen, Hoda Eldardiry, Nesreen Ahmed, Thien Nguyen, Dinesh Manocha, Mohamed Elhoseiny, Franck Dernoncourt

Pubblicato 2026-03-05
📖 4 min di lettura☕ Lettura da pausa caffè

Each language version is independently generated for its own context, not a direct translation.

Immagina di voler creare un film intero, della durata di un'ora, raccontando una storia con i tuoi personaggi preferiti. Fino a oggi, l'Intelligenza Artificiale (AI) era come un regista distratto: sapeva disegnare bellissime scene singole, ma quando doveva passare da una scena all'altra, si dimenticava tutto.

Ecco i tre "mostri" che InfinityStory ha sconfitto:

1. Il Problema del "Sfondo che Balla" (Consistenza dello Sfondo)

L'analogia: Immagina di girare un film in una stanza. Se cambi il set per ogni inquadratura, la sedia potrebbe spostarsi di un centimetro, la luce cambiare colore o il muro diventare rosa invece che bianco. Nel cinema vero, questo non succede. Ma nelle vecchie AI, ogni volta che cambiavi inquadratura, l'AI "ricreava" la stanza da zero, e il risultato era che la stanza sembrava cambiare continuamente, creando confusione.

La soluzione di InfinityStory:
Gli autori hanno creato un "Archivio dei Set Fissi".
Prima di iniziare a girare il film, l'AI disegna e fissa una volta per tutte i luoghi della storia (es. "Il Castello", "La Foresta Magica"). Ogni volta che la storia torna in quel luogo, l'AI non ridisegna la stanza: prende il "set" originale e lo incolla sopra i personaggi. È come se avessi un sfondo stampato su un telo gigante che non si muove mai, e ci metti sopra i personaggi che recitano. Risultato: la scena rimane identica per ore.

2. Il Problema del "Teletrasporto" (Transizioni tra le Scene)

L'analogia: Nelle vecchie video-AI, se un personaggio entrava in una stanza, spesso appariva all'improvviso come un fantasma (un "teletrasporto"). Se usciva, spariva nel nulla. Era come guardare un film dove gli attori saltano dentro e fuori dallo schermo senza camminare.

La soluzione di InfinityStory:
Hanno creato un allenatore di acrobazie digitali.
Invece di far apparire i personaggi magicamente, l'AI ha imparato a fare le transizioni cinematografiche vere. Ha creato un dataset speciale (10.000 esempi) dove i personaggi imparano a:

  • Entrare: Camminare lentamente dall'orlo dello schermo verso il centro.
  • Uscire: Scomparire gradualmente mentre si allontanano.
  • Sostituire: Un personaggio che esce mentre un altro entra, senza che nessuno sparisca nel nulla.
    È come se l'AI avesse studiato il cinema per anni e sapesse esattamente come muovere la telecamera e gli attori per rendere il passaggio fluido e naturale.

3. Il Regista che non si Dimentica di Nulla (Pianificazione Multi-Agente)

L'analogia: Creare un film di un'ora è come costruire una cattedrale. Non puoi affidarti a un solo muratore che sa solo posare un mattone. Ti serve un team.

La soluzione di InfinityStory:
Hanno creato un team di agenti AI che lavorano insieme come un vero studio cinematografico:

  • Lo Sceneggiatore: Divide la storia in capitoli.
  • Il Direttore di Scena: Decide dove avviene la scena (usando i "Set Fissi" di cui parlavamo prima).
  • Il Regista: Decide come muovere la telecamera e come i personaggi devono interagire.
  • Il Montatore: Si assicura che il passaggio tra un'azione e l'altra sia fluido.

Questi agenti si passano i "fogli di appunti" (i dati) in modo che nessuno dimentichi chi è il protagonista o dove si trova la scena.

I Risultati: Perché è speciale?

Il paper mostra che InfinityStory è il primo sistema in grado di:

  1. Mantenere lo stesso sfondo per centinaia di inquadrature (senza che cambi colore o forma).
  2. Far entrare e uscire più personaggi contemporaneamente in modo fluido, senza che sembrino maghi o fantasmi.
  3. Creare video lunghi (anche ore) che sembrano veri film, non solo una serie di clip staccate.

In sintesi:
Se le vecchie AI erano come un bambino che disegna una scena, la cancella e ne disegna un'altra simile ma non uguale, InfinityStory è come un regista professionista con una troupe organizzata: sa tenere la scena stabile, fa muovere gli attori con eleganza e ti porta attraverso una storia lunga e coerente, proprio come un vero film d'animazione.

È un passo enorme verso il sogno di creare film interi con l'AI, dove la magia non si spegne mai e la storia non perde mai il filo.