InfinityStory: Unlimited Video Generation with World Consistency and Character-Aware Shot Transitions

O artigo apresenta o InfinityStory, um novo framework, conjunto de dados e modelo que superam as limitações atuais na geração de vídeos narrativos longos, garantindo consistência visual de fundo, transições suaves entre planos com múltiplos sujeitos e escalabilidade para histórias de longa duração.

Mohamed Elmoghany, Liangbing Zhao, Xiaoqian Shen, Subhojyoti Mukherjee, Yang Zhou, Gang Wu, Viet Dac Lai, Seunghyun Yoon, Ryan Rossi, Abdullah Rashwan, Puneet Mathur, Varun Manjunatha, Daksh Dangi, Chien Nguyen, Nedim Lipka, Trung Bui, Krishna Kumar Singh, Ruiyi Zhang, Xiaolei Huang, Jaemin Cho, Yu Wang, Namyong Park, Zhengzhong Tu, Hongjie Chen, Hoda Eldardiry, Nesreen Ahmed, Thien Nguyen, Dinesh Manocha, Mohamed Elhoseiny, Franck Dernoncourt

Publicado 2026-03-05
📖 4 min de leitura☕ Leitura rápida

Each language version is independently generated for its own context, not a direct translation.

Imagine que você quer contar uma história longa, como um filme de uma hora, mas em vez de contratar uma equipe inteira de cineastas, você pede para uma Inteligência Artificial fazer tudo sozinha.

O problema é que, até agora, quando a IA tentava fazer isso, o resultado era como um filme mal editado: o cenário mudava de um corte para o outro (uma sala de estar virava uma floresta do nada), e os personagens apareciam e desapareciam magicamente, como se tivessem teletransporte.

O artigo "InfinityStory" apresenta uma nova solução para esse caos. Vamos explicar como funciona usando analogias do dia a dia:

1. O Grande Problema: O "Efeito Borboleta" Visual

Em filmes normais, se você está em uma cena na cozinha, a cozinha deve parecer a mesma em todos os cortes. Na IA antiga, cada vez que a câmera cortava para um ângulo diferente, a IA "reinventava" a cozinha. As cores mudavam, os móveis sumiam ou apareciam novos. Além disso, se um personagem entrava na sala, ele aparecia do nada, sem caminhar até lá.

2. A Solução: O "Maestro" e o "Cenário Fixo"

A equipe criou um sistema chamado InfinityStory. Pense nele como um diretor de cinema muito organizado que usa três truques principais:

A. O "Cenário de Papelão" (Consistência do Fundo)

Imagine que você vai filmar uma peça de teatro. Antes de começar, você constrói um cenário fixo e permanente no palco.

  • Como a IA faz: Em vez de pedir para a IA desenhar a sala de novo a cada 5 segundos, o InfinityStory cria um "mapa" fixo dos lugares onde a história acontece (ex: "Castelo", "Floresta", "Escritório").
  • O Truque: Para cada cena, a IA "cola" os personagens nesse cenário fixo. É como se você tivesse uma foto de fundo que nunca muda, e apenas os atores se movem sobre ela. Isso garante que a sala de estar seja sempre a mesma, não importa quantos cortes o filme tenha.

B. O "Maestro" de Agentes (Planejamento)

Antes de gerar qualquer vídeo, o sistema usa uma equipe de "agentes" (pequenos robôs inteligentes) que funcionam como uma equipe de roteiristas:

  • O Roteirista: Divide a história em capítulos.
  • O Diretor de Arte: Escolhe qual cenário será usado em cada capítulo e garante que não se repita demais.
  • O Diretor de Cena: Decide exatamente o que cada personagem faz, onde fica e como se move.
  • O Resultado: Nada é deixado ao acaso. Tudo é planejado antes de a câmera começar a gravar.

C. A "Ponte Mágica" (Transições Suaves)

Este é o grande diferencial do trabalho. Em filmes antigos de IA, se um personagem saía de uma cena e entrava na outra, ele desaparecia e reaparecia.

  • A Analogia: Imagine um mágico que faz um coelho sumir e aparecer em outra caixa. É confuso. O InfinityStory quer que o coelho caminhe da caixa A para a caixa B.
  • Como funciona: Eles criaram um banco de dados gigante com 10.000 exemplos de pessoas entrando, saindo ou trocando de lugar em cenas. Eles treinaram a IA especificamente para aprender a fazer essas "pontes".
  • O Resultado: Quando a câmera corta, você vê o personagem caminhando suavemente para fora da tela ou entrando nela, em vez de um "pulo" brusco. É como se o filme tivesse uma transição cinematográfica real, e não apenas uma colagem de clipes.

3. O Resultado Final

O sistema foi testado e funcionou como um sonho para quem gosta de histórias visuais:

  • O Cenário é Estável: A sala de jantar não vira um parque de diversões no meio da cena.
  • Os Personagens são Reais: Eles não somem e não aparecem do nada; eles se movem com lógica.
  • O Filme é Longo: O sistema consegue gerar histórias que duram horas, mantendo a qualidade do início ao fim.

Resumo em uma frase

O InfinityStory é como ter um diretor de cinema que nunca esquece onde deixou os móveis da sala e ensina os atores a caminharem de um lado para o outro sem usar teletransporte, criando filmes longos e contínuos que parecem feitos por humanos, e não por robôs confusos.

É um passo gigante para transformar a ideia de "contar histórias com IA" em algo que realmente parece um filme de Hollywood, mas gerado automaticamente.