SPATIALALIGN: Aligning Dynamic Spatial Relationships in Video Generation

O artigo apresenta o SPATIALALIGN, um framework de autoaperfeiçoamento que utiliza otimização direta de preferências (DPO) regularizada de ordem zero e uma nova métrica geométrica chamada DSR-SCORE para aprimorar a capacidade de modelos de geração de vídeo texto-para-vídeo em representar relações espaciais dinâmicas especificadas nos prompts.

Fengming Liu, Tat-Jen Cham, Chuanxia Zheng

Publicado 2026-03-02
📖 4 min de leitura☕ Leitura rápida

Each language version is independently generated for its own context, not a direct translation.

Imagine que você pediu a um artista de cinema para criar um vídeo curto com uma instrução muito específica: "Um gato está em cima de uma cadeira e, em seguida, pula para a esquerda dela."

Se você pedir isso para a maioria dos geradores de vídeo atuais (como o Wan2.1 ou o CogVideoX), o resultado provavelmente será um desastre. O vídeo pode mostrar o gato já pousado no chão, ou pular para a direita, ou simplesmente ficar parado no meio da cadeira. É como se o artista não entendesse a lógica do movimento, apenas a beleza da imagem estática.

É aqui que entra o SPATIALALIGN, o novo método apresentado neste artigo. Vamos explicar como ele funciona usando uma analogia simples: o "Treinador de Geometria".

O Problema: O Artista que "Adivinha"

Os modelos atuais de IA são ótimos em fazer coisas bonitas, mas péssimos em entender relações espaciais dinâmicas (como algo se move em relação a outra coisa ao longo do tempo). Eles tendem a "alucinar" ou a esquecer a instrução inicial assim que o movimento começa.

A Solução: SPATIALALIGN

Os pesquisadores criaram um sistema para ensinar a IA a entender essas regras de movimento. Eles fizeram isso em três passos principais:

1. O "Medidor de Precisão" (DSR-SCORE)

Antes, para saber se um vídeo estava bom, os cientistas usavam outros modelos de IA (chamados VLMs) para "olhar" o vídeo e dizer se estava certo. O problema? Esses modelos de visão também são ruins em geometria. Eles podem dizer "sim, o gato está na esquerda" mesmo quando ele está claramente na direita.

O SPATIALALIGN inventou uma nova ferramenta chamada DSR-SCORE.

  • A Analogia: Imagine que, em vez de pedir para um humano julgar o vídeo, você coloca uma régua e um compasso invisíveis sobre cada quadro do vídeo.
  • Como funciona: O sistema localiza o gato e a cadeira em cada frame (quadro) do vídeo. Ele calcula matematicamente a distância e a posição exata. Se o gato começa à direita e termina à esquerda, o sistema dá uma nota alta. Se o gato fica parado ou vai para o lugar errado, a nota é baixa. É uma medição pura de matemática, sem "opinião" ou confusão.

2. O "Treinador de Preferência" (DPO)

Agora que temos uma régua precisa, como ensinamos a IA?

  • O Método Antigo (SFT): Seria como mostrar 1.000 vídeos perfeitos para a IA e dizer "copie isso". O problema é que a IA pode apenas "decorar" os vídeos sem entender a regra.
  • O Método Novo (DPO - Otimização Direta de Preferência): O sistema gera vários vídeos para a mesma frase. Alguns saem ruins, outros saem bons (segundo a nossa régua matemática).
    • O sistema pega o Vídeo Vencedor (nota alta) e o Vídeo Perdedor (nota baixa).
    • Ele diz para a IA: "Você gosta mais deste aqui (vencedor) do que daquele (perdedor)? Aprenda a fazer mais como o vencedor."
    • Isso é feito sem precisar de humanos julgando tudo manualmente, usando a régua matemática como juiz.

3. O "Freio de Segurança" (Regularização de Ordem Zero)

Havia um risco: ao tentar aprender a regra do movimento, a IA poderia ficar tão obcecada em mudar a posição que o vídeo ficaria estranho, com cores saturadas ou o animal se transformando em algo irreconhecível (como um gato virando um cachorro).

  • A Analogia: É como um aluno que estuda tanto para passar na prova que esquece de dormir e fica doente.
  • A Solução: Os pesquisadores adicionaram um "freio" (regularização). Eles disseram para a IA: "Mude a posição do gato como queremos, mas não deixe o vídeo ficar feio ou estranho. Mantenha a qualidade original." Isso garante que o vídeo continue bonito e realista enquanto aprende a se mover corretamente.

O Resultado

Depois desse treinamento, a IA (especificamente o modelo Wan2.1-1.3B) aprendeu a seguir as regras de movimento.

  • Antes: "O gato está na cadeira, depois vai para a esquerda" -> O gato ficava parado ou ia para a direita.
  • Depois: O gato começa na cadeira, salta e aterrissa perfeitamente à esquerda, exatamente como pedido.

Resumo em uma frase

O SPATIALALIGN é como dar a uma IA um GPS e uma régua em vez de apenas um livro de arte, ensinando-a a calcular matematicamente onde os objetos devem estar e como se mover, garantindo que o vídeo final faça sentido lógico e não apenas seja visualmente agradável.

Isso é um grande passo para criar vídeos que não sejam apenas "bonitos", mas que sigam instruções complexas de física e espaço, algo essencial para robótica e simulações do mundo real no futuro.

Receba artigos como este na sua caixa de entrada

Digests diários ou semanais personalizados de acordo com seus interesses. Gists ou resumos técnicos, no seu idioma.

Experimentar Digest →