SPATIALALIGN: Aligning Dynamic Spatial Relationships in Video Generation

Each language version is independently generated for its own context, not a direct translation.

Imagine que você pediu a um artista de cinema para criar um vídeo curto com uma instrução muito específica: "Um gato está em cima de uma cadeira e, em seguida, pula para a esquerda dela."

Se você pedir isso para a maioria dos geradores de vídeo atuais (como o Wan2.1 ou o CogVideoX), o resultado provavelmente será um desastre. O vídeo pode mostrar o gato já pousado no chão, ou pular para a direita, ou simplesmente ficar parado no meio da cadeira. É como se o artista não entendesse a lógica do movimento, apenas a beleza da imagem estática.

É aqui que entra o SPATIALALIGN, o novo método apresentado neste artigo. Vamos explicar como ele funciona usando uma analogia simples: o "Treinador de Geometria".

O Problema: O Artista que "Adivinha"

Os modelos atuais de IA são ótimos em fazer coisas bonitas, mas péssimos em entender relações espaciais dinâmicas (como algo se move em relação a outra coisa ao longo do tempo). Eles tendem a "alucinar" ou a esquecer a instrução inicial assim que o movimento começa.

A Solução: SPATIALALIGN

Os pesquisadores criaram um sistema para ensinar a IA a entender essas regras de movimento. Eles fizeram isso em três passos principais:

1. O "Medidor de Precisão" (DSR-SCORE)

Antes, para saber se um vídeo estava bom, os cientistas usavam outros modelos de IA (chamados VLMs) para "olhar" o vídeo e dizer se estava certo. O problema? Esses modelos de visão também são ruins em geometria. Eles podem dizer "sim, o gato está na esquerda" mesmo quando ele está claramente na direita.

O SPATIALALIGN inventou uma nova ferramenta chamada DSR-SCORE.

A Analogia: Imagine que, em vez de pedir para um humano julgar o vídeo, você coloca uma régua e um compasso invisíveis sobre cada quadro do vídeo.
Como funciona: O sistema localiza o gato e a cadeira em cada frame (quadro) do vídeo. Ele calcula matematicamente a distância e a posição exata. Se o gato começa à direita e termina à esquerda, o sistema dá uma nota alta. Se o gato fica parado ou vai para o lugar errado, a nota é baixa. É uma medição pura de matemática, sem "opinião" ou confusão.

2. O "Treinador de Preferência" (DPO)

Agora que temos uma régua precisa, como ensinamos a IA?

O Método Antigo (SFT): Seria como mostrar 1.000 vídeos perfeitos para a IA e dizer "copie isso". O problema é que a IA pode apenas "decorar" os vídeos sem entender a regra.
O Método Novo (DPO - Otimização Direta de Preferência): O sistema gera vários vídeos para a mesma frase. Alguns saem ruins, outros saem bons (segundo a nossa régua matemática).
- O sistema pega o Vídeo Vencedor (nota alta) e o Vídeo Perdedor (nota baixa).
- Ele diz para a IA: "Você gosta mais deste aqui (vencedor) do que daquele (perdedor)? Aprenda a fazer mais como o vencedor."
- Isso é feito sem precisar de humanos julgando tudo manualmente, usando a régua matemática como juiz.

3. O "Freio de Segurança" (Regularização de Ordem Zero)

Havia um risco: ao tentar aprender a regra do movimento, a IA poderia ficar tão obcecada em mudar a posição que o vídeo ficaria estranho, com cores saturadas ou o animal se transformando em algo irreconhecível (como um gato virando um cachorro).

A Analogia: É como um aluno que estuda tanto para passar na prova que esquece de dormir e fica doente.
A Solução: Os pesquisadores adicionaram um "freio" (regularização). Eles disseram para a IA: "Mude a posição do gato como queremos, mas não deixe o vídeo ficar feio ou estranho. Mantenha a qualidade original." Isso garante que o vídeo continue bonito e realista enquanto aprende a se mover corretamente.

O Resultado

Depois desse treinamento, a IA (especificamente o modelo Wan2.1-1.3B) aprendeu a seguir as regras de movimento.

Antes: "O gato está na cadeira, depois vai para a esquerda" -> O gato ficava parado ou ia para a direita.
Depois: O gato começa na cadeira, salta e aterrissa perfeitamente à esquerda, exatamente como pedido.

Resumo em uma frase

O SPATIALALIGN é como dar a uma IA um GPS e uma régua em vez de apenas um livro de arte, ensinando-a a calcular matematicamente onde os objetos devem estar e como se mover, garantindo que o vídeo final faça sentido lógico e não apenas seja visualmente agradável.

Isso é um grande passo para criar vídeos que não sejam apenas "bonitos", mas que sigam instruções complexas de física e espaço, algo essencial para robótica e simulações do mundo real no futuro.

Each language version is independently generated for its own context, not a direct translation.

Resumo Técnico: SPATIALALIGN

1. O Problema

Os geradores de vídeo a partir de texto (T2V - Text-to-Video) atuais, embora excelentes em qualidade estética, frequentemente falham em compreender e executar Relações Espaciais Dinâmicas (DSR - Dynamic Spatial Relationships) especificadas nos prompts.

Definição de DSR: Refere-se a instruções onde um objeto (geralmente um animal) muda sua posição relativa em relação a um objeto estático ao longo do tempo (ex: "um fox está à direita de um toco e depois caminha para a esquerda").
Limitações Atuais: Modelos de ponta (como Wan2.1, CogVideoX) tendem a ignorar essas mudanças espaciais, gerando vídeos onde o objeto permanece parado, move-se na direção errada ou falha na transição lógica.
Falha nas Métricas Existentes: Métodos de avaliação baseados em Modelos de Linguagem Visuais (VLMs) são considerados pouco confiáveis para tarefas de raciocínio espacial dinâmico, pois os VLMs atuais possuem capacidades limitadas de raciocínio espacial preciso em vídeos.

2. Metodologia

O SPATIALALIGN é um framework de autoaperfeiçoamento que utiliza Otimização Direta de Preferência (DPO) para alinhar modelos T2V pré-treinados com instruções de DSR. O processo divide-se em três componentes principais:

A. Criação de Dados e Curadoria (DSR-DATASET)

Otimiza-se um conjunto de dados controlado com pares texto-vídeo onde animais se movem em relação a objetos estáticos.
Os vídeos gerados pelo modelo de referência são filtrados para garantir validade (ex: detecção correta de um único animal e um objeto estático em pelo menos 20 quadros).

B. Métrica de Avaliação: DSR-SCORE
Em vez de usar VLMs, os autores propõem uma métrica baseada em geometria:

Rastreamento: Utiliza-se o GroundedSAM para extrair as caixas delimitadoras (bboxes) do animal e do objeto em cada quadro.
Pontuação Estática (SSR-Score): Para cada quadro, calcula-se o alinhamento com a relação espacial inicial e final (ex: "à esquerda", "no topo") usando coordenadas das bboxes. A pontuação considera a distância normalizada entre centros e a orientação vetorial (cosseno).
Pontuação Dinâmica (DSR-SCORE): Agrega a sequência de quadros para medir a transição. Um vídeo ideal deve mostrar uma diminuição no alinhamento com a relação inicial e um aumento no alinhamento com a relação final.
- A fórmula combina as médias dos quadros iniciais/finais e a magnitude da mudança (diferença entre início e fim), normalizada para um intervalo de [0, 1].

C. Treinamento com DPO e Regularização de Ordem Zero

DPO (Direct Preference Optimization): O modelo é fine-tuned usando pares de "vencedores" (vídeos com DSR-SCORE alto) e "perdedores" (vídeos com DSR-SCORE baixo) para o mesmo prompt.
Regularização de Ordem Zero ( $L_{ZO}$ ): O DPO puro pode levar a um fenômeno chamado "deslocamento de verossimilhança" (likelihood displacement), onde o modelo degrada a qualidade geral do vídeo para maximizar a margem de preferência. Para evitar isso, os autores introduzem um termo de regularização que mantém o modelo próximo do modelo de referência ( $\epsilon_{ref}$ ), evitando "hacks" de recompensa e garantindo que a qualidade visual e a identidade do objeto sejam preservadas.
Implementação: Utiliza-se LoRA (Low-Rank Adaptation) para fine-tuning eficiente em modelos como o Wan2.1-1.3B.

3. Contribuições Principais

DSR-SCORE: Uma métrica baseada em geometria, mais confiável e granular do que as abordagens baseadas em VLMs, capaz de quantificar objetivamente o alinhamento espacial dinâmico.
SPATIALALIGN: Uma estratégia de treinamento inovadora que combina DPO com regularização de ordem zero, permitindo que modelos T2V aprendam a raciocinar sobre relações espaciais dinâmicas sem a necessidade de vídeos reais rotulados manualmente.
DSR-DATASET: Um novo benchmark de avaliação controlada com prompts diversos de relações espaciais (esquerda, direita, topo) e padrões de movimento.

4. Resultados Experimentais

Os experimentos foram conduzidos em múltiplos modelos SOTA (Wan2.1, CogVideoX, OpenSora, HunyuanVideo, LTX-Video).

Desempenho Quantitativo: O modelo fine-tuned com SPATIALALIGN superou significativamente as linhas de base na métrica Correctness@0.7 (porcentagem de vídeos com DSR-SCORE $\ge$ $\geq$ 0.7).
- Exemplo: No Wan2.1-1.3B, a precisão saltou de 0.125 (baseline) para 0.585 com o método proposto.
Qualidade Visual: O método manteve a consistência de identidade (ID Consistency) e a qualidade de imagem (CLIP-IQA) comparáveis ao modelo original, demonstrando que o fine-tuning não degradou a estética.
Avaliação de VLMs: Os testes mostraram que usar VLMs (como Qwen3-VL) como recompensa para o treinamento resultou em desempenho inferior, confirmando a necessidade da métrica geométrica proposta.
Análise de Ablação:
- A regularização $L_{ZO}$ foi crucial para a estabilidade do treinamento e para evitar a saturação de cores ou perda de qualidade visual observada em tentativas com SFT puro.
- O uso de um limiar global ( $\tau_{train}$ ) para separar vencedores/derrotados foi mais eficaz do que amostragem aleatória.

5. Significado e Impacto

O trabalho SPATIALALIGN representa um avanço significativo na geração de vídeo física e espacialmente coerente.

Superando Limitações de VLMs: Demonstra que para tarefas de raciocínio espacial preciso, métricas geométricas explícitas são superiores à avaliação semântica de VLMs.
Aplicabilidade Geral: Embora focado em DSR, a metodologia oferece um "receituário" geral para alinhar geradores de vídeo com atributos físicos complexos, convertendo requisitos relacionais em sinais computáveis automáticos.
Viabilidade: A abordagem é escalável e eficiente computacionalmente, não dependendo de inferência online complexa (como PPO) nem de grandes conjuntos de dados reais rotulados.

Em suma, o SPATIALALIGN permite que modelos de IA não apenas gerem vídeos bonitos, mas que "entendam" e executem instruções de movimento e posição relativa no espaço 3D simulado, um passo crucial para aplicações em robótica e modelagem de mundos físicos.