SPIRAL: A Closed-Loop Framework for Self-Improving Action World Models via Reflective Planning Agents

Each language version is independently generated for its own context, not a direct translation.

Imagine que você pediu para um robô cozinheiro fazer um bolo complexo.

O jeito antigo (Modelos de Vídeo Atuais):
Você diz: "Faça um bolo de chocolate". O robô pega a batedeira, começa a misturar, mas de repente, no meio do caminho, ele esquece que precisa colocar o leite, ou pior, ele tenta colocar o bolo no forno antes de assar, e o bolo vira uma massa crua. Ele faz tudo de uma vez só, sem pensar, e se errar, o vídeo termina com um desastre. É como tentar dirigir um carro olhando apenas para o para-brisa, sem olhar pelos retrovisores ou planejar as curvas.

O jeito novo (SPIRAL):
Agora, imagine que esse robô tem um Chefe de Cozinha (PlanAgent) e um Sommelier de Sabores (CriticAgent) trabalhando juntos.

Aqui está como o SPIRAL funciona, explicado de forma simples:

1. O Plano (O "Chef" pensa antes de agir)

Em vez de apenas começar a mexer a massa, o robô primeiro para e pensa: "Ok, para fazer esse bolo, preciso de 3 passos: 1. Bater os ovos, 2. Adicionar a farinha, 3. Assar".

Na vida real: É como quando você monta um móvel da IKEA. Você não começa a parafusar aleatoriamente; você lê o manual e planeja a ordem das peças. O SPIRAL faz isso com vídeos: ele quebra uma ação grande (como "jogar basquete") em pequenos passos lógicos ("correr", "driblar", "arremessar").

2. A Ação (O "Cozinheiro" executa)

O robô executa o primeiro passo: bater os ovos. Ele gera um pequeno trecho de vídeo mostrando isso.

3. A Crítica (O "Sommelier" prova e corrige)

Aqui está a mágica. Assim que o vídeo do passo 1 é feito, o Sommelier (CriticAgent) olha para ele e diz: "Ei, você não bateu os ovos direito, eles ainda estão com casca!" ou "Você esqueceu de colocar a mão na batedeira, isso é fisicamente impossível!".

O ciclo de correção: Se o robô errou, ele não joga o vídeo fora. Ele recebe o feedback, entende o erro e refaz aquele trecho específico até ficar perfeito. Só então ele avança para o próximo passo.

4. A Memória (Não esquecer o que já foi feito)

Como o vídeo pode ser longo (como um filme inteiro), o robô tem uma Memória de Trabalho. Ele guarda o que já aconteceu (ex: "já coloquei a farinha") para garantir que, quando for assar o bolo, ele não tente colocar a farinha de novo ou esqueça de tirar a forma do forno. Isso evita que o vídeo fique estranho ou que o personagem "desapareça" no meio do caminho.

5. O Treinamento Contínuo (Aprendendo com os erros)

O SPIRAL não para por aí. Ele usa uma técnica chamada GRPO (que é como um treino de atleta).

Imagine que o robô tenta fazer o mesmo movimento 10 vezes. O "Sommelier" dá notas para cada tentativa. O robô então aprende: "Ok, a tentativa número 7 foi a melhor, vou tentar fazer mais parecida com ela na próxima vez". Com o tempo, ele evolui e começa a fazer vídeos perfeitos sem precisar de tanta ajuda externa.

Por que isso é importante?

Os vídeos de IA atuais são como atirar flechas no escuro: você pede algo, eles tentam, e muitas vezes o resultado é estranho (o personagem pula sem motivo, ou o objeto some).

O SPIRAL transforma isso em um jogo de xadrez:

Planeja a jogada.
Executa a jogada.
Analisa se a jogada foi boa.
Corrige se necessário.
Aprende para a próxima partida.

Resumo da Ópera:
O SPIRAL é um sistema que ensina a Inteligência Artificial a não apenas "fazer vídeos", mas a pensar, agir e refletir sobre o que está criando. Isso permite que ela crie vídeos longos, complexos e realistas (como um jogo de futebol inteiro ou uma receita de culinária completa) sem ficar confusa, sem cometer erros físicos impossíveis e sem esquecer o que aconteceu no início do vídeo.

É como trocar um robô que tropeça em tudo por um ator profissional que ensaia, recebe direção do diretor e melhora a cada tomada até o filme ficar perfeito.

Each language version is independently generated for its own context, not a direct translation.

Título: SPIRAL: Um Framework de Loop Fechado para Modelos de Mundo de Ação Auto-aperfeiçoáveis via Agentes de Planejamento Reflexivo

1. Problema e Motivação

Os modelos atuais de geração de vídeo (Text-to-Video ou Image-to-Video) operam predominantemente em um regime aberto (open-loop) e de geração única (one-shot). Embora capazes de criar cenas visualmente plausíveis, eles falham em cenários de horizonte longo e controle semântico de ações, apresentando três desafios principais:

Execução Incompleta de Ações: Modelos tendem a terminar a geração prematuramente, não completando sequências de ações complexas solicitadas.
Alucinação de Ação e Grounding Semântico Fraco: Sem um planejamento explícito, os vídeos gerados podem contradizer as instruções (ex: pular obstáculos que não existem) ou falhar em interagir com objetos específicos.
Incoerência Temporal de Longo Prazo: A falta de representação de estado e memória causa "deriva" (drift) de objetos e cenas ao longo do tempo.
Acúmulo de Erros em Loop Aberto: Erros iniciais não são corrigidos, acumulando-se e degradando a qualidade do vídeo final.

O objetivo é criar um Modelo de Mundo de Ação (ActWM) que permita a simulação de evolução de estados do mundo baseada em descrições de linguagem de alto nível (ações semânticas), garantindo consistência física e temporal.

2. Metodologia: O Framework SPIRAL

O SPIRAL propõe uma mudança de paradigma de "geração única" para um processo de Loop Fechado: Pensar-Agir-Refletir (Think-Act-Reflect). O sistema é composto por quatro componentes principais que operam iterativamente:

A. PlanAgent (Agente de Planejamento)

Função: Atua como a política de alto nível. Recebe um objetivo global e o contexto visual atual.
Mecanismo: Utiliza raciocínio Chain-of-Thought (CoT) para decompor o objetivo abstrato em uma sequência estruturada de sub-ações atômicas e executáveis.
Saída: Gera planos na forma de tuplas $(a_t, c^{pre}_t, c^{post}_t)$ , onde $a_t$ é a instrução de ação, e $c^{pre}/c^{post}$ são as condições físicas pré e pós-requisitas. Isso força o modelo a raciocinar sobre dependências causais e viabilidade física antes de gerar o vídeo.

B. World Model (Modelo de Mundo)

Função: Atua como a política de execução.
Mecanismo: Um modelo de difusão de vídeo (T2V ou I2V) que gera segmentos de vídeo condicionados à instrução de ação atual ( $a_t$ ) e ao contexto histórico armazenado na Memória do Mundo.
Estratégia: Utiliza um treinamento de "Long-Tuning" em streaming para adaptar geradores genéricos a seguir instruções passo a passo em horizontes longos.

C. CriticAgent (Agente Crítico)

Função: Atua como o avaliador e verificador em loop fechado.
Mecanismo: Avalia cada segmento de vídeo gerado ( $v_t$ ) em relação ao plano ( $s_t$ ) em cinco dimensões: adesão à ação, interação com objetos, realização do objetivo, coerência temporal e realismo físico.
Feedback: Produz uma recompensa escalar ( $r_t$ $r_{t}$ ) e feedback textual.
- Loop Interno (Refinamento Local): Se a recompensa for baixa, o feedback é usado para refinar a instrução e regenerar o segmento imediatamente.
- Loop Externo (Replanejamento Global): Se falhas persistirem, o plano inteiro é reavaliado e reescrito pelo PlanAgent.

D. Evolução Progressiva via GRPO (Reinforcement Learning)

Objetivo: Internalizar o conhecimento de correção no próprio modelo gerador, em vez de depender apenas de feedback em tempo de inferência.
Método: Utiliza Group Relative Policy Optimization (GRPO). O World Model gera um grupo de trajetórias estocásticas para um mesmo plano. O CriticAgent avalia todas, e o modelo é atualizado para maximizar a vantagem relativa (diferença entre recompensas do grupo).
Curriculum Learning: A complexidade dos planos aumenta progressivamente, permitindo que o modelo evolua de ações atômicas para tarefas procedurais complexas.

3. Contribuições Chave

Framework SPIRAL: Uma arquitetura agêntica de loop fechado que integra planejamento reflexivo, geração condicional e verificação crítica, superando as limitações de modelos one-shot.
ActWM-Dataset: Um novo conjunto de dados em grande escala contendo 24.616 tarefas procedurais e 118.156 anotações em nível de etapa. Os dados foram construídos reanotando vídeos existentes (Ego4D, EPIC-KITCHENS, etc.) com planos estruturados, CoT e tuplas de ação-estado.
ActWM-Bench: Um benchmark abrangente para avaliar a ancoragem de ações de longo prazo e a consistência temporal, com métricas específicas para qualidade de ação (completude, suavidade, interação, fidelidade física).
Treinamento Híbrido (SFT + RL): Demonstração de que a combinação de Ajuste Fino Supervisionado (SFT) com Otimização de Política via RL (GRPO) leva a melhorias consistentes e generalizáveis em diversos backbones de geração de vídeo.

4. Resultados Experimentais

Desempenho do PlanAgent: No benchmark EgoPlan-Bench, o PlanAgent com memória e treinamento completo alcançou 58,72% de precisão, superando modelos base como GPT-5.1 e Video-LLaMA. A adição de memória foi crucial para manter a performance em tarefas longas (>5 passos).
Desempenho do CriticAgent: No VideoGen-RewardBench, o CriticAgent alcançou alta precisão na avaliação de alinhamento texto-ação, superando modelos anteriores como VisionReward em métricas de coerência textual.
Geração de Vídeo (ActWM-Bench):
- A integração do SPIRAL em modelos base (Wan2.1, Sora, Kling, etc.) resultou em ganhos consistentes em Completude de Ação e Fidelidade Física.
- Em tarefas difíceis (vídeos >40s, >5 passos), os modelos base degradam-se significativamente, enquanto o SPIRAL mantém estabilidade.
- Ablação: O uso de GRPO (após SFT e Loop Fechado) trouxe melhorias adicionais, demonstrando que o modelo internalizou a lógica de geração de alta qualidade, reduzindo a necessidade de correções externas durante a inferência.
Qualidade Visual: O framework melhorou a consistência de sujeitos e fundos, além da suavidade do movimento, eliminando colapsos estruturais e alucinações físicas comuns em geradores one-shot.

5. Significado e Impacto

O trabalho SPIRAL representa um avanço significativo na direção de Modelos de Mundo (World Models) verdadeiramente interativos e controláveis.

Para a Pesquisa em IA: Estabelece um novo padrão para geração de vídeo de longo prazo, mostrando que a decomposição de tarefas e a verificação crítica são essenciais para a coerência semântica.
Para Aplicações Práticas: O framework é fundamental para áreas que exigem precisão procedural, como Robótica (simulação de manipulação), Treinamento de Agentes Embutidos (Embodied AI) e Criação de Conteúdo Interativo.
Método de Otimização: A aplicação de GRPO em modelos de geração de vídeo baseada em feedback de agentes críticos abre caminho para o auto-aperfeiçoamento contínuo de modelos generativos sem a necessidade de grandes quantidades de dados rotulados manualmente para cada etapa.

Em resumo, o SPIRAL transforma a geração de vídeo de um processo passivo de "previsão de pixels" para um processo ativo de planejamento e execução de ações, garantindo que o conteúdo gerado seja não apenas visualmente realista, mas também logicamente consistente e fisicamente viável ao longo do tempo.