NovaPlan: Zero-Shot Long-Horizon Manipulation via Closed-Loop Video Language Planning

Each language version is independently generated for its own context, not a direct translation.

Imagine que você quer ensinar um robô a fazer algo complexo, como montar um quebra-cabeça de 3D ou organizar uma mesa bagunçada, mas você nunca mostrou como fazer isso antes. Você não tem vídeos de treinamento, não tem manuais e não tem tempo para ensinar passo a passo. O robô precisa apenas olhar para a mesa, ouvir o que você quer e "imaginar" como fazer.

É exatamente isso que o NovaPlan faz.

Aqui está uma explicação simples, usando analogias do dia a dia:

1. O Problema: O Robô que "Sonha" sem Acordar

Antes do NovaPlan, os robôs que usavam Inteligência Artificial (IA) para planejar tarefas longas tinham um grande defeito: eles eram como um sonhador.

Eles podiam imaginar um filme bonito de alguém montando algo.
Mas quando tentavam fazer na vida real, a mão do robô batia no objeto, derrubava tudo ou não entendia a física (como gravidade ou atrito).
Se algo dava errado (o objeto caía), o robô ficava travado, porque o plano era rígido e não sabia se recuperar.

2. A Solução: O NovaPlan (O Diretor de Cinema + O Engenheiro)

O NovaPlan é como um diretor de cinema experiente que também é um engenheiro prático. Ele funciona em duas etapas principais que se ajudam mutuamente:

A. O Diretor de Cinema (O "Planejador de Vídeo")

Em vez de apenas pensar em palavras, o robô usa uma IA generativa para criar um filme curto do que deveria acontecer.

A Analogia: Imagine que você pede ao robô: "Coloque o bloco azul em cima do vermelho". O robô não calcula coordenadas matemáticas frias. Ele "filma" mentalmente uma cena onde uma mão humana pega o bloco e o coloca.
O Truque: Ele gera vários filmes possíveis. Alguns podem ser estranhos (o bloco flutua, o robô atravessa a mesa). O "Diretor" (uma IA de linguagem) assiste a esses filmes e diz: "Esse aqui é bom, segue as leis da física. Aquele outro é ruim, o bloco desapareceu. Vamos usar o primeiro."

B. O Engenheiro Prático (O "Tradutor de Movimento")

Agora que temos o filme ideal, como o robô faz isso?

O Problema: O filme é feito com uma "mão humana". O robô tem uma "garra de metal". Se o robô apenas copiar o movimento da mão humana, pode falhar se a mão humana estiver escondendo o objeto (oclusão).
A Solução Mágica (Fluxo Híbrido): O NovaPlan é inteligente o suficiente para escolher o que olhar no filme:
1. Olhar para o Objeto: Se o objeto está bem visível, o robô segue o movimento do objeto no filme.
2. Olhar para a Mão: Se a mão humana no filme está cobrindo o objeto (o que é comum em filmes gerados por IA), o robô ignora o objeto e segue a mão. Ele usa a mão humana como um "guia" ou "muleta" para saber para onde ir, mesmo sem ver o objeto.
- Metáfora: É como se você estivesse dirigindo em uma neblina. Se você não vê a estrada (o objeto), você segue as luzes do carro da frente (a mão humana) até que a neblina passe.

3. O Ciclo de "Verificar e Corrigir" (O Segredo do Sucesso)

A parte mais genial do NovaPlan é que ele não é um "tiro único". É um ciclo fechado.

O Cenário: O robô executa o primeiro passo do plano.
A Checagem: Uma IA (o "Critic") compara o que aconteceu na vida real com o filme que foi gerado.
- Pergunta: "O bloco caiu? A garra escorregou?"
A Recuperação (Improviso): Se algo deu errado, o robô não desiste. Ele pede ao "Diretor": "Ei, o bloco caiu! Crie um novo filme curto de como consertar isso agora."
- Às vezes, o robô precisa fazer algo que humanos não fariam com as mãos, como empurrar o bloco com o dedo (sem pegá-lo) para ajustá-lo. O NovaPlan consegue imaginar e executar esse movimento de "empurrão" (não preensão) para salvar a situação.

Resumo da Ópera

O NovaPlan é como um aprendiz de mestre que:

Imagina o sucesso criando um filme mental.
Filtra as ideias ruins antes de tentar.
Usa a mão humana como um guia visual quando o objeto está escondido.
Verifica se deu certo e, se não deu, cria um novo plano de emergência na hora.

Isso permite que robôs façam tarefas longas e complexas (como montar peças de quebra-cabeça ou procurar objetos escondidos) sem nunca terem sido treinados especificamente para aquilo. Eles apenas "pensam" e "improvisam" como um humano faria.

Each language version is independently generated for its own context, not a direct translation.

Título: NovaPlan: Manipulação de Longo Horizonte Zero-Shot via Planejamento de Linguagem de Vídeo em Malha Fechada

1. O Problema

A robótica de manipulação enfrenta desafios significativos ao executar tarefas de longo horizonte (sequências complexas de múltiplos passos) em cenários do mundo real sem treinamento prévio específico (zero-shot).

Limitações dos Modelos Atuais: Embora os Modelos de Visão e Linguagem (VLMs) e os Modelos de Geração de Vídeo sejam capazes de raciocínio semântico e de "imaginar" resultados físicos, eles frequentemente carecem de fundamentação física (grounding) precisa para controle de baixo nível.
Falhas Comuns:
- Gap de Embodiment: Planos de vídeo gerados podem não corresponder à morfologia do robô, levando a ações inexequíveis.
- Inconsistências Temporais: Modelos de vídeo podem sofrer de alucinações ou inconsistências físicas ao longo de sequências longas.
- Fragilidade na Execução: Estratégias de planejamento rígidas (malha aberta) falham quando ocorrem oclusões, imprecisões de profundidade ou erros de execução, pois não possuem mecanismos de recuperação autônoma.
- Dependência de Dados: Muitas abordagens exigem grandes quantidades de demonstrações físicas para treinamento, o que é caro e pouco escalável.

2. Metodologia: O Framework NovaPlan

O NovaPlan é um framework hierárquico que unifica o planejamento de linguagem de vídeo em malha fechada com a execução robótica geometricamente fundamentada. O sistema opera em um ciclo contínuo de gerar, verificar e recuperar.

A. Planejamento de Alto Nível (VLM Planner)

Decomposição de Tarefas: Um VLM (ex: GPT-5.2) atua como um árbitro de alto nível, decompondo instruções complexas em sub-objetivos baseados em linguagem.
Geração de Rollouts de Vídeo: Para cada sub-objetivo, um modelo de geração de vídeo (ex: Wan 2.2, Veo 3.1) gera múltiplos vídeos candidatos simulando o resultado físico da ação.
Validação e Seleção: O VLM avalia os vídeos gerados com base em quatro métricas críticas:
1. Objetivo: O objeto correto está sendo manipulado?
2. Física: A interação segue leis físicas plausíveis (gravidade, rigidez)?
3. Movimento: O fluxo visual corresponde ao comando de linguagem?
4. Resultado: O estado final alinha-se com o sub-objetivo?
Horizonte de Planejamento Adaptativo: O sistema decide dinamicamente entre um modo "ganancioso" (h=1, reativo) ou "estratégico" (h>1, planejamento de longo prazo) dependendo da complexidade e dependências da tarefa.

B. Planejamento de Baixo Nível e Execução (Hybrid Flow Mechanism)
Para traduzir os vídeos em ações do robô, o NovaPlan extrai trajetórias cinemáticas usando dois fluxos complementares:

Fluxo de Objeto (Object Flow): Rastreia pontos-chave 3D do objeto alvo para extrair sua trajetória de 6 graus de liberdade (6-DoF).
Fluxo de Mão (Hand Flow): Rastreia a pose da mão humana (usando o modelo HaMeR) como um prior cinemático.

Mecanismo de Chaveamento (Switching): O sistema alterna dinamicamente entre o fluxo de objeto e o de mão. Se o objeto estiver ocluído ou sofrer grandes rotações (tornando o rastreamento de objeto instável), o sistema muda para o fluxo da mão, que é mais robusto a oclusões.
Calibração Geométrica: Um módulo crucial corrige inconsistências de escala e "drift" projetivo nos vídeos gerados. Ele utiliza um procedimento de calibração de dupla âncora (no início e no fim do contato) para garantir que a trajetória da mão gerada corresponda à escala métrica real do ambiente, permitindo que o robô execute ações precisas.

C. Verificação em Malha Fechada e Recuperação

Auditoria de Estado: Após cada execução, o VLM compara o estado inicial, o estado atual (real) e o estado alvo (do vídeo planejado).
Recuperação Autônoma: Se uma falha for detectada (ex: deslizamento de preensão), o sistema não reinicia a tarefa. Em vez disso, o VLM sintetiza uma ação corretiva local (replanejamento de um único passo).
Correção Não-Preensão: Para tarefas de baixa tolerância onde o objeto fica preso, o sistema pode gerar vídeos de recuperação que envolvem empurrar o objeto com o dedo (não-preensão), utilizando a calibração geométrica para garantir que o contato físico seja correto.

3. Principais Contribuições

Arquitetura de Planejamento em Malha Fechada: Integração de VLMs de verificação e geração de vídeo para permitir planejamento de longo horizonte e recuperação de erros sem demonstrações prévias.
Mecanismo de Rastreamento Híbrido: Um sistema que alterna dinamicamente entre fluxo de objeto e fluxo de mão baseado na confiabilidade da geração de vídeo e estimativa de profundidade, aumentando a estabilidade sob oclusão.
Calibração Geométrica para Execução: Um método para "fundamentar" mãos humanas geradas em trajetórias executáveis por robôs, resolvendo problemas de escala e distorção em vídeos sintéticos.
Desempenho Zero-Shot: Demonstração de capacidade de resolver tarefas complexas de montagem e recuperação de erros no Functional Manipulation Benchmark (FMB) sem treinamento específico.

4. Resultados Experimentais

O NovaPlan foi avaliado em três tarefas de longo horizonte e no benchmark FMB:

Tarefas de Longo Horizonte:
- Empilhamento de Blocos (4 camadas): O NovaPlan alcançou uma taxa de sucesso de 70% (7/10), superando modelos baseados apenas em fluxo de objeto (NovaFlow) que falharam na quarta camada devido à instabilidade do rastreamento.
- Classificação por Cor: Demonstrou precisão em alinhamentos verticais rigorosos, embora falhas ainda ocorram devido a erros de estimativa de profundidade em encaixes apertados.
- Busca por Objeto Oculto: Sucesso em 100% dos casos, demonstrando capacidade de planejamento condicional (abrir gavetas até encontrar o objeto).
Benchmark FMB (Functional Manipulation Benchmark):
- O sistema conseguiu realizar tarefas de montagem de alta precisão (milimétrica) e descobrir comportamentos complexos de contato (como empurrar com o dedo) sem treinamento prévio.
- Modelos baseados em VLA (como $\pi_0.5$ ) e VLMs puros falharam em completar até mesmo um único passo nessas tarefas complexas.
Comparação com Baselines: O NovaPlan superou consistentemente o NovaFlow (apenas fluxo de objeto), o $\pi_0.5$ (VLA) e o MOKA (VLM), especialmente em cenários onde a oclusão ou a necessidade de recuperação de erro era crítica.

5. Significância e Conclusão

O NovaPlan representa um avanço significativo na robótica de manipulação geral (general-purpose). Ao tratar a geração de vídeo não como uma trajetória estática, mas como uma consulta dinâmica dentro de um ciclo de verificação e recuperação, o sistema supera a barreira entre o raciocínio semântico de alto nível e o controle físico de baixo nível.

A capacidade de recuperar-se autonomamente de falhas (como deslizamentos ou oclusões) e de utilizar a mão humana como um prior cinemático robusto permite que robôs operem em ambientes não estruturados sem a necessidade de milhares de demonstrações físicas. Embora o sistema ainda dependa da qualidade dos modelos de geração de vídeo e estimativa de profundidade, o framework estabelece um caminho escalável para robôs que podem "imaginar" e executar tarefas complexas de montagem e interação no mundo real.

NovaPlan: Zero-Shot Long-Horizon Manipulation via Closed-Loop Video Language Planning

1. O Problema: O Robô que "Sonha" sem Acordar

2. A Solução: O NovaPlan (O Diretor de Cinema + O Engenheiro)

A. O Diretor de Cinema (O "Planejador de Vídeo")

B. O Engenheiro Prático (O "Tradutor de Movimento")

3. O Ciclo de "Verificar e Corrigir" (O Segredo do Sucesso)

Resumo da Ópera

Título: NovaPlan: Manipulação de Longo Horizonte Zero-Shot via Planejamento de Linguagem de Vídeo em Malha Fechada

1. O Problema

2. Metodologia: O Framework NovaPlan

3. Principais Contribuições

4. Resultados Experimentais

5. Significância e Conclusão

Mais como este

IC3-Evolve: Proof-/Witness-Gated Offline LLM-Driven Heuristic Evolution for IC3 Hardware Model Checking

Structural Segmentation of the Minimum Set Cover Problem: Exploiting Universe Decomposability for Metaheuristic Optimization

To Throw a Stone with Six Birds: On Agents and Agenthood

Position: Science of AI Evaluation Requires Item-level Benchmark Data

Toward Full Autonomous Laboratory Instrumentation Control with Large Language Models