MoMaStage: Skill-State Graph Guided Planning and Closed-Loop Execution for Long-Horizon Indoor Mobile Manipulation

Each language version is independently generated for its own context, not a direct translation.

Imagine que você está pedindo para um robô fazer uma tarefa complexa na sua casa, como: "Pegue o prato cinza da bancada da cozinha e coloque na mesa de jantar, mas antes, abra a porta do armário."

Para um robô, isso não é apenas uma frase; é uma sequência gigante de passos: andar até a cozinha, abrir o armário, pegar o prato, fechar o armário, andar até a mesa, colocar o prato. Se o robô errar em qualquer um desses passos (por exemplo, se o prato escorregar da mão dele), ele pode ficar confuso, tentar fazer algo impossível (como pegar outro prato com a mão já cheia) e falhar completamente.

O artigo MoMaStage apresenta uma nova maneira de ensinar robôs a fazerem essas tarefas longas sem se perderem. Vamos usar uma analogia simples para entender como funciona:

1. O Problema: O Robô "Alucinando"

Antes do MoMaStage, os robôs que usavam Inteligência Artificial (especificamente modelos de linguagem, como o ChatGPT) funcionavam como um turista sem mapa.

Eles entendiam o que você queria dizer.
Mas, ao tentar planejar os passos, eles "alucinavam". Podiam sugerir pegar um objeto com a mão que já estava ocupada, ou ir para um lugar onde o objeto não existia.
Se algo dava errado no meio do caminho (o robô tropeçava), eles não sabiam se recuperar e paravam de funcionar.

2. A Solução: O "Mapa de Habilidades" (MoMaStage)

Os autores criaram o MoMaStage, que funciona como um GPS inteligente com um manual de instruções rígido. Em vez de deixar o robô inventar o caminho, eles dão a ele dois ferramentas principais:

A. A Biblioteca de Habilidades (O "Kit de Ferramentas")

Imagine que o robô não pensa em "mover o braço 5cm", mas sim em "pegar", "colocar", "andar" e "abrir porta".

O MoMaStage organiza essas ações em uma Biblioteca Hierárquica.
É como ter um kit de ferramentas onde cada ferramenta tem um lugar certo. Você não usa um martelo para parafusar; você usa a chave de fenda. O robô sabe exatamente quais "ferramentas" (habilidades) ele tem e como usá-las.

B. O Gráfico de Estado-Habilidade (O "Mapa de Regras")

Esta é a parte mais genial. Imagine um tabuleiro de jogo de tabuleiro (como um jogo da velha ou xadrez), mas em vez de casas, são estados do robô.

Regra de Ouro: O robô só pode ir de um quadrado para outro se as regras permitirem.
Exemplo: Se o robô está com a mão cheia (estado "Mão Cheia"), o mapa bloqueia a seta para a ação "Pegar outro objeto". Ele só pode ir para "Colocar o objeto" ou "Andar".
Isso impede que o robô cometa erros lógicos. Ele não pode inventar uma sequência impossível. É como um guarda de trânsito que só deixa o carro passar se a luz estiver verde.

3. O Loop Fechado: O "Chefe de Obra"

Aqui entra a parte de segurança. Quando o robô começa a trabalhar:

Planejamento: O "cérebro" (a IA) olha para o mapa e cria a rota.
Execução: O robô executa os passos.
Verificação (O Pulo do Gato): Enquanto o robô trabalha, um sistema de vigilância (como um capitão de equipe) observa o que está acontecendo na vida real.
- Cenário: O robô tenta pegar o prato, mas ele escorrega e cai no chão.
- Reação: O sistema percebe: "Ei! O prato não está mais na minha mão, como planejado!"
- Ação: Em vez de continuar tentando (o que seria inútil), o sistema para, olha para o mapa novamente e pergunta: "Ok, o prato caiu. Qual é o próximo passo válido no mapa para recuperar isso?"
- O robô então muda o plano: "Vou pegar o prato do chão" em vez de "Continuar como se nada tivesse acontecido".

Por que isso é incrível?

Sem Mapa 3D Complexo: Diferente de outros robôs que precisam mapear cada centímetro da casa (o que é lento e difícil), o MoMaStage só se importa com o estado (onde estou? o que estou segurando?). É mais leve e rápido.
Resiliência: Se o robô tropeçar, ele não desiste. Ele usa o mapa para se recuperar.
Eficiência: O robô não perde tempo pensando em coisas impossíveis. Ele só pensa no que é possível fazer agora.

Resumo em uma frase

O MoMaStage é como dar a um robô um manual de regras estrito e um mapa de recuperação de erros, transformando um turista confuso em um operário experiente que sabe exatamente o que fazer quando algo dá errado, garantindo que tarefas longas e complexas sejam concluídas com sucesso.

O resultado? Robôs que não só entendem o que você pede, mas conseguem realmente fazer o trabalho, mesmo quando a vida real (e a física) tentam atrapalhar.

Each language version is independently generated for its own context, not a direct translation.

Resumo Técnico: MoMaStage

1. O Problema

A manipulação móvel indoor de longo horizonte (MoMA) exige que robôs executem sequências complexas de navegação e interação com objetos em ambientes dinâmicos (como casas e cozinhas) baseados em instruções em linguagem natural. Os desafios principais identificados são:

Erros em Cascata: Métodos baseados em aprendizado (como políticas de fim-a-fim) tendem a falhar em horizontes longos devido à propagação de erros e à falta de consistência lógica.
Hallucinações de VLMs: Modelos de Visão-Linguagem (VLMs) puros, embora bons em decomposição semântica, frequentemente geram sequências de habilidades que são semanticamente plausíveis, mas fisicamente inconsistentes (ex: tentar pegar um objeto quando a garra já está ocupada).
Limitações de Mapeamento Explícito: Abordagens baseadas em mapas simbólicos ou representações de cena explícitas impõem suposições rígidas, aumentam a sobrecarga computacional e reduzem a adaptabilidade em ambientes dinâmicos.
Falta de Recuperação: A maioria dos sistemas opera em "malha aberta" (open-loop), falhando completamente quando ocorrem desvios físicos, sem mecanismos eficientes de replanejamento.

2. Metodologia: MoMaStage

O MoMaStage é um framework estruturado de visão-linguagem que dispensa o mapeamento explícito da cena. Ele integra um VLM com uma estrutura de conhecimento topológica e um mecanismo de execução em malha fechada. O sistema é composto por três módulos principais:

A. Fundamentação de Habilidades Estruturada (Structured Skill Grounding)

Biblioteca de Habilidades Hierárquica: Divide as capacidades do robô em dois níveis:
- Habilidades de Nível de Ação: Primitivas de controle de baixo nível (ex: movimento de junta).
- Habilidades de Nível Semântico: Ações de alto nível acopladas ao contexto (ex: "pegar", "colocar", "navegar"), que possuem pré-condições e relações sequenciais explícitas.
Grafo de Estado-Habilidade (Skill-State Graph): Um grafo topológico onde os nós representam habilidades semânticas. Diferente de grafos de cena tradicionais, este grafo é enriquecido com:
- Estado de Pré-condição (C): Define o estado necessário do robô (localização, estado das garras/espaço ocupado).
- Variação de Estado (Δ): Define como a execução da habilidade altera o estado do mundo (ex: adicionar um objeto à garra, mudar a localização).
- Isso permite verificar a viabilidade de uma transição baseada no estado cumulativo do robô, não apenas na adjacência topológica.

B. Planejamento Guiado por Grafo e Verificação

Planejamento Semântico Consciente de Topologia: O VLM recebe a instrução e um subgrafo topológico (sem detalhes de estado 3D) para decompor a tarefa em uma sequência de habilidades candidata. Isso força o modelo a depender das affordances do ambiente e das capacidades do robô encapsuladas no grafo.
Verificação de Viabilidade Orientada a Estado: Após a geração, uma verificação post-hoc simula a execução da sequência no Grafo de Estado-Habilidade. O sistema aplica recursivamente as funções de variação de estado ( $\Delta$ ) para garantir que o estado atual satisfaça as pré-condições da próxima habilidade. Se houver conflito (ex: tentar pegar algo com a garra cheia), o plano é rejeitado e o VLM é solicitado a re-decompor.

C. Execução em Malha Fechada e Replanejamento

Monitoramento de Estado Ego (Propriocepção): Durante a execução, o sistema monitora dados de sensores (codificadores de junta, sensores táteis) para confirmar o sucesso físico de cada habilidade primitiva.
Verificação Semântica: O VLM verifica se o estado observado da cena corresponde à variação esperada ( $\Delta$ ).
Replanejamento Dinâmico Guiado por Grafo: Se uma falha ou desvio for detectado, o sistema não reinicia a tarefa. Em vez disso, ele usa o estado atual observado como novo ponto de partida e busca no Grafo de Estado-Habilidade um caminho de recuperação para as sub-tarefas restantes, garantindo que a recuperação seja logicamente válida e fisicamente possível.

3. Principais Contribuições

Framework Map-Free e Orientado a VLM: Um pipeline de decisão unificado que integra compreensão de instruções, geração de cadeias de habilidades e refinamento baseado em feedback, sem necessidade de mapeamento 3D explícito.
Mecanismo de Planejamento Baseado em Estado: Introdução do Skill-State Graph, que impõe viabilidade de estado cumulativo sobre as cadeias geradas por VLMs, permitindo recuperação robusta através de monitoramento leve de estado e replanejamento semântico direcionado.
Validação Experimental Robusta: Demonstração de desempenho superior em ambientes simulados complexos e no mundo real, com melhorias significativas na validade do planejamento, robustez de execução e taxas de conclusão de tarefas de longo horizonte.

4. Resultados Experimentais

Os experimentos foram realizados em simulação (benchmark mshab*) e no mundo real (plataforma robótica com 4 braços e base móvel).

Sucesso em Longo Horizonte:
- Em tarefas de 17 sub-tarefas no mundo real, o MoMaStage alcançou uma taxa de sucesso final de 60%, enquanto a sequência de "Ground Truth" (perfeita no planejamento, mas sem replanejamento) caiu para 0% devido a erros físicos não recuperáveis.
- O baseline DeCo (sem verificação de estado) falhou em 90% das tentativas iniciais devido a raciocínio inadequado.
Eficiência Computacional:
- O MoMaStage reduziu significativamente o uso de tokens e o tempo de inferência em comparação com abordagens que fornecem o grafo completo ao VLM.
- Sucesso de planejamento de 100% em simulação, comparado a 0% do baseline DeCo em certas configurações, eliminando "alucinações" lógicas.
Análise de Falhas:
- A maioria das falhas no mundo real foi atribuída a limitações físicas de baixo nível (ex: escorregamento de objetos), e não a erros de raciocínio de alto nível.
- O sistema demonstrou capacidade de recuperação autônoma: quando uma falha de execução ocorria, o módulo de replanejamento gerava ações locais de recuperação, mantendo a tarefa em andamento.

5. Significado e Impacto

O trabalho MoMaStage representa um avanço significativo na robótica de manipulação móvel ao demonstrar que:

Abstração de Estado é Crucial: A chave para o sucesso em horizontes longos não é um modelo de mundo simbólico completo e pesado, mas sim um modelo de transição de estado de habilidades leve e fundamentado no corpo do robô.
Ponte entre Semântica e Física: Ao integrar a verificação de estado físico diretamente no processo de planejamento do VLM, o sistema supera a lacuna entre o raciocínio semântico abstrato e as restrições físicas concretas.
Escalabilidade: A abordagem de "malha fechada" com replanejamento seletivo permite que robôs operem de forma robusta em ambientes dinâmicos e imprevisíveis, superando as limitações das abordagens puramente de "malha aberta" ou baseadas em mapeamento rígido.

Em suma, o MoMaStage estabelece um novo paradigma onde a consistência lógica e a adaptabilidade física são garantidas através de uma estrutura de grafos de habilidades, permitindo que robôs executem tarefas complexas e longas com alta confiabilidade.