Resumo Técnico: µ0: Um Modelo de Mundo de Interação-Traço 3D Escalável
1. Declaração do Problema
O aprendizado robótico enfrenta um "paradoxo de dados" fundamental: embora os vídeos forneçam uma fonte escalável e abundante de dados de comportamento físico, a supervisão mais eficaz para controle — dados de robôs rotulados com ações — é escassa, cara, específica de hardware e incompatível entre diferentes implementações (embodiments) de robôs.
Abordagens existentes de modelos de mundo lutam para superar esse hiato:
- Modelos de vídeo em espaço de pixels: Embora escaláveis, eles gastam a capacidade do modelo na reconstrução densa de aparência e fundo, frequentemente falhando em capturar a geometria métrica, a estrutura de contato e os padrões de oclusão necessários para a manipulação.
- Modelos de ação direta (ex: modelos de Visão-Linguagem-Ação): Estes permanecem limitados pela escassez e especificidade de implementação das demonstrações rotuladas.
- Métodos centrados em movimento existentes: Modelos anteriores de fluxo 3D ou trajetória frequentemente subamostram regiões críticas pequenas (como pontas de ferramentas), confundem o movimento de objetos com o movimento da câmera ao operar em coordenadas locais/2D, ou pareiam demonstrações longas com legendas grosseiras de nível de episódio em vez de intenção ao nível de evento.
O artigo postula que uma solução escalável requer uma representação que descreva o que deve se mover (pontos de interação) independentemente de como um robô específico o move, preservando a estrutura 3D global e alinhando o movimento com a linguagem.
2. Metodologia
A solução proposta, µ0, é um modelo de mundo de espaço de traço 3D condicionado por consulta. Ele não prevê pixels densos ou ações específicas do robô diretamente. Em vez disso, ele prevê trajetórias 3D suaves para pontos de interação selecionados semanticamente (objetos, ferramentas, mãos, regiões de contato). O sistema consiste em dois componentes primários: TraceExtract (o motor de dados) e µ0 (o modelo de mundo).
2.1 TraceExtract: Um Pipeline de Dados Escalável
O TraceExtract converte vídeos heterogêneos de humanos e robôs em supervisão de traço 3D com legendas de eventos. Ele aborda as limitações dos métodos anteriores de grade fixa através de três estágios:
- Amostragem de Pontos-Chave Semânticos: Em vez de grades uniformes, utiliza características DINOv2 para agrupar patches em grupos de nível de entidade. Ele aloca um orçamento fixo de pontos-chave por entidade, selecionando pontos espacialmente diversos em quadros de alta visibilidade. Um filtro de movimento remove rastros estáticos ou dominados pelo fundo para focar em sinais de interação.
- Construção de Traço 3D: Para manter a consistência 3D global em vídeos longos com movimento de câmera, o sistema emprega reconstrução global-local. Ele utiliza quadros âncora esparsos para estabelecer um referencial de coordenadas globais compartilhado, reconstrói blocos locais densos e os alinha de volta ao referencial global. Os rastros são propagados através de fronteiras de blocos usando a última posição válida no espaço do mundo. Os rastros resultantes são reprojetados em uma câmera de referência por bloco para remover o movimento da câmera enquanto retêm o alinhamento da imagem.
- Legendagem Centrada em Eventos: Demonstrações longas são segmentadas em eventos centrados no movimento baseados na aceleração do traço. Picos proeminentes de aceleração definem âncoras de ação, e vales definem fronteiras de blocos. Um Modelo de Linguagem-Visão (VLM) gera legendas para esses blocos (início, meio, fim), que são então fundidas por um LLM apenas de texto para criar resumos de tarefas finos e grosseiros.
2.2 O Modelo de Mundo µ0
O µ0 é uma arquitetura modular projetada para prever futuros traços 3D dada uma observação, instrução de linguagem e histórico opcional de pontos-chave.
- Backbone de Condicionamento Multimodal: Utiliza um SmolVLM2-2.2B pré-treinado para codificar observações RGB e instruções de linguagem. A profundidade (opcional) é roteada através de um stem de patch treinável separado antes de compartilhar camadas SigLIP mais profundas com tokens RGB para explorar pistas geométricas sem interromper as estatísticas pré-treinadas.
- Especialista de Traço Permutação-Equivariante: Este componente trata cada ponto-chave como uma consulta intercambiável. Ele representa o movimento futuro como pontos de controle de B-spline cúbica em vez de pontos de passagem (waypoints) densos, garantindo compacidade e suavidade. Cada token de consulta é fundamentado por características DINO locais, embeddings de Fourier para localização de pixel e embeddings de segmento para histórico vs. futuro.
- Correspondência de Fluxo Semântico (Semantic Flow Matching): O modelo é treinado como um modelo de fluxo condicional sobre pontos de controle de B-spline. Ele aprende a reduzir o ruído de pontos de controle ruidosos para traços futuros limpos. O objetivo inclui:
- Perda de fluxo (Flow loss): Correspondência do campo de velocidade dos pontos de controle.
- Previsão de validade: Identificar quando uma trajetória deve terminar (ex: devido a oclusão).
- Rigidez semântica: Incentivar pontos-chave dentro do mesmo cluster DINO a preservar a geometria local.
- Especialista de Ação Condicionado por Traço: Para controle de robô downstream, o µ0 pré-treinado (backbone VLM + Especialista de Traço) é congelado. Um Especialista de Ação é treinado sobre as características de redução de ruído de traço do µ0. A política lê as características de um único passo de redução de ruído parcial, injeta-as nas características do VLM via atenção cruzada (cross-attention) com portão (gated) e prevê blocos de ações contínuas condicionadas à propriocepção e imagens do gripper.
3. Principais Contribuições
- TraceExtract: Um motor de dados escalável que extrai supervisão de traço 3D com legendas de eventos de vídeos heterogêneos através de seleção de pontos-chave semânticos, elevação 3D globalmente alinhada e legendagem de linguagem hierárquica. Ele escala a curadoria de traços em aproximadamente 8× sobre conjuntos de dados de traço 3D anteriores.
- µ0: Um modelo de mundo de espaço de traço 3D condicionado por consulta, apresentando um backbone VLM, um Especialista de Traço permutação-equivariante, alvos de traço B-spline e treinamento de correspondência de fluxo semântico.
- Adaptação de Ação Condicionada por Traço: Um framework onde o µ0 congelado serve como um prior de movimento reutilizável. Isso permite que o pré-treinamento de vídeo sem ação se transfira efetivamente para políticas de robôs, exigindo supervisão de ação apenas para a interface do robô alvo.
4. Resultados Experimentais
4.1 Desempenho de Previsão de Traço
O µ0 foi avaliado em tarefas de previsão de traço 2D e 3D contra baselines incluindo VLMs tokenizados (ex: Gemini, GPT), modelos de fluxo 2D e modelos de traço 3D (ex: TraceGen, Dream2Flow).
- Precisão: O µ0 alcançou o melhor Top-5 Average Displacement Error (ADE), Final Displacement Error (FDE) e Dynamic Time Warping (DTW) em todos os horizontos de tempo em configurações 2D e 3D.
- Eficiência: O µ0 demonstrou uma latência de previsão de 0,29s, sendo 2,9× mais rápido que o próximo baseline 2D mais rápido (Track2Act com 0,85s) e significativamente mais rápido que APIs de VLMs grandes.
- Qualitativo: O µ0 produziu traços coerentes e direcionados a objetivos, evitando o ruído e o desalinhamento observados em métodos anteriores.
4.2 Controle de Robô Downstream
Os autores avaliaram o µ0 congelado pareado com um especialista de ação em simulação (RoboCasa365) e cenários do mundo real (robô UR3).
- Simulação (RoboCasa365): Em 8 tarefas de manipulação, o µ0 + especialista de ação alcançou uma taxa média de sucesso de 30,25%. Isso superou o VLA π0 (25,25%) rotulado com ação, apesar de o µ0 não usar nenhuma supervisão de ação durante o pré-treinamento. Também superou significativamente o baseline anterior de apenas vídeo, TraceGen (23%).
- Mundo Real (UR3): Em três tarefas (Pegar e Colocar, Verter, Dobrar Toalha), o µ0 + especialista de ação alcançou uma taxa média de sucesso de 91,7%. Isso superou:
- VLM + especialista de ação (sem características de traço) em 18,4 pontos percentuais.
- VLAs rotulados com ação π0 e π0.5 em 20,0 e 11,7 pontos percentuais, respectivamente.
- TraceGen + especialista de ação em 10,0 pontos percentuais.
- Escalabilidade: O desempenho melhorou com modelos maiores e mais dados de pré-treinamento. A análise de escalabilidade indicou que a representação de traço fornece uma estrutura de movimento crucial que capacidades de política limitadas não conseguem recuperar sozinhas.
5. Significância e Alegações
O artigo afirma que traços de interação 3D servem como uma representação escalável e transferível para manipulação cross-embodiment. Ao desacoplar a previsão do que se move (o traço) do como ele se move (a ação), o µ0 estabelece um caminho para o aprendizado robótico que aproveita abundantes dados de vídeo sem depender de rótulos de ação caros e específicos de cada implementação.
Os autores enfatem que o µ0 atua como um "prior de movimento reutilizável". Uma vez pré-treinado em vídeo, o modelo pode ser congelado e pareado com diferentes especialistas de ação para várias implementações de robôs. Os resultados sugerem que esta abordagem pode alcançar um desempenho competitivo com, ou superior a, modelos de última geração pré-treinados em grandes conjuntos de dados rotulados com ação, mantendo a escalabilidade do pré-treinamento de apenas vídeo.
Limitações observadas pelos autores:
- O µ0 herda erros da pilha de percepção (agrupamento, reconstrução 3D, rastreamento, legendagem).
- A representação captura geometria e movimento, mas não modela explicitamente forças, feedback tátil ou modos de contato.
- As avaliações atuais são limitadas à manipulação de mesa com implementações específicas; a validação mais ampla em manipuladores móveis e mãos dexterous é um trabalho futuro.