SCDP: Learning Humanoid Locomotion from Partial Observations via Mixed-Observation Distillation

Each language version is independently generated for its own context, not a direct translation.

Imagine que você está tentando ensinar um robô humanoide (como o G1 da Unitree) a andar, correr e fazer acrobacias. O grande problema é que, no mundo real, esses robôs não têm "olhos mágicos" ou um GPS interno perfeito. Eles só têm sensores nas próprias pernas e no corpo (como um sistema vestibular humano que sente movimento e gravidade), mas não sabem exatamente onde estão no mundo ou qual é a sua velocidade exata.

A maioria dos robôs hoje em dia depende de um "tutor" que sabe tudo: posição global, velocidade, ângulos exatos. Se você tirar esse tutor, o robô cai. É como tentar dirigir um carro de olhos vendados, confiando apenas no barulho do motor, sem saber a velocidade no velocímetro.

Os autores deste paper, da University College London, criaram uma solução genial chamada SCDP. Vamos entender como funciona com algumas analogias do dia a dia:

1. O Problema: O Aluno que só vê o que tem na mesa

Antes, os robôs eram treinados como se tivessem superpoderes (sabiam tudo sobre o mundo). Quando chegava a hora de usá-los na vida real, sem esses superpoderes, eles ficavam confusos e caíam. Era como treinar um jogador de futebol olhando para o campo inteiro, mas no jogo real ele só podia olhar para os próprios pés.

2. A Solução: A Técnica do "Treinador Cego" (Distilação de Observação Mista)

A ideia principal do SCDP é separar o que o robô sente do que ele aprende.

A Analogia do Maestro e o Músico: Imagine um maestro (o modelo de IA) tentando aprender uma sinfonia complexa.
- No treinamento: O maestro ouve apenas os instrumentos próximos a ele (os sensores do robô), mas o maestro tem uma partitura secreta na frente dele que mostra a música completa (o estado privilegiado, com velocidade e posição exatas).
- O Truque: O maestro é obrigado a tocar a música perfeita (prever o futuro) ouvindo apenas os sons próximos, mas usando a partitura secreta apenas para corrigir o que ele tocou.
- O Resultado: Com o tempo, o maestro aprende a "adivinhar" a música completa e a posição dos outros instrumentos apenas pelo som dos instrumentos próximos. Ele internaliza a lógica da música.

Na prática, o robô é treinado olhando apenas para seus próprios sensores (como a gravidade nas pernas e a rotação das juntas), mas é corrigido por dados perfeitos de simulação. Isso força o cérebro do robô a criar um "mapa mental" interno de como o corpo se move, sem precisar de um GPS externo.

3. O "Filtro de Velocidade" (Denoising Restrito)

Um dos maiores desafios é: "Como o robô sabe a velocidade se o sensor de velocidade é ruim?"
Os autores criaram uma regra estranha no treinamento:

Eles escondem a informação da velocidade dos dados que o robô recebe para "adivinhar" (o que entra no modelo).
Mas eles mantêm a velocidade no alvo que o robô precisa atingir (o que o robô deve prever).

A Analogia: É como um professor de natação que diz ao aluno: "Não olhe para o cronômetro nem para a água (sem feedback de velocidade), mas tente chegar à borda na hora exata que eu digo". O aluno é forçado a sentir a correnteza e o ritmo do próprio corpo para adivinhar a velocidade. Isso faz com que o robô aprenda a estimar a velocidade por "intuição" (inferência implícita) baseada no histórico de movimentos, e não em um sensor falho.

4. O Cérebro que Lembra do Passado (Atenção Contextual)

Para não se perder, o robô precisa lembrar do que aconteceu nos últimos segundos. O SCDP usa uma técnica de "máscara de atenção" que permite ao robô olhar para trás e para frente dentro de uma janela de tempo curta, conectando o passado ao futuro.

Analogia: É como andar em um corredor escuro. Você não vê o fim, mas se você lembra de como foi o passo há 3 segundos e sente o chão agora, você consegue prever onde estará daqui a 2 segundos. O robô faz isso em milissegundos.

5. O Resultado na Vida Real

O teste foi feito em um robô real (Unitree G1) rodando a 50 vezes por segundo (50 Hz).

Sem câmeras externas: O robô não usou câmeras de captura de movimento (que são caras e só funcionam em laboratório).
Sem GPS: Ele não sabia onde estava no mundo.
Sucesso: Ele conseguiu andar, seguir comandos de velocidade e até imitar movimentos complexos (como dançar) com uma taxa de sucesso de quase 100% em simulação e 93% em tarefas complexas.

Resumo da Ópera

O papel apresenta um método para ensinar robôs a andar como humanos: confiando apenas no que sentem no corpo, e não em dados externos perfeitos.

Eles ensinaram o robô a "adivinhar" o invisível (velocidade e posição) através da prática intensiva, onde ele aprendeu a correlacionar o que sente (sensores) com o que deveria acontecer (movimento perfeito). É como transformar um robô que dependia de um "GPS de luxo" em um atleta que tem um "instinto de sobrevivência" apurado, capaz de andar em qualquer lugar, mesmo no escuro.

Each language version is independently generated for its own context, not a direct translation.

Título: SCDP: Aprendizado de Locomoção Humanoide a partir de Observações Parciais via Destilação de Observações Mistas

1. O Problema

O controle de robôs humanoide avançou significativamente, passando de controladores específicos para tarefas até métodos de rastreamento de referência de movimento. No entanto, a maioria dos métodos baseados em difusão (diffusion models) para controle de humanoide depende fundamentalmente de informações de estado privilegiadas (privileged state information) durante a implantação. Essas informações incluem posição global, orientação, velocidade da base e posições de corpos rígidos, que geralmente não estão disponíveis em robôs reais sem sistemas de captura de movimento externos ou estimativas de estado complexas e pouco confiáveis.

A remoção dessas entradas privilegiadas degrada drasticamente o desempenho, levando a falhas catastróficas mesmo em tarefas simples. O desafio central é aprender uma política de controle que funcione apenas com sensores a bordo (proprioceptivos), transformando o problema em um Processo de Decisão de Markov Parcialmente Observável (POMDP), onde a política deve inferir estados globais ocultos a partir de observações incompletas.

2. Metodologia: SCDP

Os autores propõem o SCDP (Sensor-Conditioned Diffusion Policies), um framework de destilação baseado em difusão que permite o controle de locomoção humanoide usando apenas medições proprioceptivas, eliminando a necessidade de estimativa de estado explícita.

A abordagem consiste em quatro componentes principais:

Política de Rastreamento Multi-Movimento (MMP): Um especialista treinado por Aprendizado por Reforço (RL) que serve como demonstrador. Ele utiliza um observador completo (estados privilegiados) para gerar trajetórias de referência.
Destilação de Observações Mistas (Mixed-Observation Distillation): Esta é a inovação central. Durante o treinamento, o modelo de difusão é condicionado apenas no histórico de observações dos sensores a bordo ( $O_t$ $O_{t}$ ), mas é supervisionado para prever trajetórias futuras que incluem estados privilegiados completos ( $S_t$ $S_{t}$ ).
- Essa assimetria força o modelo a aprender uma representação interna implícita da dinâmica global do corpo, inferindo estados ocultos (como velocidade e posição global) a partir de dados sensoriais parciais.
Denoising Restrito (Restricted Denoising): Para evitar que o modelo use "atalhos" durante o treinamento (como usar termos de velocidade parcialmente ruidosos como entrada), a velocidade linear do quadril ( $v_{pelvis}$ ) é removida das entradas de denoising, mas mantida no alvo de supervisão. Isso força o modelo a inferir a velocidade puramente a partir do contexto histórico.
Alinhamento de Distribuição de Contexto e Máscaras de Atenção:
- O treinamento utiliza pares de (estado ruidoso, ação ruidosa) para alinhar a distribuição do contexto de treinamento com as condições de implantação (estado limpo, ação limpa), reduzindo o mismatch de distribuição.
- Utiliza-se máscaras de atenção sensíveis ao contexto, permitindo atenção bidirecional dentro da janela de contexto (histórico), facilitando a inferência de dinâmicas latentes, enquanto mantém restrições causais apenas no horizonte de previsão.

3. Contribuições Chave

Treinamento com Observações Mistas: Permite a inferência implícita de dinâmicas corporais globais condicionando-se em sensores parciais e supervisionando com estados completos.
Denoising Restrito: Força a inferência de velocidade sem feedback direto de velocidade, essencial para controle robusto em hardware.
Alinhamento de Distribuição de Contexto: Garante consistência causal entre treinamento e inferência, mitigando o domain shift.
Validação em Robô Real: Implantação bem-sucedida em um robô humanoide Unitree G1 a 50 Hz, sem sensores externos ou estimativa de estado, demonstrando transferência sim-to-real robusta.

4. Resultados

Os experimentos foram realizados em simulação (IsaacLab) e no robô real Unitree G1.

Controle de Velocidade e Navegação:
- O SCDP alcançou taxas de sucesso de 99–100% no controle de velocidade e navegação por waypoints, comparável às políticas privilegiadas (que têm acesso a dados globais).
- Políticas que usam apenas observações de contexto (sem a destilação mista) falharam drasticamente (ex: 4.0% a 22.2% de sucesso), confirmando a necessidade da abordagem proposta.
Rastreamento de Referência de Movimento (AMASS):
- No conjunto de teste AMASS, o SCDP alcançou 93% de sucesso no rastreamento de movimentos, superando significativamente a destilação padrão (79%) e o Behavior Cloning (31%).
- O erro de posição global (MPJPE-G) foi reduzido de 473 para 288 em comparação com métodos anteriores de destilação sem estado privilegiado.
Desempenho em Robô Real:
- O modelo rodou em um Unitree G1 a 50 Hz, demonstrando locomoção robusta, recuperação de perturbações e execução de comandos de joystick sem qualquer sistema de captura de movimento externo.
Ablações:
- A análise mostrou que o treinamento com observações mistas é o componente mais crítico (sem ele, o sucesso cai para 1.4%).
- O alinhamento de distribuição de contexto e o denoising restrito são essenciais para atingir o desempenho de nível privilegiado.
- O uso de feedback de velocidade ( $v_{pelvis}$ ) não é necessário para o SCDP, ao contrário de outros métodos.

5. Significado e Impacto

Este trabalho representa um avanço significativo na viabilidade prática de controladores de locomoção humanoide baseados em aprendizado de máquina. Ao eliminar a dependência de estimativas de estado complexas e não confiáveis (que frequentemente falham em ambientes não estruturados), o SCDP permite que robôs humanoide operem de forma autônoma e robusta usando apenas seus sensores internos.

A capacidade de "destilar" conhecimento de um especialista privilegiado para uma política que opera sob observação parcial, mantendo a alta performance de modelos de difusão, abre caminho para a implantação de comportamentos complexos e adaptativos em robôs do mundo real, sem a necessidade de infraestrutura externa de rastreamento.

SCDP: Learning Humanoid Locomotion from Partial Observations via Mixed-Observation Distillation

1. O Problema: O Aluno que só vê o que tem na mesa

2. A Solução: A Técnica do "Treinador Cego" (Distilação de Observação Mista)

3. O "Filtro de Velocidade" (Denoising Restrito)

4. O Cérebro que Lembra do Passado (Atenção Contextual)

5. O Resultado na Vida Real

Resumo da Ópera

Título: SCDP: Aprendizado de Locomoção Humanoide a partir de Observações Parciais via Destilação de Observações Mistas

1. O Problema

2. Metodologia: SCDP

3. Contribuições Chave

4. Resultados

5. Significado e Impacto

Mais como este

Equitable Multi-Task Learning for AI-RANs

SPREAD: Subspace Representation Distillation for Lifelong Imitation Learning

The Temporal Markov Transition Field

SoftJAX & SoftTorch: Empowering Automatic Differentiation Libraries with Informative Gradients

Expressivity-Efficiency Tradeoffs for Hybrid Sequence Models