SCDP: Learning Humanoid Locomotion from Partial Observations via Mixed-Observation Distillation

O artigo apresenta o SCDP, uma abordagem que utiliza um modelo de difusão condicionado a sensores e treinamento com observações mistas para aprender locomoção em humanoides apenas com dados onboard, alcançando desempenho comparável a métodos que usam estados privilegiados e demonstrando sucesso em robôs reais sem necessidade de estimativa de estado externa.

Milo Carroll, Tianhu Peng, Lingfan Bao, Chengxu Zhou, Zhibin Li

Publicado Wed, 11 Ma
📖 5 min de leitura🧠 Leitura aprofundada

Each language version is independently generated for its own context, not a direct translation.

Imagine que você está tentando ensinar um robô humanoide (como o G1 da Unitree) a andar, correr e fazer acrobacias. O grande problema é que, no mundo real, esses robôs não têm "olhos mágicos" ou um GPS interno perfeito. Eles só têm sensores nas próprias pernas e no corpo (como um sistema vestibular humano que sente movimento e gravidade), mas não sabem exatamente onde estão no mundo ou qual é a sua velocidade exata.

A maioria dos robôs hoje em dia depende de um "tutor" que sabe tudo: posição global, velocidade, ângulos exatos. Se você tirar esse tutor, o robô cai. É como tentar dirigir um carro de olhos vendados, confiando apenas no barulho do motor, sem saber a velocidade no velocímetro.

Os autores deste paper, da University College London, criaram uma solução genial chamada SCDP. Vamos entender como funciona com algumas analogias do dia a dia:

1. O Problema: O Aluno que só vê o que tem na mesa

Antes, os robôs eram treinados como se tivessem superpoderes (sabiam tudo sobre o mundo). Quando chegava a hora de usá-los na vida real, sem esses superpoderes, eles ficavam confusos e caíam. Era como treinar um jogador de futebol olhando para o campo inteiro, mas no jogo real ele só podia olhar para os próprios pés.

2. A Solução: A Técnica do "Treinador Cego" (Distilação de Observação Mista)

A ideia principal do SCDP é separar o que o robô sente do que ele aprende.

  • A Analogia do Maestro e o Músico: Imagine um maestro (o modelo de IA) tentando aprender uma sinfonia complexa.
    • No treinamento: O maestro ouve apenas os instrumentos próximos a ele (os sensores do robô), mas o maestro tem uma partitura secreta na frente dele que mostra a música completa (o estado privilegiado, com velocidade e posição exatas).
    • O Truque: O maestro é obrigado a tocar a música perfeita (prever o futuro) ouvindo apenas os sons próximos, mas usando a partitura secreta apenas para corrigir o que ele tocou.
    • O Resultado: Com o tempo, o maestro aprende a "adivinhar" a música completa e a posição dos outros instrumentos apenas pelo som dos instrumentos próximos. Ele internaliza a lógica da música.

Na prática, o robô é treinado olhando apenas para seus próprios sensores (como a gravidade nas pernas e a rotação das juntas), mas é corrigido por dados perfeitos de simulação. Isso força o cérebro do robô a criar um "mapa mental" interno de como o corpo se move, sem precisar de um GPS externo.

3. O "Filtro de Velocidade" (Denoising Restrito)

Um dos maiores desafios é: "Como o robô sabe a velocidade se o sensor de velocidade é ruim?"
Os autores criaram uma regra estranha no treinamento:

  • Eles escondem a informação da velocidade dos dados que o robô recebe para "adivinhar" (o que entra no modelo).
  • Mas eles mantêm a velocidade no alvo que o robô precisa atingir (o que o robô deve prever).

A Analogia: É como um professor de natação que diz ao aluno: "Não olhe para o cronômetro nem para a água (sem feedback de velocidade), mas tente chegar à borda na hora exata que eu digo". O aluno é forçado a sentir a correnteza e o ritmo do próprio corpo para adivinhar a velocidade. Isso faz com que o robô aprenda a estimar a velocidade por "intuição" (inferência implícita) baseada no histórico de movimentos, e não em um sensor falho.

4. O Cérebro que Lembra do Passado (Atenção Contextual)

Para não se perder, o robô precisa lembrar do que aconteceu nos últimos segundos. O SCDP usa uma técnica de "máscara de atenção" que permite ao robô olhar para trás e para frente dentro de uma janela de tempo curta, conectando o passado ao futuro.

  • Analogia: É como andar em um corredor escuro. Você não vê o fim, mas se você lembra de como foi o passo há 3 segundos e sente o chão agora, você consegue prever onde estará daqui a 2 segundos. O robô faz isso em milissegundos.

5. O Resultado na Vida Real

O teste foi feito em um robô real (Unitree G1) rodando a 50 vezes por segundo (50 Hz).

  • Sem câmeras externas: O robô não usou câmeras de captura de movimento (que são caras e só funcionam em laboratório).
  • Sem GPS: Ele não sabia onde estava no mundo.
  • Sucesso: Ele conseguiu andar, seguir comandos de velocidade e até imitar movimentos complexos (como dançar) com uma taxa de sucesso de quase 100% em simulação e 93% em tarefas complexas.

Resumo da Ópera

O papel apresenta um método para ensinar robôs a andar como humanos: confiando apenas no que sentem no corpo, e não em dados externos perfeitos.

Eles ensinaram o robô a "adivinhar" o invisível (velocidade e posição) através da prática intensiva, onde ele aprendeu a correlacionar o que sente (sensores) com o que deveria acontecer (movimento perfeito). É como transformar um robô que dependia de um "GPS de luxo" em um atleta que tem um "instinto de sobrevivência" apurado, capaz de andar em qualquer lugar, mesmo no escuro.