APEX: Learning Adaptive High-Platform Traversal for Humanoid Robots

O artigo apresenta o APEX, um sistema baseado em aprendizado por reforço profundo que permite a humanoides, como o Unitree G1, realizar de forma autônoma e segura a travessia zero-shot de plataformas elevadas (cerca de 114% do comprimento da perna) através da composição de comportamentos de escalada, reconfiguração postural e navegação, superando as limitações de segurança e impacto das soluções de salto tradicionais.

Yikai Wang, Tingxuan Leng, Changyi Lin, Shiqi Liu, Shir Simon, Bingqing Chen, Jonathan Francis, Ding Zhao

Publicado 2026-03-09
📖 5 min de leitura🧠 Leitura aprofundada

Each language version is independently generated for its own context, not a direct translation.

Imagine que você tem um robô humanoide, como um "robô de desenho animado" feito de metal e plástico, chamado Unitree G1. Até agora, esses robôs eram ótimos para andar em terrenos irregulares, como pedras ou terra batida. Mas havia um grande problema: se eles encontrassem uma mesa muito alta (mais alta que as próprias pernas deles), eles ficavam presos.

A solução antiga era tentar pular. Mas pular em algo tão alto é perigoso: exige muita força, pode quebrar o robô e, se ele errar o pulo, cai de cara no chão.

Os autores deste paper criaram um novo sistema chamado APEX. Pense no APEX não como um robô que aprende a pular, mas como um alpinista experiente. Em vez de tentar saltar a parede, o robô aprende a usar as mãos, o corpo e os pés para escalar, subir e descer com segurança.

Aqui está a explicação simples de como eles fizeram isso, usando analogias do dia a dia:

1. O Problema: O "Pulo Desajeitado" vs. A "Escalada Inteligente"

Antes, os robôs tentavam subir coisas altas como um gato tentando pular na geladeira: um salto único e arriscado. Se a geladeira fosse muito alta, o gato não chegava lá ou se machucava.
O APEX muda a estratégia. Ele ensina o robô a agir como um alpinista de montanha.

  • Subir (Climb-up): O robô se apoia na borda da mesa com as mãos e puxa o corpo para cima.
  • Descer (Climb-down): Ele não pula de costas; ele se abaixa, segura na borda e desce devagarinho.
  • Mudar de postura: Se o robô precisa rastejar na mesa, ele aprende a se deitar. Se precisa ficar em pé, ele aprende a se levantar do chão.

2. O Segredo do Treino: O "Medidor de Progresso" (A Régua Mágica)

A parte mais genial do paper é como eles ensinaram o robô a fazer essas manobras complexas. Usar recompensas normais (como "vá em direção à mesa") não funciona bem porque o robô pode ficar andando em círculos ou tentando pular de um jeito errado.

Eles criaram uma recompensa chamada "Ratchet Progress Reward" (Recompensa de Progresso de Catraca).

  • A Analogia da Catraca: Imagine uma catraca de parque de diversões ou um jogo de "subir escadas". Você só ganha pontos se superar o seu melhor resultado anterior.
  • Se o robô tenta subir e não avança nem um milímetro em relação ao que ele já fez antes, ele não ganha pontos (e até perde).
  • Se ele consegue colocar a mão um pouco mais alto do que na tentativa anterior, ele ganha pontos.
  • O Resultado: Isso força o robô a ser paciente. Ele não pode "correr" para o topo (o que causaria quedas). Ele é obrigado a encontrar o ponto de apoio perfeito, segurar, e só então dar o próximo passo. É como ensinar alguém a subir uma escada de mão: você não corre, você garante que o próximo degrau está firme antes de soltar o anterior.

3. Os "Olhos" do Robô: Lidar com a "Névoa"

Para subir, o robô precisa ver onde está pisando. Ele usa um sensor a laser (LiDAR) para criar um mapa 3D do chão.

  • O Problema: Quando o robô se move rápido ou se apoia em algo, o sensor pode "alucinar" (criar pontos falsos no mapa) ou perder partes da imagem, como se fosse uma foto borrada ou com ruído.
  • A Solução: Eles treinaram o robô em um mundo virtual cheio de "defeitos" (mapas sujos, com ruído, com buracos). É como treinar um piloto em simuladores de tempestade. Quando o robô vai para o mundo real, mesmo que o mapa esteja um pouco bagunçado, ele já sabe como lidar com isso e não se confunde.

4. O "Treinador" e o "Aluno" (Distilação)

O sistema aprende seis habilidades separadas (subir, descer, andar, rastejar, levantar, deitar). Treinar tudo de uma vez seria como tentar ensinar um aluno a fazer 6 esportes diferentes ao mesmo tempo.

  • A Estratégia: Eles treinaram primeiro 6 "professores" (um para cada habilidade). Depois, criaram um "aluno" (uma única inteligência artificial) que observou todos os professores.
  • O aluno aprendeu a olhar para o cenário e decidir: "Ah, tem uma mesa alta na minha frente? Vou usar a habilidade do Professor Escalador." ou "Estou na mesa e preciso descer? Vou chamar o Professor Descensor."
  • Isso permite que o robô faça uma sequência contínua: anda até a mesa, sobe, rasteja, levanta, anda, deita, rasteja, desce e continua andando, tudo sem parar.

5. O Resultado Real

Eles testaram isso em um robô real (o Unitree G1) e conseguiram algo impressionante:

  • O robô subiu em uma plataforma de 0,80 metros. Para um robô com pernas de 70cm, isso é como um humano de 1,70m subindo em uma mesa de 1,80m! É mais alto que as próprias pernas dele.
  • O robô fez isso sem nunca ter visto o local real antes (transferência zero-shot). Ele foi treinado no computador e funcionou perfeitamente no mundo real na primeira tentativa.
  • Mesmo se alguém empurrasse o robô ou se o chão fosse macio (como um tapete de espuma), ele se adaptava e continuava subindo.

Resumo Final

O APEX é como dar ao robô a inteligência de um alpinista e a visão de um explorador. Em vez de tentar pular e quebrar as pernas, ele aprende a usar o corpo todo para se apoiar, sobe com calma, e sabe exatamente quando mudar de comportamento (de andar para escalar, de escalar para rastejar). O segredo foi uma regra de treino que punia o robô se ele não melhorasse um pouquinho a cada segundo, forçando-o a aprender movimentos seguros e estáveis, em vez de movimentos rápidos e perigosos.