Iterative On-Policy Refinement of Hierarchical Diffusion Policies for Language-Conditioned Manipulation

O artigo apresenta o HD-ExpIt, um framework que aprimora políticas de difusão hierárquicas para manipulação condicionada por linguagem através de um ciclo iterativo de refinamento on-policy, onde o planejamento baseado em difusão descobre comportamentos bem-sucedidos que são retroalimentados para melhorar tanto o planejador quanto o controlador, superando as limitações de dados offline e alcançando desempenho superior no benchmark CALVIN.

Clemence Grislain, Olivier Sigaud, Mohamed Chetouani

Publicado 2026-03-06
📖 4 min de leitura☕ Leitura rápida

Each language version is independently generated for its own context, not a direct translation.

Imagine que você está tentando ensinar um robô a cozinhar uma receita complexa, como "fazer um bolo de chocolate".

O problema é que o robô tem dois cérebros que precisam trabalhar juntos, mas que muitas vezes não se entendem:

  1. O "Chefe de Cozinha" (Planejador de Alto Nível): Ele entende a receita em palavras. Ele diz: "Primeiro, pegue a farinha, depois quebre os ovos, depois misture". Ele é ótimo em entender a lógica, mas não sabe exatamente como os músculos do robô funcionam.
  2. O "Cozinheiro" (Controlador de Baixo Nível): Ele é quem realmente move os braços, pega a farinha e quebra os ovos. Ele é muito habilidoso, mas não entende o conceito de "bolo". Ele só obedece ordens diretas.

O Problema: O Chefe e o Cozinheiro não combinam

Nas abordagens antigas, o "Chefe" criava um plano baseado em vídeos de humanos cozinhando (dados offline). O problema é que o Chefe às vezes dá ordens impossíveis para o Cozinheiro.

  • Exemplo: O Chefe diz: "Pegue a farinha com uma mão só, mas o robô só tem um braço e a mão está ocupada segurando a tigela".
  • O Cozinheiro tenta, falha, e o bolo não sai.

As soluções anteriores tentavam colocar um "tradutor" entre os dois ou fazê-los estudar o mesmo livro, mas isso ainda dependia apenas dos vídeos antigos. Se o robô encontrasse uma situação nova (ex: a farinha estava em um lugar diferente), ele travava.

A Solução: HD-ExpIt (O Ciclo de Treinamento Infinito)

Os autores criaram um método chamado HD-ExpIt. Pense nele como um ciclo de aprendizado contínuo, onde o robô aprende fazendo, errando e corrigindo, em vez de apenas assistir a vídeos.

Aqui está como funciona, usando uma analogia de um jogo de vídeo:

  1. A Tentativa (O "Rollout"):
    O robô começa a jogar. O "Chefe" cria um plano (uma sequência de imagens do bolo sendo feito). O "Cozinheiro" tenta executar.

    • O Truque: Como o "Chefe" é um modelo de difusão (uma IA generativa), ele é um pouco "alucinado" e criativo. Ele gera várias versões do plano. É como se ele jogasse o dado 10 vezes para ver qual caminho funciona melhor.
  2. O Filtro de Sucesso (O Feedback):
    O robô tenta executar esses planos no mundo real (ou simulado).

    • Se o robô derruba a farinha ou não consegue pegar o ovo, o sistema diz: "Não, isso não funcionou".
    • Se o robô consegue fazer a ação com sucesso, o sistema diz: "Isso! Guarde isso!".
    • O sistema filtra apenas as tentativas que deram certo e descarta as que falharam.
  3. A Lição (O Refinamento):
    Agora, o robô pega apenas as tentativas que funcionaram e as usa para estudar novamente.

    • O "Chefe" aprende: "Ah, eu não devo pedir para o Cozinheiro fazer X, porque ele não consegue. Vou pedir Y, que ele consegue fazer".
    • O "Cozinheiro" também melhora, praticando as ações que realmente funcionam naquele contexto.
  4. O Ciclo se Repete:
    Eles voltam a jogar, mas agora são um pouco melhores. Eles tentam tarefas mais difíceis, geram novos planos, filtram os sucessos e estudam de novo. A cada rodada, o "Chefe" aprende exatamente o que o "Cozinheiro" é capaz de fazer, e o "Cozinheiro" fica mais eficiente.

Por que isso é incrível?

  • Sem "Tradutores" Caros: Eles não precisam criar um modelo extra complexo para traduzir as ordens. O próprio ato de tentar e filtrar o sucesso ensina o "Chefe" a ser realista.
  • Aprendizado Contínuo: Diferente dos robôs antigos que paravam de aprender depois de verem os vídeos de treino, esse robô continua evoluindo. Ele descobre novos truques que nem os humanos sabiam fazer.
  • Resultados Reais: Nos testes (como o benchmark CALVIN, que é como um "exame final" de robótica), esse método fez o robô conseguir completar sequências longas de tarefas (como pegar um objeto, abrir uma gaveta e colocar dentro) com muito mais sucesso do que qualquer outro método treinado do zero.

Resumo em uma frase

O HD-ExpIt é como treinar um atleta: em vez de apenas mostrar vídeos de campeões para ele assistir, você o faz treinar, deixa-o errar, mostra apenas os movimentos que funcionaram, e repete o processo até que ele domine a técnica perfeitamente, adaptando-se a qualquer situação nova.