Evolving Diffusion and Flow Matching Policies for Online Reinforcement Learning

O artigo apresenta o GoRL, um framework que supera a instabilidade e a falta de expressividade de políticas em aprendizado por reforço online ao decoplar a otimização em um espaço latente tratável da geração de ações por um decoder generativo, alcançando desempenho superior em tarefas de controle contínuo.

Chubin Zhang, Zhenglin Wan, Feng Chen, Fuchao Yang, Lang Feng, Yaxin Zhou, Xingrui Yu, Yang You, Ivor Tsang, Bo An

Publicado 2026-03-10
📖 4 min de leitura☕ Leitura rápida

Each language version is independently generated for its own context, not a direct translation.

Imagine que você está tentando ensinar um robô a andar, pular ou nadar. Para fazer isso, o robô precisa tomar decisões (ações) baseadas no que ele vê (estado). O grande desafio é: como escolher a melhor ação quando existem várias maneiras diferentes de fazer a mesma coisa?

Aqui está a explicação do paper "GORL" (Generative Online Reinforcement Learning) usando uma analogia simples:

O Problema: O "Cérebro" vs. O "Corpo"

No aprendizado por reforço (onde o robô aprende tentando e errando), existem dois tipos de "cérebros" (políticas) comuns:

  1. O Cérebro "Médio" (Gaussiano): É como um aluno muito cauteloso. Se a melhor forma de pular é saltar para a esquerda OU para a direita, esse aluno decide saltar no meio, meio para a esquerda e meio para a direita. O resultado? Ele cai. Ele é muito estável e fácil de treinar, mas não consegue lidar com situações complexas que exigem escolhas radicais.
  2. O Cérebro "Artístico" (Generativo/Difusão): É um artista que consegue imaginar infinitas formas de pular (esquerda, direita, girando, etc.). Ele é incrível e expressivo. O problema: Treinar esse artista é um pesadelo. Se você tentar corrigi-lo enquanto ele está desenhando, o processo é tão complexo e cheio de passos que ele fica confuso, erra tudo e o treinamento desmorona. É como tentar ensinar alguém a pintar um quadro enquanto você muda a tela a cada segundo.

O Dilema: Você quer a estabilidade do "aluno cauteloso" para não quebrar o treinamento, mas quer a criatividade do "artista" para resolver tarefas difíceis. Até agora, era difícil ter os dois.


A Solução: GORL (O Diretor e o Ator)

Os autores criaram o GORL, que resolve esse problema separando o "pensamento" da "ação". Eles usam uma analogia de Cinema:

1. O Diretor (O Codificador / Latent Policy)

Este é o cérebro simples e estável (como o "aluno cauteloso").

  • O que ele faz: Ele não decide como o robô vai mover os músculos. Ele decide apenas qual emoção ou intenção o robô deve ter. Ele escolhe um "número aleatório" (um código) que representa uma intenção.
  • Por que é bom: Como ele é simples, podemos treiná-lo com segurança. Ele sabe exatamente o que está fazendo e não entra em pânico.

2. O Ator (O Decodificador / Generative Decoder)

Este é o artista genial (o modelo de Difusão ou Fluxo).

  • O que ele faz: Ele recebe o "número de intenção" do Diretor e, com base nisso, cria a ação física perfeita. Se o Diretor disse "intenção: pular alto", o Ator decide exatamente como dobrar os joelhos e balançar os braços para fazer isso.
  • O Segredo: O Ator é treinado separadamente. Ele não é corrigido diretamente pelo robô tentando andar. Em vez disso, ele é treinado para imitar as melhores ações que o Diretor já descobriu.

Como o Treinamento Funciona (O Ritmo de Dois Tempos)

O GORL não tenta treinar tudo ao mesmo tempo. Ele usa um sistema de "turnos":

  1. Turno do Diretor: O Ator fica parado (congelado). O Diretor é treinado para escolher os melhores números de intenção para ganhar pontos. Como o Ator é fixo, o Diretor aprende rápido e sem erros.
  2. Turno do Ator: O Diretor fica parado. Agora, olhamos para as melhores ações que o Diretor descobriu e ensinamos o Ator a imitá-las perfeitamente.
    • O Truque Mágico: Para treinar o Ator, eles não usam a intenção atual do Diretor (que pode estar mudando e bagunçando tudo). Eles usam uma "intenção padrão" (como um roteiro fixo) e pedem ao Ator: "Se você recebesse essa intenção padrão, como você faria a ação que o Diretor acabou de descobrir?". Isso evita que o Ator fique confuso e se repita.

Depois de treinar o Ator, eles voltam ao Turno 1, mas agora o Ator é mais esperto, então o Diretor pode aprender coisas ainda mais complexas. Eles se ajudam mutuamente a evoluir.

Por que isso é revolucionário?

  • Estabilidade: O treinamento nunca "quebra" porque o cérebro principal (Diretor) é simples e seguro.
  • Criatividade: O robô consegue aprender movimentos complexos e multimodais (como pular de várias formas diferentes) porque o Ator é super poderoso.
  • Resultado: Em testes difíceis (como fazer um robô pular e ficar em pé sem cair), o GORL conseguiu resultados 3 vezes melhores que os melhores métodos anteriores.

Resumo em uma frase

O GORL é como ter um Diretor de Cinema que sabe exatamente qual cena quer (estável e seguro) e um Ator de Hollywood que sabe como encenar essa cena de forma brilhante e criativa (expressivo), treinando-os em turnos separados para que nenhum dos dois se confunda.