Optimize Wider, Not Deeper: Consensus Aggregation for Policy Optimization

O artigo propõe o CAPO, um método que otimiza políticas de aprendizado por reforço agregando múltiplas réplicas de PPO no espaço de parâmetros naturais para substituir a otimização profunda por uma abordagem mais ampla, alcançando desempenho superior em tarefas de controle contínuo sem aumentar o orçamento de interações com o ambiente.

Zelal Su (Lain), Mustafaoglu, Sungyoung Lee, Eshan Balachandar, Risto Miikkulainen, Keshav Pingali

Publicado 2026-03-16
📖 4 min de leitura☕ Leitura rápida

Each language version is independently generated for its own context, not a direct translation.

Imagine que você está tentando ensinar um robô a andar, como um humanoide ou um cachorro. Para isso, você usa um "professor" virtual (um algoritmo de Inteligência Artificial) que tenta adivinhar qual movimento fazer para ganhar pontos.

O método mais famoso para isso hoje em dia se chama PPO. Pense no PPO como um aluno muito dedicado que, para aprender uma tarefa, lê o mesmo livro de exercícios várias vezes seguidas (várias "rodadas" ou "épocas").

Aqui está o problema que os autores descobriram:

  • A Ilusão do Esforço: No começo, ler o livro várias vezes ajuda muito. O aluno aprende.
  • O Efeito "Overthinking": Mas, se ele continuar lendo o mesmo livro 10, 20 ou 40 vezes, ele começa a ficar confuso. Ele memoriza detalhes irrelevantes, começa a duvidar do que aprendeu e, no final, toma decisões piores do que se tivesse lido apenas 10 vezes.
  • A Metáfora do Caminho: Imagine que o objetivo é chegar ao topo de uma montanha (o melhor desempenho). O PPO tenta subir. Nas primeiras tentativas, ele segue o caminho certo. Mas, ao insistir demais no mesmo caminho, ele começa a dar voltas desnecessárias, tropeçar em pedras que não importam e gastar energia (o "orçamento" de aprendizado) em movimentos que não o levam para cima. Isso é o que o paper chama de "Ruído" ou "Desperdício".

A Solução: CAPO (O Poder do Grupo)

Os autores propõem uma nova ideia chamada CAPO. Em vez de fazer um aluno estudar o livro 40 vezes (o que gera confusão), eles propõem:

  1. Contratar 4 Alunos (K=4): Pegue o mesmo livro de exercícios e o mesmo professor.
  2. Estudar em Paralelo: Cada um dos 4 alunos estuda o livro, mas cada um embaralha a ordem das páginas de um jeito diferente.
    • O Aluno A lê os exercícios na ordem 1, 2, 3...
    • O Aluno B lê na ordem 3, 1, 2...
    • O Aluno C lê na ordem 2, 3, 1...
  3. A Reunião de Consenso: No final, em vez de escolher o "melhor" aluno ou deixar um deles continuar estudando, você reúne os 4 e pede para eles tirarem uma média das suas conclusões.

Por que isso funciona? (A Mágica da Média)

Aqui está a parte genial, explicada com uma analogia simples:

  • O Sinal (O que importa): Todos os 4 alunos aprenderam a mesma coisa boa (como andar para frente). Quando você tira a média, essa parte boa se mantém forte.
  • O Desperdício (O erro): O Aluno A tropeçou na pedra da esquerda. O Aluno B tropeçou na pedra da direita. O Aluno C tropeçou na frente. O Aluno D tropeçou atrás.
    • Se você olhar apenas para o Aluno A, ele parece desajeitado.
    • Mas, quando você tira a média dos 4, os tropeços se cancelam! O movimento final do grupo é muito mais suave e direto do que o de qualquer aluno individual.

O paper mostra que, ao fazer isso, você consegue um robô que anda muito melhor, usando a mesma quantidade de tempo de "treino" (mesmo número de interações com o ambiente), mas gastando o poder de processamento de forma mais inteligente.

O Grande Resultado

Os autores testaram isso em robôs virtuais (como o "Humanoid", que é um robô com pernas e braços).

  • O método antigo (PPO) fez o robô andar, mas com dificuldade.
  • O método novo (CAPO) fez o robô andar 8,6 vezes melhor em alguns casos!

Resumo em uma frase:

Em vez de forçar um único cérebro a pensar demais no mesmo problema (o que gera confusão), é melhor ter vários cérebros pensando de formas ligeiramente diferentes e depois juntar o melhor de cada um para criar uma decisão perfeita.

A lição de vida: Às vezes, "pensar mais fundo" (mais épocas de treino) não é a resposta. Às vezes, a resposta é "pensar mais largo" (mais cérebros trabalhando juntos).

Receba artigos como este na sua caixa de entrada

Digests diários ou semanais personalizados de acordo com seus interesses. Gists ou resumos técnicos, no seu idioma.

Experimentar Digest →