Compose Your Policies! Improving Diffusion-based or Flow-based Robot Policies via Test-time Distribution-level Composition

Each language version is independently generated for its own context, not a direct translation.

Imagine que você está tentando ensinar um robô a fazer tarefas complexas, como pegar uma xícara, colocar um hambúrguer em um prato ou montar uma torre de blocos. Até hoje, a maneira mais comum de fazer isso era "treinar" o robô do zero, mostrando milhares de vídeos de humanos fazendo a tarefa. É como tentar ensinar alguém a cozinhar apenas mostrando receitas e vídeos, sem nunca deixar a pessoa praticar. O problema é que isso exige muitos dados, muito tempo e computadores superpoderosos.

Este artigo, apresentado na conferência ICLR 2026, propõe uma ideia brilhante e simples: em vez de treinar um novo robô, por que não juntar dois robôs que já sabem fazer as coisas?

Os autores chamam essa técnica de GPC (Composição Geral de Políticas). Vamos explicar como funciona usando algumas analogias do dia a dia.

1. O Problema: O Robô "Cego" e o Robô "Surdo"

Imagine que você tem dois especialistas em montar móveis:

Robô A (O Visual): Ele tem óculos incríveis. Ele vê perfeitamente a cor, a textura e a forma das peças. Mas ele não tem senso de profundidade; às vezes ele acha que uma peça está mais perto do que realmente está.
Robô B (O Tátil/3D): Ele tem "olhos" que veem a profundidade e a estrutura 3D do mundo (como um radar). Ele sabe exatamente onde as coisas estão no espaço. Mas ele é um pouco "cego" para cores e detalhes finos.

Se você usar apenas o Robô A, ele pode tentar pegar um copo e derrubá-lo porque achou que estava mais longe. Se usar apenas o Robô B, ele pode pegar o copo, mas não saber que é de vidro e quebrá-lo porque não viu a textura.

2. A Solução: O "Casamento" de Inteligências

A ideia do GPC é fazer uma parceria entre esses dois robôs no momento em que eles precisam agir (o que os autores chamam de "tempo de teste").

Em vez de misturar seus cérebros permanentemente (o que exigiria um novo treinamento longo e caro), o GPC faz o seguinte:

Quando o robô precisa decidir qual movimento fazer, ele pergunta ao Robô A: "Onde devo mover a mão?"
Ele também pergunta ao Robô B: "Onde devo mover a mão?"
O Robô A dá uma resposta baseada na visão (ex: "Mova para a direita").
O Robô B dá uma resposta baseada na profundidade (ex: "Mova para frente").
O sistema GPC mistura essas duas respostas de forma inteligente, criando uma "terceira opinião" que é melhor do que qualquer uma das duas sozinhas.

É como se você estivesse dirigindo um carro e tivesse dois copilotos: um que vê muito bem a estrada, mas não sabe a velocidade; e outro que sabe a velocidade exata, mas não vê bem os buracos. O GPC é o "capitão" que ouve os dois e toma a decisão mais segura, combinando o melhor dos dois mundos.

3. A Mágica Matemática (Sem Matemática Chata)

Os autores provaram matematicamente que, quando você combina as "opiniões" (chamadas de scores ou pontuações de distribuição) de dois modelos diferentes, você cria uma nova distribuição de probabilidade que é mais precisa.

Pense nisso como um consenso:

Se o Robô A acha que o caminho é "A" e o Robô B acha que é "B", mas ambos concordam que o caminho "C" é o melhor, o robô combinado vai focar no "C".
Se um deles está errado em uma situação específica, o outro corrige o erro.
O resultado é um robô que comete menos erros do que qualquer um dos dois originais.

4. Por que isso é revolucionário?

Sem Treinamento Novo: Você não precisa gastar semanas treinando um novo modelo. Você pega dois modelos que já existem, "cola" eles juntos no momento da execução e pronto!
Funciona com Qualquer Coisa: Você pode misturar robôs que usam câmeras comuns com robôs que usam scanners 3D. Pode misturar robôs que "falam" (entendem linguagem) com robôs que só "veem".
Melhora em Tudo: Nos testes, eles mostraram que essa técnica aumentou a taxa de sucesso em tarefas reais e simuladas. Em alguns casos, o robô combinado teve 7% a 15% mais sucesso do que os robôs individuais.

5. A Analogia Final: O Jogo de Palavras

Imagine que você está tentando adivinhar a palavra secreta em um jogo.

O Jogador 1 é bom com palavras que rimam.
O Jogador 2 é bom com palavras que têm muitas vogais.
Se você joga sozinho, pode errar.
Se você joga com o Jogador 1, ele dá uma dica.
Se você joga com o Jogador 2, ele dá outra dica.
O GPC é quando você junta as dicas dos dois. A resposta final é muito mais provável de estar correta do que se você tivesse seguido apenas um deles.

Resumo

Este paper diz: "Não tente reinventar a roda. Junte as rodas que já existem!"

A técnica permite que robôs existentes se tornem mais inteligentes e versáteis simplesmente combinando suas percepções no momento da ação, sem precisar de novos dados caros ou meses de treinamento. É uma forma de "inteligência de enxame" aplicada a robôs, onde a soma das partes é maior do que o todo.

Each language version is independently generated for its own context, not a direct translation.

Título: Compose Your Policies! (Componha Suas Políticas!)

Autores: Jiahang Cao, Yize Huang, et al. (Universidade de Hong Kong, Beijing Innovation Center, Shanghai AI Lab, etc.)

1. O Problema

As políticas de controle robótico baseadas em modelos de difusão (Diffusion Policies - DPs) e modelos baseados em fluxo (Flow-based policies), incluindo modelos Visão-Ação (VA) e Visão-Linguagem-Ação (VLA), demonstraram capacidades significativas. No entanto, seu avanço é fundamentalmente limitado por dois fatores:

Custo de Dados: A necessidade de coletar grandes conjuntos de dados de interação para treinar modelos maiores e mais capazes.
Limites de Capacidade: O desempenho pode estagnar devido aos limites representacionais intrínsecos de um modelo individual, e escalar a arquitetura do modelo exige mais dados caros.

Estratégias convencionais de pós-treinamento, como fine-tuning supervisionado (que exige novos dados) ou Aprendizado por Reforço (que exige engenharia de recompensas e interação online complexa), são ineficientes ou impraticáveis em muitos cenários.

2. Metodologia: General Policy Composition (GPC)

O trabalho propõe um paradigma alternativo: criar políticas mais fortes compondo modelos pré-treinados existentes sem nenhum treinamento adicional. A metodologia central é a Composição Geral de Políticas (GPC).

Princípio Fundamental

A GPC combina as pontuações de distribuição (distributional scores) de múltiplas políticas pré-treinadas durante o tempo de inferência (test-time). Em vez de treinar um novo modelo, a GPC utiliza uma combinação convexa das estimativas de score (ou ruído) de diferentes políticas para guiar o processo de geração de trajetórias.

Mecanismo de Funcionamento

Combinação Convexa de Scores: Dadas duas ou mais políticas pré-treinadas (ex: uma baseada em imagem RGB e outra em nuvem de pontos, ou modelos com arquiteturas diferentes), a GPC calcula uma pontuação composta:
$\hat{s}_{comp} = \sum_{i=1}^{n} w_i s_{\theta}(\tau_t, t, c_i)$
Onde $w_i$ são pesos convexos ( $\sum w_i = 1$ ) e $s_{\theta}$ são as funções de score estimadas por cada política.
Busca de Pesos no Test-Time: Como o peso ótimo depende da tarefa específica, a GPC realiza uma busca simples sobre os pesos (ex: de 0.0 a 1.0 em passos de 0.1) durante a inferência para encontrar a combinação que maximiza a taxa de sucesso em um conjunto de validação ou rollouts iniciais.
Flexibilidade: O método é agnóstico à arquitetura e à modalidade. Pode combinar:
- Políticas baseadas em Difusão e Fluxo (Flow Matching).
- Modelos VA (Visão-Ação) e VLA (Visão-Linguagem-Ação).
- Diferentes entradas visuais (RGB, profundidade, nuvem de pontos).
- Diferentes backbones (Transformers, CNNs, Mamba).

Extensões

O artigo também explora operadores de composição além da média convexa, como Lógica AND (interseção de distribuições, exigindo consenso) e Lógica OR (mistura de distribuições), embora a combinação convexa seja o foco principal pela sua estabilidade teórica.

3. Contribuições Chave

Fundamentação Teórica:
- Os autores provam que a combinação convexa de estimadores de score pode produzir um erro de score menor do que qualquer estimador individual (Proposição 4.1).
- Utilizam um limite do tipo Grönwall para demonstrar que a melhoria no erro de um único passo se propaga através de toda a trajetória de geração, garantindo ganhos de desempenho sistêmicos (Proposição 4.2).
- Isso estabelece que a composição de scores é um princípio matematicamente sólido para melhorar políticas sem re-treinamento.
Framework GPC (Treino-Livre):
- Introdução de um método plug-and-play que integra modelos heterogêneos.
- Não requer modificação dos modelos base nem coleta de novos dados de treinamento.
Validação Empírica Abrangente:
- Experimentos extensivos em simulação (Robomimic, PushT, RoboTwin) e no mundo real.
- Análise detalhada de como diferentes configurações de pesos e operadores de composição afetam o desempenho.

4. Resultados Experimentais

Os resultados demonstram que a GPC supera consistentemente as políticas base (individuais) em diversos cenários:

Benchmarks de Simulação:
- Robomimic & PushT: A GPC obteve melhorias médias de +2.22% a +7.55% na taxa de sucesso (SR) ao combinar políticas. Por exemplo, combinar um modelo VLA (Florence) com um modelo VA (DP) resultou em ganhos significativos.
- RoboTwin (Manipulação Bimanual): Em tarefas complexas como "Hanging Mug" e "Open Laptop", a composição de políticas (ex: RDT + DPpcd) aumentou a taxa de sucesso em até +7%, superando o melhor modelo individual.
Avaliação no Mundo Real:
- Em tarefas reais (colocar garrafas, pendurar canecas, limpar mesas), a GPC demonstrou maior robustez. Por exemplo, na tarefa "Place Bottles", a GPC alcançou 13/20 sucessos, contra 7/20 e 11/20 das políticas base.
Análise de Pesos:
- A pesquisa mostrou que o peso ótimo é dependente da tarefa. Quando uma política é significativamente melhor que a outra, atribuir um peso maior à melhor política (ex: $w > 0.5$ ) maximiza os ganhos.
- A composição é mais eficaz quando as políticas base têm acurácias moderadas e complementares, permitindo que a distribuição composta capture informações mais ricas.
Eficiência Computacional:
- O custo de busca de pesos é baixo (apenas algumas horas de avaliação em comparação com dias de treinamento do zero).
- A latência de inferência aumenta modestamente (de ~0.09s para ~0.13s por bloco de ação), sendo puramente computacional e escalável com hardware.

5. Significado e Impacto

O trabalho "Compose Your Policies!" oferece uma solução elegante e eficiente para o gargalo de dados e escalabilidade no aprendizado de robótica:

Paradigma de "Reutilização Inteligente": Permite que a comunidade aproveite o conhecimento já adquirido em grandes modelos pré-treinados, combinando-os para criar especialistas virtuais mais robustos sem o custo de treinamento.
Generalização: A capacidade de combinar modalidades (ex: visão 2D + 3D) e arquiteturas diferentes sugere que a fusão de informações em nível de distribuição pode superar a necessidade de modelos monolíticos gigantescos.
Acessibilidade: Ao ser um método sem treinamento (training-free), torna técnicas avançadas de controle acessíveis para robôs com recursos computacionais limitados ou com acesso restrito a grandes conjuntos de dados.

Em resumo, a GPC estabelece que a composição de distribuições é uma ferramenta poderosa para elevar o desempenho de políticas robóticas, transformando a limitação de modelos individuais em uma vantagem através da sinergia de múltiplos especialistas pré-treinados.