Causally Robust Reward Learning from Reason-Augmented Preference Feedback

Each language version is independently generated for its own context, not a direct translation.

Imagine que você está tentando ensinar um robô a fazer uma tarefa, como pegar uma caixa grande para guardar brinquedos. Você não pode escrever um código complexo dizendo exatamente o que fazer; em vez disso, você usa aprendizado por preferência. Basicamente, você mostra ao robô dois caminhos diferentes (duas trajetórias) e diz: "Eu prefiro este aqui".

O problema é que, às vezes, o robô é como um aluno que decora a resposta errada.

O Problema: A "Confusão Causal"

Vamos usar uma analogia do dia a dia. Imagine que você está treinando um cachorro.

Cenário: Sempre que o cachorro pega uma bola vermelha, você dá um biscoito. Quando ele pega uma bola azul, você não dá nada.
O Erro: O cachorro aprende que "Bola Vermelha = Biscoito".
O Desastre: No dia seguinte, você coloca uma bola azul gigante e uma bola vermelha pequena. O cachorro, confuso, pega a bola vermelha pequena porque aprendeu que "cor vermelha" é o segredo, ignorando que o que você realmente queria era a bola grande.

Isso é o que os autores chamam de confusão causal. O robô aprende a associar a preferência a uma característica aleatória que aparecia junto (a cor), em vez da verdadeira razão (o tamanho). Quando o ambiente muda (a cor muda), o robô falha miseravelmente.

A Solução: ReCouPLe (O "Porquê" da Preferência)

Aqui entra o ReCouPLe (uma sigla engraçada para algo como "Aprendizado de Preferência com Raciocínio").

A grande ideia do artigo é: Não basta dizer "eu prefiro A". Você precisa dizer "eu prefiro A porque...".

No exemplo do robô, em vez de apenas apontar para a trajetória correta, você diz:

"Eu prefiro esta trajetória porque ela pega a caixa grande."

Essa frase simples ("porque ela pega a caixa grande") é o racional (a razão). O ReCouPLe usa essa frase para "iluminar" o que realmente importa.

Como Funciona a Mágica (A Analogia do Filtro de Luz)

Imagine que a memória do robô é um quarto escuro cheio de objetos (cores, tamanhos, velocidades, formas). Quando você diz "eu prefiro A", o robô acende uma luz fraca e vê tudo, mas não sabe o que focar.

O ReCouPLe funciona como um projeto de luz especial:

O Eixo da Razão: A frase "pegar a caixa grande" vira um feixe de luz laser.
O Filtro: O robô projeta a imagem da trajetória nesse feixe de luz. Tudo o que estiver alinhado com a "grandeza" brilha intensamente. Tudo o que for apenas "cor" ou "ruído de fundo" fica na sombra (é ignorado).
O Resultado: O robô aprende que a recompensa vem da grandeza, não da cor. Se amanhã a caixa grande for azul, o feixe de luz ainda vai brilhar nela, porque o robô aprendeu a lógica, não a cor.

Por que isso é incrível?

Não precisa de novos dados: Se você ensina o robô a pegar "coisas grandes" em uma tarefa, ele entende que "coisas grandes" são importantes em outras tarefas também. É como aprender a regra de "não atravessar a rua quando o sinal está vermelho" e aplicar isso em qualquer cidade, não apenas na sua rua.
Resistência a mudanças: Se você mudar a cor do fundo ou o tamanho dos objetos, o robô não se confunde, porque ele está olhando para a "razão" (o tamanho), não para o "acidente" (a cor).
Economia de esforço: O artigo mostra que você não precisa explicar a razão para todas as vezes. Mesmo que você dê a explicação apenas 25% das vezes, o robô consegue aprender o padrão e aplicá-lo ao resto.

Resumo em uma frase

O ReCouPLe ensina robôs a não apenas "adivinhar" o que você gosta baseando-se em coincidências visuais, mas a entender a história por trás da sua escolha, tornando-os mais inteligentes, seguros e capazes de se adaptar a novos mundos sem precisar ser reensinados do zero.

É a diferença entre um aluno que decora que "a resposta é C" e um aluno que entende por que a resposta é C.

Each language version is independently generated for its own context, not a direct translation.

1. O Problema: Confusão Causal no Aprendizado Baseado em Preferências

O aprendizado de recompensas baseado em preferências humanas (PbRL) é uma técnica fundamental para alinhar o comportamento de agentes a intenções humanas sem a necessidade de recompensas manuais. No entanto, o método enfrenta um desafio crítico: a confusão causal.

Feedback Binário Escasso: As comparações preferenciais (ex: "A é melhor que B") fornecem no máximo um bit de informação. Isso deixa o modelo de recompensa livre para explicar a preferência usando qualquer característica correlacionada nos dados de treinamento.
Características Espúrias: Se uma característica não causal (como a cor de um objeto) estiver perfeitamente correlacionada com a preferência durante o treinamento, o modelo aprenderá a confiar nela.
Falha na Generalização: Quando o agente é testado em um ambiente onde essa correlação espúria desaparece ou se inverte (ex: o objeto grande agora é azul em vez de vermelho), o modelo falha catastroficamente, selecionando a ação errada porque aprendeu o "atalho" (cor) em vez da causa real (tamanho).

O artigo argumenta que a ambiguidade nas comparações binárias impede a distinção entre características causais e distratores, levando a modelos de recompensa frágeis que não generalizam bem.

2. Metodologia: ReCouPLe

Os autores propõem o ReCouPLe (Reason-based Confusion Mitigation in Preference Learning), uma estrutura leve que integra racionalidades em linguagem natural (explicações curtas do porquê uma trajetória é preferida) ao processo de aprendizado de recompensas.

Ideia Central

A premissa é que uma frase como "Prefiro esta trajetória porque ela evita colisões" fornece o sinal causal ausente. O ReCouPLe trata o embedding dessa razão como um eixo de projeção no espaço de representação, forçando o modelo a separar as características da trajetória em duas componentes:

Alinhada à Razão ( $\phi_{\parallel}$ ): Características que explicam a preferência declarada (causais).
Ortogonal à Razão ( $\phi_{\perp}$ ): Características irrelevantes para a razão declarada (distratores ou ruído).

Arquitetura e Função de Perda

O modelo de recompensa é definido como o produto interno entre a representação da trajetória e o embedding da tarefa. O ReCouPLe decompõe essa recompensa:
$r(\tau) = r_{\parallel}(\tau) + r_{\perp}(\tau)$
Onde $r_{\parallel}$ é a parte explicada pela razão e $r_{\perp}$ é o resíduo.

O treinamento utiliza três termos de perda principais:

Perda de Razão ( $L_{reason}$ ): Aplica o modelo Bradley-Terry apenas sobre a componente alinhada ( $r_{\parallel}$ ). Isso força o modelo a explicar a preferência apenas através da característica causal declarada.
Perda de Consistência Ortogonal: Existem duas variantes:
- ReCouPLe-EC (Equality Constraint): Força a componente ortogonal a ser idêntica para ambas as trajetórias comparadas ( $r_{\perp}(A) \approx r_{\perp}(B)$ ), garantindo que nenhuma preferência seja explicada por características não causais.
- ReCouPLe-IC (Inequality Constraint): Incentiva que a diferença na componente alinhada seja maior que a diferença na componente ortogonal, permitindo mais flexibilidade quando há múltiplas razões plausíveis.
Regularizador de Proporção ( $L_{ratio}$ ): Impede que a recompensa colapse trivialmente para a subespaço causal, mantendo um equilíbrio entre as componentes.

Transferência Zero-Shot

Como as mesmas racionalidades (ex: "evita colisões", "completa mais rápido") podem aparecer em tarefas semanticamente diferentes, o ReCouPLe aprende um espaço de representação compartilhado. Isso permite transferir o conhecimento de preferência para novas tarefas sem necessidade de novas consultas de preferência ou ajuste fino do modelo de linguagem.

3. Contribuições Chave

Novo Tipo de Feedback: Introdução de um mecanismo que combina comparações binárias com racionalidades em linguagem natural para desambiguar sinais de preferência e mitigar a confusão causal.
Estrutura Causal: Desenvolvimento de um algoritmo que projeta representações de trajetórias em eixos definidos por razões, separando causalidade de correlações espúrias.
Generalização Robusta: Demonstração de que modelos treinados com ReCouPLe reduzem significativamente a confusão causal e transferem preferências para tarefas não vistas (zero-shot) explorando razões compartilhadas.

4. Resultados Experimentais

Os autores avaliaram o ReCouPLe em dois ambientes principais: ManiSkill (manipulação robótica com distrações visuais) e Meta-World (transferência de tarefas).

Robustez a Mudanças de Distribuição (RQ1 - ManiSkill)

Cenário: Tarefas onde o tamanho do objeto (causal) estava perfeitamente correlacionado com a cor (distrator) durante o treinamento. No teste, as cores foram invertidas.
Resultados:
- Modelos base (BT-Multi, RFP) sofreram quedas drásticas na precisão da recompensa no conjunto de dados fora da distribuição (OOD), chegando a ~54% de precisão em alguns casos.
- ReCouPLe-EC atingiu a melhor precisão OOD (até 0.940 em tarefas de "Place" e 0.820 em "Pick"), superando os baselines em até 1.5x.
- Em aprendizado de políticas downstream, os agentes treinados com recompensas do ReCouPLe tiveram taxas de sucesso significativamente maiores em ambientes OOD.

Transferência de Tarefa (RQ2 - Meta-World)

Cenário: Treinamento em tarefas como "Push" e "Pick-Place-Wall" e teste em uma tarefa nova ("Pick-Place") sem consultas de preferência adicionais.
Resultados:
- O ReCouPLe superou os baselines na precisão de recompensa na tarefa nova (ex: 0.663 vs 0.547 do BT-Multi).
- As políticas derivadas das recompensas do ReCouPLe mostraram melhor desempenho na tarefa não vista, provando que o modelo aprendeu a estrutura causal subjacente em vez de apenas memorizar características específicas da tarefa.

Análise Adicional

Diversidade Linguística: O modelo manteve a robustez mesmo quando as razões foram parafraseadas (sinônimos, voz passiva), indicando que aprendeu semântica e não apenas padrões de texto.
Eficiência de Rótulos: O modelo funcionou bem mesmo quando apenas 25% das preferências tinham razões associadas, demonstrando que o sinal causal se propaga através do codificador compartilhado.

5. Significado e Conclusão

O ReCouPLe representa um avanço significativo na robustez do aprendizado de recompensas. Ao utilizar linguagem natural não apenas como instrução, mas como um guia causal explícito, o método resolve o problema fundamental de "Causal Goodhart", onde otimizar uma recompensa proxy leva ao colapso do desempenho real.

A principal contribuição é a capacidade de desacoplar a intenção do usuário (a razão) das características espúrias do ambiente. Isso permite que agentes robóticos generalizem para cenários do mundo real onde as correlações superficiais mudam, tornando o PbRL mais viável para aplicações críticas e complexas. O código e os dados foram disponibilizados publicamente para reprodutibilidade.