ARM-FM: Automated Reward Machines via Foundation Models for Compositional Reinforcement Learning

O artigo apresenta o ARM-FM, um framework que utiliza modelos de fundação para gerar automaticamente máquinas de recompensa a partir de especificações em linguagem natural, permitindo o design composicional de recompensas e a generalização zero-shot em aprendizado por reforço.

Roger Creus Castanyer, Faisal Mohamed, Pablo Samuel Castro, Cyrus Neary, Glen Berseth

Publicado 2026-03-10
📖 4 min de leitura☕ Leitura rápida

Each language version is independently generated for its own context, not a direct translation.

Imagine que você está tentando ensinar um robô a cozinhar um jantar complexo, como um bolo de chocolate.

O Problema:
Se você apenas disser ao robô: "Faça um bolo" e der um ponto de recompensa apenas quando o bolo estiver pronto e perfeito, o robô vai ficar perdido. Ele vai tentar coisas aleatórias, queimar a farinha, derrubar ovos e nunca entender por que está falhando. Isso é o que acontece na Inteligência Artificial quando usamos recompensas muito raras (chamadas de "recompensas esparsas"). O robô não tem feedback suficiente para aprender.

A Solução Antiga (e chata):
Antes, os cientistas tinham que escrever manualmente um guia passo a passo para o robô: "Primeiro, pegue a farinha. Se pegar, ganhe 1 ponto. Agora, pegue os ovos. Se pegar, ganhe 2 pontos..." Isso é como escrever um manual de instruções gigante e tedioso para cada tarefa nova. Se o robô precisa fazer algo diferente, você tem que reescrever tudo.

A Nova Ideia (ARM-FM):
Os autores deste paper criaram uma ferramenta chamada ARM-FM. Pense nela como um Arquiteto de Missões Automático que usa a inteligência de modelos de linguagem gigantes (como o GPT-4, mas muito focado em raciocínio lógico).

Aqui está como funciona, usando analogias do dia a dia:

1. O Tradutor Mágico (O Modelo de Fundação)

Em vez de você escrever o manual, você apenas conversa com o robô em linguagem natural: "Preciso que você pegue a chave amarela, abra a porta azul e depois pegue a caixa vermelha."

O ARM-FM pega essa frase simples e a transforma automaticamente em um Mapa de Tesouro (chamado de "Máquina de Recompensas").

  • Antes: O robô só sabia que o "Tesouro" (a recompensa final) existia, mas não sabia onde estava.
  • Agora: O robô recebe um mapa com marcos claros: "Ponto de Check-in 1: Pegou a chave amarela (+1 ponto). Ponto de Check-in 2: Porta aberta (+1 ponto). Ponto de Check-in 3: Caixa pega (+1 ponto)."

Isso transforma uma tarefa impossível em uma série de pequenas vitórias fáceis de alcançar.

2. O GPS de Voz (Embeddings de Linguagem)

A parte mais genial é como o robô "lê" esse mapa.
Imagine que cada etapa do mapa tem um etiqueta de voz.

  • Quando o robô está na etapa "Pegar a chave amarela", ele ouve mentalmente: "Ok, agora preciso pegar a chave amarela".
  • Se a tarefa mudar para "Pegar a chave vermelha", o robô ouve: "Ok, agora preciso pegar a chave vermelha".

Como o robô entende que "chave amarela" e "chave vermelha" são coisas muito parecidas (ambas são chaves), ele usa o que aprendeu com a amarela para aprender a pegar a vermelha muito mais rápido. É como se ele tivesse um GPS de voz que entende o contexto e adapta a rota sem precisar de um novo manual inteiro.

3. O Treinamento (A Prática)

O robô começa a treinar.

  • Ele tenta pegar a chave. Se conseguir, o "Mapa" avança para o próximo passo e ele ganha pontos.
  • Se ele soltar a chave, o "Mapa" avisa: "Ops, você perdeu o progresso" e ele perde pontos.
  • Isso acontece em frações de segundo, milhares de vezes, até que o robô se torna um mestre em completar a tarefa.

Por que isso é incrível?

O paper mostrou que esse sistema funciona em lugares muito difíceis:

  • Mundos 2D (MiniGrid): Como labirintos simples.
  • Mundos 3D (Minecraft): Onde o robô precisa minerar madeira, pedra e ferro antes de conseguir um diamante. Sem o mapa, o robô ficaria preso minerando pedras para sempre. Com o mapa, ele sabe a ordem exata.
  • Robótica Real: Braços robóticos que precisam pegar objetos e colocá-los em lugares específicos.

O Resultado Final

O ARM-FM é como ter um instrutor de pilotagem que:

  1. Escuta o que você quer fazer em português.
  2. Cria instantaneamente um plano de voo detalhado com checkpoints.
  3. Ensina o piloto (o robô) a usar o que já sabe para voar em novas rotas, sem precisar reiniciar o treinamento do zero.

Isso permite que robôs aprendam tarefas complexas e longas que antes eram impossíveis, transformando a "fala humana" em "ação inteligente" de forma automática e eficiente.