Reinforcement Learning with Symbolic Reward Machines

Este artigo propõe as Máquinas de Recompensa Simbólicas (SRMs) e seus algoritmos de aprendizado associados, QSRM e LSRM, para superar as limitações de entrada manual das Máquinas de Recompensa tradicionais, permitindo o processamento direto de observações do ambiente através de fórmulas simbólicas enquanto mantém o desempenho superior e a interpretabilidade.

Thomas Krug, Daniel Neider

Publicado 2026-03-04
📖 4 min de leitura☕ Leitura rápida

Each language version is independently generated for its own context, not a direct translation.

Imagine que você está ensinando um robô a fazer um bolo. No mundo tradicional de Inteligência Artificial (Reinforcement Learning), o robô só recebe um "bom trabalho" ou "tente de novo" no final, ou talvez quando queima o bolo. Ele não sabe por que o bolo queimou, nem que precisou bater os ovos antes de colocar na forma. É como tentar adivinhar a receita inteira apenas pelo gosto final.

Para tarefas complexas que exigem uma ordem específica (primeiro coletar madeira, depois colocar na máquina), os cientistas criaram uma ferramenta chamada Reward Machines (Máquinas de Recompensa). Pense nelas como um "manual de instruções" que o robô segue. Mas há um problema: para usar esse manual, você precisa ter um "tradutor" humano que olhe para cada situação e diga ao robô: "Atenção, agora você está na fase de coletar madeira!". Isso é chato, trabalhoso e exige que você reescreva o manual para cada novo ambiente.

É aqui que entra o trabalho de Thomas Krug e Daniel Neider com suas Symbolic Reward Machines (SRMs) - Máquinas de Recompensa Simbólicas.

A Grande Ideia: O Detetive que Lê o Ambiente

Em vez de depender de um tradutor humano para dar etiquetas (como "coletando madeira"), as novas Máquinas Simbólicas são como detetives inteligentes que olham diretamente para o ambiente e entendem a lógica sozinhas.

  • O Antigo (RM): Você precisa dizer ao robô: "Se o robô estiver no quadrado X, acenda a luz verde". Você tem que programar essa luz para cada quadrado.
  • O Novo (SRM): Você diz ao robô: "Se o robô estiver em uma coordenada onde X é maior que 5 e Y é menor que 10, então acenda a luz verde". O robô olha para os números (o estado do ambiente) e aplica a fórmula mágica. Ele não precisa de um tradutor humano; ele lê a matemática do mundo diretamente.

Como eles aprendem? (QSRM e LSRM)

Os autores criaram dois métodos para ensinar esses robôs:

  1. QSRM (O Aluno com o Manual):
    Imagine que você dá o manual de instruções (a Máquina Simbólica) pronto para o robô. O robô usa esse manual para aprender muito mais rápido do que tentaria sozinho. Ele sabe exatamente qual é o próximo passo lógico. O resultado é que ele aprende a tarefa perfeitamente, assim como os métodos antigos, mas sem precisar daquele "tradutor" chato. Ele se adapta a qualquer ambiente padrão que você já tenha.

  2. LSRM (O Mestre que Escreve o Próprio Manual):
    Este é o truque de mágica. E se você não tiver o manual? E se não souber quais são as regras?
    O método LSRM faz o robô aprender a tarefa e descobrir as regras do jogo ao mesmo tempo.

    • O robô tenta fazer a tarefa.
    • Se ele erra (recebe uma recompensa diferente do que esperava), ele diz: "Ei, minha teoria sobre como o mundo funciona está errada!".
    • Ele então reescreve o manual (a Máquina Simbólica) para corrigir o erro.
    • Ele repete isso até que o manual esteja perfeito e ele consiga fazer a tarefa com sucesso.

É como se um aluno de culinária, ao tentar fazer um bolo, percebesse que a receita estava errada, riscasse o papel, escrevesse uma nova receita baseada no que aprendeu, e tentasse de novo até o bolo ficar perfeito. No final, ele não só sabe fazer o bolo, mas também te entrega a receita correta escrita por ele mesmo!

Por que isso é incrível?

  • Funciona em qualquer lugar: Você pode usar isso nos jogos e ambientes padrão que já existem (como os do Gymnasium), sem precisar reprogramar o ambiente para adicionar "etiquetas" especiais.
  • É transparente: Como o robô usa fórmulas matemáticas (como "X > 5"), quando ele aprende, você pode olhar para o manual que ele criou e entender exatamente o que ele aprendeu. Você vê a lógica: "Ah, ele aprendeu que precisa ir para a esquerda antes de ir para a direita".
  • Aprendizado de ponta a ponta: O robô começa do zero, sem saber as regras, e termina sabendo tanto a tarefa quanto a lógica por trás dela.

Resumo da Ópera

Os autores criaram uma forma de ensinar robôs a fazer tarefas complexas e sequenciais sem precisar de um humano para programar regras específicas para cada situação. Eles criaram robôs que olham para os números do mundo, entendem as regras lógicas por si mesmos e, se necessário, descobrem essas regras enquanto aprendem a tarefa. É como dar ao robô a capacidade de ler o manual de instruções do universo e, se o manual não existir, escrever o seu próprio enquanto joga.

Receba artigos como este na sua caixa de entrada

Digests diários ou semanais personalizados de acordo com seus interesses. Gists ou resumos técnicos, no seu idioma.

Experimentar Digest →