GEM: A Gym for Agentic LLMs

O artigo apresenta o GEM (General Experience Maker), um simulador de ambiente de código aberto e padronizado projetado para facilitar o aprendizado baseado em experiência de agentes de LLMs, oferecendo uma infraestrutura escalável, uma suíte diversificada de ambientes, ferramentas integradas e benchmarks abrangentes para acelerar a pesquisa em LLMs agênticos.

Zichen Liu, Anya Sims, Keyu Duan, Changyu Chen, Simon Yu, Xiangxin Zhou, Haotian Xu, Shaopan Xiong, Bo Liu, Chenmien Tan, Chuen Yang Beh, Weixun Wang, Hao Zhu, Weiyan Shi, Diyi Yang, Michael Shieh, Yee Whye Teh, Wee Sun Lee, Min Lin

Publicado 2026-03-03
📖 4 min de leitura☕ Leitura rápida

Each language version is independently generated for its own context, not a direct translation.

Imagine que você quer ensinar um robô superinteligente (uma Inteligência Artificial) a resolver problemas complexos, como escrever um software do zero, jogar xadrez contra um mestre ou planejar uma viagem inteira.

Antigamente, ensinávamos esses robôs apenas com livros estáticos: mostrávamos milhares de perguntas e respostas prontas. Mas o mundo real não é um livro; é um jogo dinâmico onde você precisa tentar, errar, ajustar e tentar de novo.

Este artigo apresenta o GEM (General Experience Maker), que é basicamente um "Parquinho de Treinamento" (ou um "Ginásio") para essas IAs.

Aqui está a explicação simplificada, usando analogias do dia a dia:

1. O Problema: O "Ginásio" Antigamente Era Ruim

Antes do GEM, se um pesquisador quisesse treinar uma IA para jogar um jogo de 50 rodadas ou usar ferramentas (como um buscador na internet), eles tinham que construir o "tabuleiro" do zero, toda vez. Era como se cada professor de educação física tivesse que construir sua própria quadra de basquete, com suas próprias regras e cestas, antes de poder ensinar qualquer aluno. Isso tornava difícil comparar quem era o melhor treinador ou qual IA era a mais inteligente.

Além disso, muitos métodos de treino funcionavam bem apenas para perguntas de "uma única linha" (como um teste de matemática rápido), mas falhavam miseravelmente em tarefas longas e complexas que exigem planejamento.

2. A Solução: O GEM é o "OpenAI Gym" das IAs

Assim como o OpenAI Gym ajudou a revolucionar o treinamento de robôs físicos no passado, o GEM faz o mesmo para IAs de texto (LLMs).

  • É um Kit de Ferramentas Padronizado: O GEM oferece um conjunto de "jogos" e tarefas prontas (como Sudoku, adivinhar números, resolver equações matemáticas, escrever código ou responder perguntas complexas usando a internet).
  • Conexão Fácil: Ele permite que qualquer IA se conecte a esses jogos de forma padronizada. É como ter um encaixe universal: você pode pegar qualquer "motor" de IA e conectá-lo a qualquer "jogo" sem precisar de adaptadores complexos.
  • Multitarefa: O GEM suporta tarefas longas (onde a IA precisa conversar por 50 vezes para resolver um problema) e o uso de ferramentas (como pedir para a IA usar uma calculadora ou pesquisar no Google durante o jogo).

3. O Segredo do Treino: A "Fórmula Mágica" (ReBN)

O papel não só apresenta o parquinho, mas também um novo método de treino chamado ReBN (Normalização de Retorno em Lote).

  • A Analogia do Treinador: Imagine um treinador de futebol.
    • Alguns métodos antigos (como o GRPO) olhavam apenas para o resultado final do jogo (vitória ou derrota) e diziam: "Bom trabalho, time!" ou "Tente de novo". Isso é ótimo para jogos rápidos, mas ruim para jogos longos, porque não diz qual jogada específica foi boa ou ruim.
    • O GEM com ReBN funciona como um treinador que analisa cada lance. Ele diz: "Essa passada foi ótima, mas aquela passada foi ruim". Ele normaliza os pontos de forma que a IA aprenda a dar o melhor passo a passo, não apenas a esperar pelo final.
    • Resultado: A IA aprende mais rápido, com menos dados e consegue resolver problemas que exigem planejamento de longo prazo (como encontrar a melhor estratégia em um jogo de adivinhação).

4. O Que Eles Descobriram?

Os autores testaram várias IAs (como a Qwen) dentro desse novo "Ginásio" e descobriram coisas importantes:

  • O "Desconto" Importa: Eles mostraram que, se você ensinar a IA a valorizar o "agora" (ser mais curto e direto), ela aprende a resolver problemas mais rápido. Se você a ensina a ser muito paciente demais, ela perde tempo. O GEM permite ajustar esse "botão de paciência" facilmente.
  • Ferramentas são Poderosas: Quando deram acesso a ferramentas (como Python para calcular ou Google para pesquisar), as IAs ficaram muito mais inteligentes em matemática e perguntas gerais.
  • Funciona com Tudo: O GEM se conecta facilmente com 5 grandes frameworks de treinamento diferentes. É como se o GEM fosse um adaptador de tomada que funciona em qualquer tomada do mundo.

5. Por que isso é importante para o futuro?

O GEM não é apenas para treinar IAs; ele também serve para testá-las.

Imagine que você quer saber se uma IA nova (como a GPT-5 ou a Claude) é realmente boa em usar ferramentas reais (como acessar um banco de dados ou usar o terminal do computador). O GEM oferece um campo de provas padronizado, onde você pode colocar diferentes IAs para competir nas mesmas tarefas e ver quem ganha de verdade, sem truques.

Resumo da Ópera:
O GEM é a infraestrutura que faltava para transformar IAs de "leitores de livros" em "agentes ativos" que podem explorar, errar, aprender com ferramentas e resolver problemas complexos do mundo real, tudo isso em um ambiente padronizado que acelera a pesquisa para todos.

Receba artigos como este na sua caixa de entrada

Digests diários ou semanais personalizados de acordo com seus interesses. Gists ou resumos técnicos, no seu idioma.

Experimentar Digest →