Build, Judge, Optimize: A Blueprint for Continuous Improvement of Multi-Agent Consumer Assistants

Este artigo apresenta um blueprint prático para avaliar e otimizar assistentes de compras conversacionais em produção, introduzindo uma rubrica de avaliação multidimensional e duas estratégias de otimização de prompts baseadas no GEPA — Sub-agent GEPA e MAMuT GEPA — para aprimorar sistemas multi-agente complexos.

Alejandro Breen Herrera, Aayush Sheth, Steven G. Xu, Zhucheng Zhan, Charles Wright, Marcus Yearwood, Hongtai Wei, Sudeep Das

Publicado 2026-03-05
📖 5 min de leitura🧠 Leitura aprofundada

Each language version is independently generated for its own context, not a direct translation.

Imagine que você tem um ajudante de compras virtual muito inteligente, capaz de conversar com você, entender o que você quer e ir ao supermercado digital para pegar os itens. O problema é que, quando você tenta colocar esse ajudante para trabalhar de verdade (com milhares de pessoas e pedidos complexos), ele começa a cometer erros estranhos: esquece o que você pediu há 5 minutos, compra o dobro do necessário ou sugere marcas que você odeia.

Este artigo é como um manual de instruções para transformar esse ajudante "promissor" em um assistente de elite. Os autores (do DoorDash e da WithMetis) contam como eles construíram, julgaram e melhoraram esse sistema.

Aqui está a história deles, explicada de forma simples:

1. O Problema: O "Caos" da Compra de Compras

Fazer compras de supermercado é difícil para um robô. Você não diz apenas "compre leite". Você diz: "Quero o que costumo comprar, mas com menos de 25 dólares, e se não tiver a marca X, pegue a Y, e não esqueça o vinho para combinar com o queijo".

No começo, eles tinham um único robô gigante tentando fazer tudo. Era como pedir para uma única pessoa ser o gerente, o caixa, o motorista e o cozinheiro ao mesmo tempo. O resultado? O sistema ficava confuso, esquecia detalhes e o erro de um passo estragava todo o resto.

A Solução: Eles quebraram esse robô gigante em uma equipe de especialistas (um sistema multi-agente).

  • Um chefe (Orquestrador) que entende o pedido.
  • Um especialista em busca que encontra os produtos.
  • Um especialista em carrinho que organiza o que foi comprado.
  • Um especialista em segurança que garante que nada proibido seja vendido.

2. O Juiz: O "Mestre de Cerimônias" Rigoroso

Como saber se a equipe está fazendo um bom trabalho? Não basta olhar se o carrinho foi cheio. É preciso ver como foi feito.

Eles criaram um sistema de avaliação (Rubrica) que funciona como uma lista de verificação de um inspetor de qualidade. Em vez de dizer "foi legal" ou "foi ruim", o sistema verifica fatos concretos:

  • O leite foi comprado? (Sim/Não)
  • O preço estava dentro do orçamento? (Sim/Não)
  • O robô inventou um produto que não existe? (Sim/Não)

Para fazer essa avaliação rápido e barato, eles usaram uma Inteligência Artificial como Juiz. Mas, para garantir que o Juiz IA não estivesse "alucinando" ou sendo injusto, eles o treinaram com a ajuda de humanos reais. Foi como treinar um juiz de futebol para que ele apite exatamente como os humanos esperam. Depois do treino, o juiz IA concordou com os humanos em 91,4% dos casos.

3. A Treinamento: Duas Estratégias de Melhoria

Agora que eles tinham um juiz confiável, precisavam melhorar a equipe. Eles testaram duas abordagens:

Estratégia A: Treinar Cada Jogador Separadamente (Sub-agent GEPA)

Imagine um treinador de futebol que pega cada jogador e diz: "Você, o goleiro, treine apenas para pular mais alto. Você, o atacante, treine apenas para chutar forte".

  • O que aconteceu: Os jogadores individuais ficaram ótimos em suas tarefas específicas. O buscador achou produtos melhores; o organizador organizou melhor.
  • O problema: A equipe ainda não jogava bem juntos. O goleiro pulou alto, mas o atacante chutou para o lado errado. O sistema ainda tinha falhas de coordenação.

Estratégia B: Treinar a Equipe Inteira Juntos (MAMUT GEPA)

Aqui, o treinador olhou para o jogo inteiro. Ele disse: "Vamos simular 100 partidas. Se o goleiro falar muito, o atacante não ouve o comando. Se o atacante for muito rápido, o goleiro não se prepara".

  • O que aconteceu: Eles ajustaram a forma como os robôs conversam entre si. O "chefe" aprendeu a dar instruções mais claras para que o "buscador" não perdesse tempo. O "buscador" aprendeu a ser mais breve para não sobrecarregar o "chefe".
  • O Resultado: A equipe inteira melhorou drasticamente. Eles reduziram erros de segurança, melhoraram a personalização (lembrar do que você gosta) e tornaram a conversa muito mais natural.

4. O Grande Segredo: O Simulador de Clientes

Para treinar essa equipe sem esperar que clientes reais fizessem pedidos, eles criaram um simulador.
É como um ator de teatro que finge ser um cliente chato, um cliente apressado ou um cliente confuso.

  • Se o robô faz algo que o cliente real faria, o simulador usa a resposta real do cliente passado.
  • Se o robô faz algo novo, o simulador (que é outra IA) inventa uma resposta que faria sentido para aquele tipo de cliente.

Isso permitiu que eles testassem milhares de cenários em minutos, encontrando falhas que só apareceriam após horas de conversa real.

Conclusão: O Que Aprendemos?

A lição principal do artigo é simples: Melhorar as partes individuais não garante que o todo funcione bem.

Numa equipe complexa (como um assistente de compras), o segredo não é apenas ter os melhores especialistas, mas sim ter uma conexão perfeita entre eles. Para conseguir isso, você precisa de:

  1. Um juiz rigoroso que sabe exatamente o que é um sucesso.
  2. Um treinador inteligente que olha para o jogo inteiro, não apenas para os jogadores isolados.

Com essa "receita de bolo" (Blueprint), eles transformaram um protótipo frágil em um assistente de compras robusto, pronto para o mundo real, onde cada detalhe (como não esquecer o leite ou não gastar demais) faz a diferença entre um cliente feliz e um cliente frustrado.