Build, Judge, Optimize: A Blueprint for Continuous Improvement of Multi-Agent Consumer Assistants

Each language version is independently generated for its own context, not a direct translation.

Imagine que você tem um ajudante de compras virtual muito inteligente, capaz de conversar com você, entender o que você quer e ir ao supermercado digital para pegar os itens. O problema é que, quando você tenta colocar esse ajudante para trabalhar de verdade (com milhares de pessoas e pedidos complexos), ele começa a cometer erros estranhos: esquece o que você pediu há 5 minutos, compra o dobro do necessário ou sugere marcas que você odeia.

Este artigo é como um manual de instruções para transformar esse ajudante "promissor" em um assistente de elite. Os autores (do DoorDash e da WithMetis) contam como eles construíram, julgaram e melhoraram esse sistema.

Aqui está a história deles, explicada de forma simples:

1. O Problema: O "Caos" da Compra de Compras

Fazer compras de supermercado é difícil para um robô. Você não diz apenas "compre leite". Você diz: "Quero o que costumo comprar, mas com menos de 25 dólares, e se não tiver a marca X, pegue a Y, e não esqueça o vinho para combinar com o queijo".

No começo, eles tinham um único robô gigante tentando fazer tudo. Era como pedir para uma única pessoa ser o gerente, o caixa, o motorista e o cozinheiro ao mesmo tempo. O resultado? O sistema ficava confuso, esquecia detalhes e o erro de um passo estragava todo o resto.

A Solução: Eles quebraram esse robô gigante em uma equipe de especialistas (um sistema multi-agente).

Um chefe (Orquestrador) que entende o pedido.
Um especialista em busca que encontra os produtos.
Um especialista em carrinho que organiza o que foi comprado.
Um especialista em segurança que garante que nada proibido seja vendido.

2. O Juiz: O "Mestre de Cerimônias" Rigoroso

Como saber se a equipe está fazendo um bom trabalho? Não basta olhar se o carrinho foi cheio. É preciso ver como foi feito.

Eles criaram um sistema de avaliação (Rubrica) que funciona como uma lista de verificação de um inspetor de qualidade. Em vez de dizer "foi legal" ou "foi ruim", o sistema verifica fatos concretos:

O leite foi comprado? (Sim/Não)
O preço estava dentro do orçamento? (Sim/Não)
O robô inventou um produto que não existe? (Sim/Não)

Para fazer essa avaliação rápido e barato, eles usaram uma Inteligência Artificial como Juiz. Mas, para garantir que o Juiz IA não estivesse "alucinando" ou sendo injusto, eles o treinaram com a ajuda de humanos reais. Foi como treinar um juiz de futebol para que ele apite exatamente como os humanos esperam. Depois do treino, o juiz IA concordou com os humanos em 91,4% dos casos.

3. A Treinamento: Duas Estratégias de Melhoria

Agora que eles tinham um juiz confiável, precisavam melhorar a equipe. Eles testaram duas abordagens:

Estratégia A: Treinar Cada Jogador Separadamente (Sub-agent GEPA)

Imagine um treinador de futebol que pega cada jogador e diz: "Você, o goleiro, treine apenas para pular mais alto. Você, o atacante, treine apenas para chutar forte".

O que aconteceu: Os jogadores individuais ficaram ótimos em suas tarefas específicas. O buscador achou produtos melhores; o organizador organizou melhor.
O problema: A equipe ainda não jogava bem juntos. O goleiro pulou alto, mas o atacante chutou para o lado errado. O sistema ainda tinha falhas de coordenação.

Estratégia B: Treinar a Equipe Inteira Juntos (MAMUT GEPA)

Aqui, o treinador olhou para o jogo inteiro. Ele disse: "Vamos simular 100 partidas. Se o goleiro falar muito, o atacante não ouve o comando. Se o atacante for muito rápido, o goleiro não se prepara".

O que aconteceu: Eles ajustaram a forma como os robôs conversam entre si. O "chefe" aprendeu a dar instruções mais claras para que o "buscador" não perdesse tempo. O "buscador" aprendeu a ser mais breve para não sobrecarregar o "chefe".
O Resultado: A equipe inteira melhorou drasticamente. Eles reduziram erros de segurança, melhoraram a personalização (lembrar do que você gosta) e tornaram a conversa muito mais natural.

4. O Grande Segredo: O Simulador de Clientes

Para treinar essa equipe sem esperar que clientes reais fizessem pedidos, eles criaram um simulador.
É como um ator de teatro que finge ser um cliente chato, um cliente apressado ou um cliente confuso.

Se o robô faz algo que o cliente real faria, o simulador usa a resposta real do cliente passado.
Se o robô faz algo novo, o simulador (que é outra IA) inventa uma resposta que faria sentido para aquele tipo de cliente.

Isso permitiu que eles testassem milhares de cenários em minutos, encontrando falhas que só apareceriam após horas de conversa real.

Conclusão: O Que Aprendemos?

A lição principal do artigo é simples: Melhorar as partes individuais não garante que o todo funcione bem.

Numa equipe complexa (como um assistente de compras), o segredo não é apenas ter os melhores especialistas, mas sim ter uma conexão perfeita entre eles. Para conseguir isso, você precisa de:

Um juiz rigoroso que sabe exatamente o que é um sucesso.
Um treinador inteligente que olha para o jogo inteiro, não apenas para os jogadores isolados.

Com essa "receita de bolo" (Blueprint), eles transformaram um protótipo frágil em um assistente de compras robusto, pronto para o mundo real, onde cada detalhe (como não esquecer o leite ou não gastar demais) faz a diferença entre um cliente feliz e um cliente frustrado.

Each language version is independently generated for its own context, not a direct translation.

Resumo Técnico: Um Blueprint para a Melhoria Contínua de Assistentes de Consumo Multi-Agente

1. O Problema

Os assistentes de compras conversacionais (CSAs) representam uma aplicação promissora de IA agêntica, transformando o comércio eletrônico de buscas baseadas em palavras-chave para experiências colaborativas orientadas por diálogo. No entanto, a transição de protótipos para produção enfrenta dois desafios fundamentais não explorados:

Avaliação de Interações Multi-turno: Métricas tradicionais de recuperação e classificação são insuficientes. A qualidade em CSAs é multidimensional e depende de trajetórias de interação longas, onde erros iniciais podem se propagar silenciosamente.
Otimização de Sistemas Acoplados: Em arquiteturas multi-agente, melhorar um sub-agente isoladamente não garante melhores resultados de ponta a ponta devido a efeitos atrasados e acoplamento estrito entre componentes.
Complexidade do Domínio: A compra de mantimentos amplifica essas dificuldades devido a solicitações mal especificadas (ex: "meus habituais"), restrições de orçamento, inventário em tempo real e preferências altamente sensíveis.

2. Metodologia

O artigo apresenta o MAGIC (Multi-Agent Grocery Intelligent Concierge), um assistente de compras de escala de produção, e propõe um blueprint baseado em três pilares:

A. Arquitetura Multi-Agente
O sistema evoluiu de um agente monolítico para uma arquitetura modular:

Orquestrador: Decompõe a intenção do usuário e coordena sub-agentes.
Sub-agentes: Interagem com APIs programáticas e modelos ML para executar operações (ex: busca, seleção de itens, ajuste de quantidade).
Desafio: Embora modular, essa arquitetura introduz acoplamento onde erros podem surgir apenas após múltiplos turnos, dificultando a atribuição de crédito.

B. Avaliação e Calibração (JUDGE)
Para avaliar a qualidade, os autores desenvolveram uma rubrica estruturada com quatro domínios ortogonais:

Execução de Compras (50% do peso): Completude do carrinho, adequação da loja, quantidades.
Personalização e Contexto (20%): Preferências dietéticas, marcas, retenção de contexto.
Qualidade Conversacional (10%): Clareza, fluxo, tom de marca.
Segurança e Conformidade (20%): Conteúdo seguro e alinhado à política.

LLM-as-a-Judge: Implementaram um pipeline onde um LLM avalia traços de interação completos.
Avaliação Booleana: Em vez de notas ordinais vagas, o juiz verifica critérios condicionais baseados em evidências observáveis (ex: "o item foi realmente adicionado ao carrinho?"), gerando vetores booleanos determinísticos.
Calibração: Utilizaram o otimizador de prompts GEPA para alinhar o juiz de LLM com anotações humanas, elevando a concordância de 84,1% para 91,4%.

C. Estratégias de Otimização (OPTIMIZE)
Otimização em nível de prompt (sem retreinar modelos base) foi explorada através de duas estratégias:

Sub-agent GEPA: Otimiza cada nó (sub-agente) independentemente contra micro-rubricas locais. Trata o problema como de um único turno, ignorando a coordenação global.
MAMUT GEPA (Multi-Agent Multi-Turn): Uma abordagem de nível de sistema que otimiza conjuntamente o pacote de prompts de todos os agentes.
- Simulação Híbrida: Utiliza um simulador de usuário que reutiliza respostas reais do usuário quando a ação do agente é semanticamente equivalente e gera respostas sintéticas (via User Persona Agent) quando há divergência.
- Objetivo: Maximizar a pontuação agregada da rubrica em toda a trajetória, permitindo compensações entre agentes (ex: tornar o Orquestrador mais conciso para liberar "orçamento" de contexto para o Agente de Busca).

3. Contribuições Principais

Blueprint de Produção: Um guia prático para construir e avaliar CSAs em escala industrial, focado no domínio complexo de compras de mantimentos.
Rubrica de Avaliação Multi-Dimensional: Um framework que descompõe a qualidade em domínios verificáveis, permitindo avaliação determinística e escalável.
Pipeline de Calibração de Juiz: Demonstração de como otimizar prompts de avaliação (GEPA) para alinhar LLMs com humanos, criando um sinal de recompensa confiável.
MAMUT GEPA: Uma nova abordagem de otimização de prompts que supera métodos locais ao tratar o sistema multi-agente como um todo, resolvendo falhas de coordenação que otimizações locais ignoram.
Recursos Abertos: Disponibilização de templates de rubrica e orientações de design para a comunidade.

4. Resultados

Os experimentos foram conduzidos em um conjunto de teste de 238 trajetórias:

Calibração do Juiz: A concordância entre o juiz de LLM e humanos aumentou significativamente, especialmente em domínios complexos como Personalização (+13,2%) e Execução de Compras (+5,1%).
Comparação de Otimização (Sub-agent vs. MAMUT):
- Sub-agent GEPA: Resolveu falhas atômicas locais (erros de execução), mas falhou em melhorar a coordenação global.
- MAMUT GEPA: Superou consistentemente a abordagem local em todos os domínios:
  - Execução de Compras: +6,0% (79,0% $\to$ 85,0%).
  - Personalização: +6,8% (80,2% $\to$ 87,0%).
  - Qualidade Conversacional: +8,0% (64,0% $\to$ 72,0%).
  - Segurança e Conformidade: +12,0% (76,0% $\to$ 88,0%).
Conclusão dos Resultados: A otimização de nível de sistema (MAMUT) foi crucial para reduzir alucinações e manter políticas de interação, especialmente em domínios onde o comportamento de um agente afeta diretamente o sucesso do outro (ex: o Orquestrador passar corretamente preferências para o Agente de Busca).

5. Significado e Impacto

Este trabalho estabelece que, em sistemas multi-agente complexos e acoplados, a otimização local é insuficiente. A chave para o sucesso em produção é uma abordagem de avaliação primeiro (evaluation-first):

Definir rubricas verificáveis e calibradas com humanos.
Utilizar esses sinais de recompensa para otimizar o sistema globalmente (via MAMUT), e não apenas componentes isolados.

O estudo valida que a melhoria contínua de assistentes de consumo em domínios de alta ambiguidade requer uma visão holística das trajetórias de interação, oferecendo um modelo replicável para o desenvolvimento de sistemas agênticos robustos no varejo e além.