Build, Judge, Optimize: A Blueprint for Continuous Improvement of Multi-Agent Consumer Assistants

Este artículo presenta un marco práctico para evaluar y optimizar asistentes de compras conversacionales multiagente en producción, introduciendo una rúbrica de evaluación multidimensional y dos estrategias de optimización de prompts (Sub-agent GEPA y MAMuT GEPA) validadas mediante un asistente de compras de alimentos a escala industrial.

Alejandro Breen Herrera, Aayush Sheth, Steven G. Xu, Zhucheng Zhan, Charles Wright, Marcus Yearwood, Hongtai Wei, Sudeep Das

Publicado 2026-03-05
📖 5 min de lectura🧠 Análisis profundo

Each language version is independently generated for its own context, not a direct translation.

¡Hola! Imagina que has creado un superayudante de compras para un supermercado gigante. No es un simple buscador donde escribes "leche" y te da una lista; es un asistente inteligente que puede conversar contigo, entender que quieres "algo barato pero rico para la cena" y que recuerda que no te gusta el queso azul.

El problema es que, cuando este asistente pasa de ser un prototipo en un laboratorio a funcionar en la vida real (con miles de usuarios), se vuelve un caos. Las cosas se complican: el usuario cambia de opinión, el presupuesto se ajusta y el inventario del supermercado varía.

Este paper es como un manual de instrucciones (un "plano azul") para arreglar y mejorar a este asistente. Aquí te explico cómo lo hacen, usando una analogía sencilla:

1. El Problema: El Equipo de Fútbol Desordenado

Imagina que tu asistente de compras no es una sola persona, sino un equipo de fútbol.

  • Hay un Capitán (el agente principal) que recibe la orden del entrenador (el usuario).
  • Hay Delanteros (agentes de búsqueda) que buscan los productos.
  • Hay Defensas (agentes de seguridad) que aseguran que no se compren cosas prohibidas.
  • Hay un Mánager (agente de personalización) que recuerda que al usuario le gusta la marca X.

En el pasado, si el delantero fallaba, el capitán no sabía por qué. Si el mánager olvidaba un dato, el delantero compraba lo incorrecto. Mejorar a un solo jugador no ayudaba al equipo entero a ganar. Necesitaban una forma de ver el partido completo, no solo un jugada.

2. El Árbitro Inteligente (La Evaluación)

Para mejorar al equipo, primero necesitas saber si están jugando bien. Pero juzgar una conversación es subjetivo ("¿Fue amable?", "¿Compró lo correcto?").

Los autores crearon un Árbitro Robot (un modelo de lenguaje o IA) que actúa como un juez estricto pero justo.

  • La Regla de Oro: En lugar de decir "me pareció un 7 de 10", el árbitro revisa la "grabación del partido" (el historial de chat) y marca casillas de SÍ/NO.
    • ¿Compró el usuario lo que pidió? SÍ/NO.
    • ¿Respetó el presupuesto? SÍ/NO.
    • ¿Fue educado? SÍ/NO.
  • Calibración: Al principio, el árbitro robot no estaba muy de acuerdo con los humanos. Así que lo "entrenaron" (usando una técnica llamada GEPA) para que pensara casi igual que un humano experto. Ahora, si un humano dice "esto es un error", el robot también lo marca como error el 91% de las veces.

3. Las Dos Estrategias de Mejora (El Entrenamiento)

Una vez que tienen al árbitro, necesitan mejorar al equipo. Probaron dos métodos:

Método A: Entrenar a cada jugador por separado (Sub-agent GEPA)

El entrenador se sienta con el delantero y le dice: "La próxima vez, busca mejor". Luego se sienta con el defensa y le dice: "Cuidado con las faltas".

  • Resultado: Funciona bien para errores pequeños (como elegir la marca equivocada). Pero el equipo sigue fallando en la coordinación. El delantero puede correr muy rápido, pero si el capitán no le pasa el balón, no sirve de nada.

Método B: Entrenar al equipo completo (MAMUT GEPA)

Aquí es donde ocurre la magia. En lugar de entrenar a cada jugador individualmente, el entrenador simula partidos completos donde todos juegan juntos.

  • La Analogía: Imagina que el capitán habla demasiado y le quita tiempo al delantero para buscar. El Método B detecta esto: "¡Oye, si el capitán es más breve, el delantero tiene más tiempo para buscar productos!".
  • El Truco: Como no pueden volver a hablar con los usuarios reales cada vez que cambian una instrucción, usan un Simulador de Usuarios. Es un "actor" de IA que imita cómo reaccionaría un cliente real si el asistente dijera algo diferente.
  • Resultado: Este método arregla los problemas de coordinación. El equipo aprende a trabajar en conjunto, respetando las reglas y manteniendo la conversación fluida.

4. ¿Qué aprendieron? (El Veredicto)

El paper concluye que:

  1. No puedes arreglar un sistema complejo arreglando solo las piezas. Si mejoras a un agente individual, a veces rompes la conexión con los demás.
  2. Necesitas ver el "todo". La mejor forma de mejorar es evaluar y optimizar la historia completa de la interacción (todo el partido), no solo los momentos aislados.
  3. La seguridad y la cortesía mejoran mucho cuando el equipo se entrena junto, porque el sistema aprende a no "alucinar" (inventar cosas) y a mantener el tono adecuado.

En resumen

Este paper es como decir: "Para tener un asistente de compras perfecto, no basta con tener a los mejores jugadores individuales. Necesitas un árbitro robot muy preciso que evalúe el partido completo y un entrenador que use simulaciones para mejorar la estrategia del equipo entero, asegurando que todos se hablen y trabajen juntos para que el usuario salga feliz con su carrito lleno".

¡Es el manual definitivo para que la inteligencia artificial deje de ser un "genio solitario" y se convierta en un "equipo campeón"!