Build, Judge, Optimize: A Blueprint for Continuous Improvement of Multi-Agent Consumer Assistants

Each language version is independently generated for its own context, not a direct translation.

¡Hola! Imagina que has creado un superayudante de compras para un supermercado gigante. No es un simple buscador donde escribes "leche" y te da una lista; es un asistente inteligente que puede conversar contigo, entender que quieres "algo barato pero rico para la cena" y que recuerda que no te gusta el queso azul.

El problema es que, cuando este asistente pasa de ser un prototipo en un laboratorio a funcionar en la vida real (con miles de usuarios), se vuelve un caos. Las cosas se complican: el usuario cambia de opinión, el presupuesto se ajusta y el inventario del supermercado varía.

Este paper es como un manual de instrucciones (un "plano azul") para arreglar y mejorar a este asistente. Aquí te explico cómo lo hacen, usando una analogía sencilla:

1. El Problema: El Equipo de Fútbol Desordenado

Imagina que tu asistente de compras no es una sola persona, sino un equipo de fútbol.

Hay un Capitán (el agente principal) que recibe la orden del entrenador (el usuario).
Hay Delanteros (agentes de búsqueda) que buscan los productos.
Hay Defensas (agentes de seguridad) que aseguran que no se compren cosas prohibidas.
Hay un Mánager (agente de personalización) que recuerda que al usuario le gusta la marca X.

En el pasado, si el delantero fallaba, el capitán no sabía por qué. Si el mánager olvidaba un dato, el delantero compraba lo incorrecto. Mejorar a un solo jugador no ayudaba al equipo entero a ganar. Necesitaban una forma de ver el partido completo, no solo un jugada.

2. El Árbitro Inteligente (La Evaluación)

Para mejorar al equipo, primero necesitas saber si están jugando bien. Pero juzgar una conversación es subjetivo ("¿Fue amable?", "¿Compró lo correcto?").

Los autores crearon un Árbitro Robot (un modelo de lenguaje o IA) que actúa como un juez estricto pero justo.

La Regla de Oro: En lugar de decir "me pareció un 7 de 10", el árbitro revisa la "grabación del partido" (el historial de chat) y marca casillas de SÍ/NO.
- ¿Compró el usuario lo que pidió? SÍ/NO.
- ¿Respetó el presupuesto? SÍ/NO.
- ¿Fue educado? SÍ/NO.
Calibración: Al principio, el árbitro robot no estaba muy de acuerdo con los humanos. Así que lo "entrenaron" (usando una técnica llamada GEPA) para que pensara casi igual que un humano experto. Ahora, si un humano dice "esto es un error", el robot también lo marca como error el 91% de las veces.

3. Las Dos Estrategias de Mejora (El Entrenamiento)

Una vez que tienen al árbitro, necesitan mejorar al equipo. Probaron dos métodos:

Método A: Entrenar a cada jugador por separado (Sub-agent GEPA)

El entrenador se sienta con el delantero y le dice: "La próxima vez, busca mejor". Luego se sienta con el defensa y le dice: "Cuidado con las faltas".

Resultado: Funciona bien para errores pequeños (como elegir la marca equivocada). Pero el equipo sigue fallando en la coordinación. El delantero puede correr muy rápido, pero si el capitán no le pasa el balón, no sirve de nada.

Método B: Entrenar al equipo completo (MAMUT GEPA)

Aquí es donde ocurre la magia. En lugar de entrenar a cada jugador individualmente, el entrenador simula partidos completos donde todos juegan juntos.

La Analogía: Imagina que el capitán habla demasiado y le quita tiempo al delantero para buscar. El Método B detecta esto: "¡Oye, si el capitán es más breve, el delantero tiene más tiempo para buscar productos!".
El Truco: Como no pueden volver a hablar con los usuarios reales cada vez que cambian una instrucción, usan un Simulador de Usuarios. Es un "actor" de IA que imita cómo reaccionaría un cliente real si el asistente dijera algo diferente.
Resultado: Este método arregla los problemas de coordinación. El equipo aprende a trabajar en conjunto, respetando las reglas y manteniendo la conversación fluida.

4. ¿Qué aprendieron? (El Veredicto)

El paper concluye que:

No puedes arreglar un sistema complejo arreglando solo las piezas. Si mejoras a un agente individual, a veces rompes la conexión con los demás.
Necesitas ver el "todo". La mejor forma de mejorar es evaluar y optimizar la historia completa de la interacción (todo el partido), no solo los momentos aislados.
La seguridad y la cortesía mejoran mucho cuando el equipo se entrena junto, porque el sistema aprende a no "alucinar" (inventar cosas) y a mantener el tono adecuado.

En resumen

Este paper es como decir: "Para tener un asistente de compras perfecto, no basta con tener a los mejores jugadores individuales. Necesitas un árbitro robot muy preciso que evalúe el partido completo y un entrenador que use simulaciones para mejorar la estrategia del equipo entero, asegurando que todos se hablen y trabajen juntos para que el usuario salga feliz con su carrito lleno".

¡Es el manual definitivo para que la inteligencia artificial deje de ser un "genio solitario" y se convierta en un "equipo campeón"!

Each language version is independently generated for its own context, not a direct translation.

Resumen Técnico: Optimización de Asistentes de Compra Conversacionales Multi-Agente

1. Problema y Contexto

Los asistentes de compra conversacionales (CSA, por sus siglas en inglés) representan una aplicación clave de la IA agéntica, evolucionando desde la búsqueda basada en palabras clave hacia experiencias colaborativas y guiadas por diálogo. Sin embargo, trasladar estos sistemas de prototipo a producción revela dos desafíos fundamentales no explorados suficientemente:

Evaluación de interacciones multi-turno: Las métricas tradicionales de recuperación y ranking son insuficientes. La calidad en la compra de comestibles es multidimensional, depende de trayectorias largas y maneja restricciones complejas (presupuesto, inventario, preferencias personales, solicitudes mal definidas).
Optimización de sistemas acoplados: Mejorar agentes individuales (sub-agentes) no garantiza mejores resultados de extremo a extremo debido a efectos retardados y al acoplamiento estrecho entre componentes. Los errores pueden propagarse silenciosamente y manifestarse solo después de múltiples turnos.

El artículo presenta un caso de estudio con MAGIC (Multi-Agent Grocery Intelligent Concierge), un asistente de comestibles a escala de producción, para abordar estos problemas.

2. Metodología

Los autores proponen un marco de trabajo integral dividido en tres fases: Construir (Build), Juzgar (Judge) y Optimizar (Optimize).

A. Arquitectura del Agente (Build)
Se abandonó un diseño monolítico por una arquitectura modular multi-agente:

Orquestador: Descompone la intención del usuario y coordina las tareas.
Sub-agentes: Se especializan en funciones específicas (búsqueda, gestión del carrito, personalización) e interfaz con APIs programáticas y modelos ML.
Desafío: Esta modularidad introduce un acoplamiento más fuerte donde los errores de un nodo afectan a los demás, requiriendo una evaluación a nivel de sistema.

B. Evaluación y Calibración (Judge)
Se introduce una rúbrica estructurada que evalúa la calidad del sistema en cuatro dominios ortogonales:

Ejecución de la Compra (50%): Completitud del carrito, adecuación de cantidades, ausencia de duplicados.
Personalización y Contexto (20%): Respeto a preferencias dietéticas, marcas y retención de contexto histórico.
Calidad Conversacional (10%): Clarificación, coherencia y tono.
Seguridad y Cumplimiento (20%): Contenido seguro y alineación con políticas.

LLM-as-a-Judge: Se implementa un juez basado en LLM que evalúa trazas completas contra la rúbrica. Para asegurar fiabilidad, las evaluaciones se basan en verificaciones booleanas sobre artefactos observables (acciones de herramientas confirmadas, estado final del carrito) en lugar de juicios ordinales vagos.
Calibración: Se utiliza GEPA (un optimizador de prompts de vanguardia) para refinar las instrucciones del juez, alineándolo con anotaciones humanas. Esto elevó el acuerdo entre el juez y los humanos del 84.1% al 91.4%, convirtiendo la evaluación en una señal de recompensa estable y determinista.

C. Estrategias de Optimización (Optimize)
Se comparan dos estrategias para optimizar los prompts sin reentrenar los modelos subyacentes:

Sub-agent GEPA: Optimiza cada nodo de agente de forma independiente contra una "micro-rúbrica" local. Trata el problema como de un solo turno al aislar el contexto de cada agente.
MAMUT GEPA (Multi-Agent Multi-Turn): Un enfoque novedoso a nivel de sistema que optimiza conjuntamente el "paquete de prompts" ( $\Theta$ $Θ$ ) de todos los agentes.
- Utiliza un simulador de usuario híbrido: Si la acción del agente optimizado es semánticamente equivalente a la registrada, se reproduce la respuesta real del usuario; si diverge, un "Agente de Persona de Usuario" genera una respuesta sintética consistente.
- El objetivo es maximizar la puntuación de la rúbrica en la trayectoria completa ( $\tau$ ), permitiendo compensaciones entre agentes (ej. hacer al orquestador más conciso para dar más "presupuesto" de contexto al agente de búsqueda).

3. Resultados Clave

La comparación en un conjunto de prueba de 238 trayectorias muestra que la optimización a nivel de sistema es superior:

Mejora General: MAMUT GEPA aumentó la tasa de aprobación general de la rúbrica del 77.1% al 84.7%.
Dominios Críticos:
- Seguridad y Cumplimiento: Mejora del +12.0% (de 76.0% a 88.0%). La optimización local falló en mantener políticas de seguridad coherentes entre agentes.
- Calidad Conversacional: Mejora del +8.0%.
- Personalización: Mejora del +6.8%. MAMUT logró que el orquestador pasara correctamente las preferencias recuperadas a los sub-agentes, algo que la optimización local no podía incentivar.
Limitaciones de la Optimización Local: Sub-agent GEPA resolvió eficazmente errores atómicos (ej. errores de ejecución de herramientas), pero falló en reparar defectos de interacción y coordinación (ej. agentes que inundan el contexto o pierden información crítica entre turnos).

4. Contribuciones Principales

Blueprint de Evaluación: Un marco práctico para evaluar CSAs de producción mediante una rúbrica multidimensional y un juez LLM calibrado, transformando la calidad subjetiva en una señal de ingeniería fiable.
MAMUT GEPA: Una nueva metodología de optimización a nivel de sistema que utiliza simulación multi-turno para optimizar conjuntos de prompts, superando las limitaciones de la optimización descentralizada.
Herramientas para la Industria: Liberación de plantillas de rúbricas y guías de diseño de evaluación para facilitar la construcción de CSAs robustos en dominios de alta ambigüedad.

5. Significado e Impacto

El trabajo demuestra que en sistemas multi-agente complejos y acoplados, la optimización local es insuficiente. La optimización holística a nivel de trayectoria es esencial para dominar la coordinación entre agentes y garantizar la seguridad y la coherencia del usuario final.

Este enfoque "evaluación primero" ofrece una ruta sistemática para el desarrollo continuo de agentes de IA en entornos de comercio electrónico, donde las preferencias del usuario son sensibles y las instrucciones a menudo están incompletas. La capacidad de calibrar un juez LLM para alcanzar un acuerdo cercano al humano (>90%) permite iteraciones rápidas y seguras en producción sin depender exclusivamente de costosas anotaciones humanas para cada ciclo de mejora.