Build, Judge, Optimize: A Blueprint for Continuous Improvement of Multi-Agent Consumer Assistants

Questo articolo presenta un blueprint pratico per valutare e ottimizzare gli assistenti alla spesa conversazionali multi-agente, introducendo un sistema di valutazione basato su LLM e due strategie di ottimizzazione dei prompt (Sub-agent GEPA e MAMuT GEPA) per migliorare le interazioni complesse e vincolate nel contesto della spesa alimentare.

Alejandro Breen Herrera, Aayush Sheth, Steven G. Xu, Zhucheng Zhan, Charles Wright, Marcus Yearwood, Hongtai Wei, Sudeep Das

Pubblicato 2026-03-05
📖 5 min di lettura🧠 Approfondimento

Each language version is independently generated for its own context, not a direct translation.

Immagina di voler creare un assistente per la spesa che non sia un semplice robot che legge una lista, ma un vero e proprio personal shopper intelligente capace di conversare con te, capire le tue preferenze (come "voglio solo prodotti biologici" o "ho un budget di 20 euro") e gestire una lista della spesa complessa mentre il negozio cambia i prezzi e la disponibilità dei prodotti in tempo reale.

Gli autori di questo articolo (un team di WithMetis.ai e DoorDash) hanno costruito un sistema del tutto nuovo, chiamato MAGIC, e hanno scoperto che farlo funzionare bene è come dirigere un'orchestra invece di suonare un solo strumento.

Ecco i tre pilastri del loro lavoro, spiegati con delle metafore:

1. Il Problema: Costruire un'Orchestra, non un Solista

All'inizio, provavano a usare un unico "cervello" (un agente AI) per fare tutto: capire cosa vuoi, cercare i prodotti, controllare il budget e scrivere il messaggio finale.
Il problema? Era come chiedere a un solo musicista di suonare il violino, il tamburo e il piano contemporaneamente. Se il musicista si distraeva su un tamburo, sbagliava anche il piano. Inoltre, se l'assistente faceva un piccolo errore all'inizio (es. capire male il budget), quell'errore si propagava fino alla fine, rovinando l'intera esperienza senza che nessuno se ne accorgesse subito.

La soluzione: Hanno smontato il "solista" e creato un'orchestra.

  • C'è un Direttore d'Orchestra (Orchestrator) che ascolta la tua richiesta e divide il lavoro.
  • Ci sono i Musicisti Specializzati (Sub-agents): uno è esperto di cercare prodotti, uno di controllare il budget, uno di gestire le preferenze alimentari, ecc.
  • Il vantaggio: Se il musicista del violino sbaglia, gli altri possono correggere. Ma c'è un nuovo problema: ora devono coordinarsi perfettamente. Se il Direttore non passa le note giuste al musicista, l'orchestra suona stonata.

2. Il Giudice: Il "Sapone" che misura la qualità

Come fai a sapere se la tua orchestra sta suonando bene? Non basta dire "sembra carino". Serve una valutazione precisa.
Gli autori hanno creato un Manuale di Valutazione (Rubric) molto dettagliato, diviso in quattro aree:

  1. Esecuzione: Hai preso esattamente quello che volevi?
  2. Personalizzazione: Ha ricordato che odi le cipolle o che preferisci il marchio X?
  3. Qualità della Conversazione: Ha parlato in modo naturale o sembrava un robot confuso?
  4. Sicurezza: Non ha suggerito cibi pericolosi o violato le regole?

Per valutare tutto questo velocemente, hanno addestrato un Giudice AI (un'intelligenza artificiale che fa da giudice).

  • L'idea geniale: Invece di chiedere al giudice "quanto è stato bravo l'assistente? (da 1 a 5)", gli hanno insegnato a fare checklist binarie (Vero/Falso).
    • Esempio: "Ha aggiunto il vino richiesto?" -> Sì/No.
    • Questo rende la valutazione precisa e ripetibile, come un arbitro che guarda il video per vedere se il pallone è entrato in porta, invece di dire "sembra che sia entrato".
  • La Calibrazione: All'inizio, il Giudice AI non era d'accordo con gli umani. Hanno usato un metodo speciale (GEPA) per "allenare" il giudice, portandolo a essere d'accordo con gli umani nel 91% dei casi. Ora è un arbitro affidabile.

3. L'Ottimizzazione: Due modi per migliorare l'orchestra

Una volta che hanno un giudice affidabile, come fanno a migliorare l'assistente? Hanno provato due strategie diverse:

Strategia A: "Il Ripasso Singolo" (Sub-agent GEPA)

Questa strategia guarda ogni musicista da solo.

  • Metafora: Chiedi al violinista di esercitarsi da solo per suonare meglio le sue note.
  • Risultato: Funziona bene per errori piccoli (es. il musicista sbagliava una nota specifica). Ma non risolve i problemi di coordinamento. Se il Direttore non passa il foglio giusto al violinista, il violinista non può fare nulla, anche se suona perfettamente.

Strategia B: "La Prova Generale Completa" (MAMUT GEPA)

Questa è la novità del paper. Invece di allenare i musicisti singolarmente, allenano l'intera orchestra insieme.

  • Metafora: Fanno una prova generale dove il Direttore, il violinista e il batterista devono suonare insieme. Se il Direttore parla troppo e il batterista non sente il ritmo, il sistema lo nota e corregge entrambi contemporaneamente.
  • Come funziona: Usano un simulatore che ricrea la conversazione con l'utente. Se l'assistente cambia qualcosa, il simulatore genera una risposta dell'utente coerente (come se fosse un attore che improvvisa).
  • Il risultato: Questa strategia ha risolto i problemi più grandi, come la sicurezza e la coerenza della conversazione. Ha permesso al "Direttore" di capire meglio cosa dire al "Musicista" per ottenere il risultato finale perfetto.

In Sintesi: Cosa abbiamo imparato?

Il paper ci dice che per creare assistenti intelligenti che funzionano davvero nel mondo reale (come fare la spesa):

  1. Non basta avere un singolo cervello potente; serve un sistema modulare (più agenti che collaborano).
  2. Non puoi migliorare un sistema complesso guardando solo i pezzi singoli; devi guardare l'intero viaggio (dalla prima domanda alla fine della spesa).
  3. Serve un giudice rigoroso e automatizzato che non si basa su impressioni vaghe, ma su fatti concreti, per guidare i miglioramenti.

È come passare dal cercare di insegnare a un bambino a cucinare da solo, a creare una cucina professionale con uno chef, un sous-chef e un maître, tutti controllati da un ispettore sanitario infallibile, per garantire che il piatto finale sia perfetto ogni volta.