EigenData: A Self-Evolving Multi-Agent Platform for Function-Calling Data Synthesis, Auditing, and Repair

Il paper presenta EigenData, una piattaforma multi-agente auto-evolutiva che automatizza la sintesi, l'audit e la riparazione dei dati per il function calling, migliorando significativamente la correlazione tra le valutazioni dei modelli e il giudizio umano sulla correttezza funzionale attraverso la correzione del benchmark BFCL-V3 e l'introduzione di metriche basate sullo stato del database.

Jiaao Chen, Jingyuan Qi, Mingye Gao, Wei-Chen Wang, Hanrui Wang, Di Jin

Pubblicato Mon, 09 Ma
📖 4 min di lettura☕ Lettura da pausa caffè

Each language version is independently generated for its own context, not a direct translation.

Immagina di voler costruire un ristorante digitale dove un cuoco intelligenza artificiale (l'agente) deve imparare a cucinare piatti complessi usando solo gli strumenti della cucina (le funzioni e le API).

Il problema è che per insegnare a questo cuoco, hai bisogno di due cose fondamentali:

  1. Una cucina perfetta: Con ingredienti reali, frigoriferi funzionanti e ricette precise (i dati e il database).
  2. Un manuale di istruzioni impeccabile: Che spieghi esattamente come usare ogni utensile, senza errori di battitura o istruzioni contraddittorie (il codice e le funzioni).

Fino a oggi, creare questo "ristorante" per addestrare le intelligenze artificiali era un lavoro manuale, lento, costoso e pieno di errori. Spesso il manuale diceva "taglia la cipolla", ma il coltello nella cucina era rotto, o l'ingrediente mancava. Di conseguenza, l'AI sembrava stupida, ma in realtà era solo confusa da un ambiente di test difettoso.

Ecco che entra in scena EigenData.

Cos'è EigenData? Il "Capo Chef" Autonomo

EigenData non è un semplice strumento, è una piattaforma auto-evolutiva gestita da un "Capo Chef" digitale chiamato EigenCore. Immagina un direttore d'orchestra che non suona gli strumenti, ma coordina tre musicisti specializzati (agenti) per creare un'opera perfetta.

Questi tre musicisti sono:

  1. DatabaseAgent (Il Fornitore di Ingredienti):

    • Cosa fa: Costruisce il "frigorifero" e i "magazzini" del mondo digitale. Crea database realistici (come elenchi di voli, prenotazioni hotel, conti bancari) pieni di dati che sembrano veri.
    • L'analogia: Se devi addestrare un AI a prenotare voli, lui crea un database con migliaia di voli, prezzi variabili e posti a sedere, assicurandosi che un volo non parta prima di essere atterrato (coerenza logica).
  2. CodingAgent (Il Costruttore di Strumenti):

    • Cosa fa: Costruisce la "cucina" stessa. Scrive il codice che permette all'AI di aprire il frigo, accendere il fornello o tagliare le verdure.
    • Il trucco: Non si limita a scrivere il codice. Ha un sistema di prova ed errore automatico. Se scrive una funzione che non funziona, la testa, vede l'errore, la corregge e la testa di nuovo, finché non è perfetta. È come un fabbro che forgia un coltello, lo prova a tagliare un pomodoro, e se si piega, lo rifà finché non è affilato.
  3. DataAgent (Il Regista delle Conversazioni):

    • Cosa fa: Crea le "scene" di addestramento. Genera migliaia di conversazioni realistiche tra un cliente e l'AI.
    • L'evoluzione: Inizia con una bozza, la fa controllare da un "giudice" (un'altra AI), e se la conversazione è noiosa o sbagliata, la riscrive. Si auto-migliora continuamente, imparando a creare scenari sempre più difficili e realistici.

Il Caso Speciale: Riparare la "Bibbia" delle Valutazioni (BFCL)

Gli autori hanno usato EigenData per fare qualcosa di rivoluzionario: hanno riparato un benchmark famoso chiamato BFCL (Berkeley Function-Calling Leaderboard), che è come il "classifica mondiale" per vedere quale AI è brava a usare gli strumenti.

Hanno scoperto che questo "classifica" era pieno di buchi:

  • Errori nel manuale: Diceva di usare numeri interi, ma i dati erano stringhe di testo.
  • Errori nella cucina: Il codice che controllava se un compito era fatto bene aveva dei bug (es. se dicevi "accendi le luci in modalità automatica", il codice le spegneva invece di accenderle!).
  • Errori nelle risposte: Le soluzioni "giuste" fornite come esempio erano sbagliate.

Risultato: Il 71,5% delle prove nel vecchio test aveva errori! Era come giudicare un atleta su un campo da gioco con l'erba buca e le linee di fondo sbagliate.

Grazie a EigenData, hanno:

  1. Rilevato gli errori automaticamente.
  2. Riparato il codice, il database e le istruzioni.
  3. Creato un nuovo sistema di valutazione basato sul risultato finale, non sulla forma.
    • Vecchio modo: "Hai scritto la parola 'ciao' esattamente come nel manuale? Se sì, passi."
    • Nuovo modo (Outcome-aware):"Hai fatto in modo che il cliente ricevesse il suo volo? Se sì, passi, anche se hai usato parole diverse."

Perché è importante?

Prima di questa riparazione, le classifiche delle AI erano ingannevoli. Alcune intelligenze artificiali sembravano brillanti perché avevano "imparato a memoria" le risposte sbagliate del test, mentre altre sembravano stupide perché venivano penalizzate da errori nel test stesso.

Dopo aver usato EigenData per riparare tutto:

  • Le classifiche sono cambiate radicalmente.
  • L'ordine delle AI più brave corrisponde ora a quello che gli esseri umani pensano sia "funzionale" e utile nella vita reale.

In sintesi

EigenData è come un architetto, un muratore e un ispettore di qualità che lavorano insieme in un ciclo infinito per costruire e riparare il mondo digitale in cui le AI imparano. Non si limita a generare dati, ma garantisce che l'ambiente di apprendimento sia solido, logico e privo di bug, permettendo alle intelligenze artificiali di dimostrare il loro vero potenziale, senza essere ostacolate da errori umani o di sistema.