EigenData: A Self-Evolving Multi-Agent Platform for Function-Calling Data Synthesis, Auditing, and Repair

Dit paper introduceert EigenData, een zelfevoluerend multi-agentplatform dat de volledige levenscyclus van function-calling data automatiseert en gebruikt om de Berkeley Function-Calling Leaderboard te auditeren en te repareren, wat resulteert in een betrouwbaardere evaluatie die beter correleert met menselijke oordelen over functionele correctheid.

Jiaao Chen, Jingyuan Qi, Mingye Gao, Wei-Chen Wang, Hanrui Wang, Di Jin

Gepubliceerd Mon, 09 Ma
📖 5 min leestijd🧠 Diepgaand

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een superintelligente robot wilt bouwen die voor jou boodschappen doet, reizen plant en tickets boekt. Deze robot is niet alleen slim, maar kan ook echte werkprogramma's aansturen (zoals een database van een hotel of een vliegtuigticket-systeem). Dit noemen we een "Function-Calling Agent".

Het probleem is: om zo'n robot slim te maken, heb je duizenden voorbeelden nodig van hoe hij zich moet gedragen. Maar het maken van deze voorbeelden is als het bouwen van een complete stad, inclusief wegen, huizen en bewoners, alleen maar om te testen of de robot de weg vindt. Mensen moeten dit vaak handmatig doen, wat duur, traag en vol fouten zit.

Hier komt EigenData om de hoek kijken.

Wat is EigenData?

EigenData is een zelflerend, digitaal bouwteam dat automatisch de hele stad (de data) voor je bouwt, inspecteert en repareert. Het is geen simpele machine die één ding doet; het is een orkest van drie gespecialiseerde robots die samenwerken onder leiding van een dirigent.

Hier is hoe het werkt, vertaald naar alledaagse analogieën:

1. De Dirigent: EigenCore

Stel je EigenCore voor als de hoofdbouwkundige of de dirigent van een orkest.

  • Jij zegt tegen hem: "Bouw een trainingsomgeving voor een hotel-booking-agent" of "Kijk of deze bestaande testset klopt."
  • EigenCore luistert, beseft wat er nodig is, en deelt het werk uit aan de drie specialisten. Hij zorgt dat ze niet tegen elkaar werken, maar dat de database perfect past bij de code, en dat de code weer past bij de gesprekken.

2. De Drie Specialistische Robots

  • DatabaseAgent (De Stadsplanner):
    Deze robot bouwt de grondslag. Hij maakt een realistische database aan, alsof hij de bestaande registers van een stad schrijft. Hij zorgt dat er echte huizen, echte prijzen en echte regels zijn. Als hij een database maakt voor een hotel, zorgt hij dat er kamers zijn, dat ze niet dubbel geboekt kunnen worden, en dat de prijzen logisch zijn.

    • Analogie: Hij tekent de plattegrond van de stad en zorgt dat de riolering werkt voordat er ook maar één baksteen wordt gelegd.
  • CodingAgent (De Bouwvakker & Kwaliteitscontroleur):
    Deze robot bouwt de machines en tools die de agent moet gebruiken. Hij schrijft de computercode die de database aanstuurt (bijvoorbeeld: "Hoe boek ik een kamer?").

    • Het bijzondere hieraan: deze robot is niet bang om fouten te maken. Hij bouwt iets, test het, ziet dat het mislukt, repareert het, en test het opnieuw. Hij heeft een ingebouwde "rechter" die beslist of de fout in de code zit of in de test zelf.
    • Analogie: Hij bouwt een auto, rijdt hem tegen een muur, kijkt wat er kapot is, repareert het, en rijdt hem weer tegen de muur totdat hij perfect is.
  • DataAgent (De Toneelschrijver & Regisseur):
    Deze robot creëert de gesprekken. Hij schrijft duizenden dialogen tussen een klant en de agent.

    • Hij zorgt dat de gesprekken natuurlijk klinken, dat de klant soms boos is, soms vergeten, en dat de agent de juiste knoppen indrukt.
    • Hij werkt in twee fases: eerst schrijft hij een paar proefgesprekken en laat ze beoordelen om de instructies te verbeteren. Pas als de instructies perfect zijn, schrijft hij duizenden gesprekken.
    • Analogie: Hij is de regisseur die acteurs (de klant en de agent) instrueert om een toneelstuk te spelen dat zo realistisch is dat het publiek (de AI) er echt van leert.

Het Grote Experiment: Het Repareren van BFCL

In het paper laten de auteurs zien hoe EigenData een beroemde testset (BFCL-V3) repareerde. Stel je voor dat je een examen hebt dat gebruikt wordt om te zien wie de slimste studenten zijn. Maar later blijkt dat het examen zelf vol fouten zit:

  • De vragen zijn vaag.
  • De antwoorden in het antwoordboekje zijn verkeerd.
  • De regels zijn onlogisch.

EigenData ging dit examen auditeren:

  1. Ontdekken: Ze vonden dat 71,5% van de vragen fouten bevatte! Soms vroeg de vraag om een getal, maar was het antwoord een woord. Soms deed de code iets anders dan wat er beloofd was.
  2. Repareren: EigenData pakte elke fout op. De DatabaseAgent corrigeerde de regels, de CodingAgent repareerde de gebrekkige code, en de DataAgent herschreef de verkeerde antwoorden.
  3. Resultaat: Na de reparatie bleek dat de ranglijst van de slimste AI-modellen volledig veranderde. Modellen die eerder slecht scoorden omdat ze de verkeerde regels volgden, bleken eigenlijk heel slim. Modellen die eerder hoog scoorden omdat ze de "valstrikken" van het oude examen hadden geleerd, bleken minder goed.

Waarom is dit belangrijk?

Vroeger was het alsof we leerlingen testten met een examen dat vol spelfouten zat. Als een leerling de "juiste" (maar verkeerde) antwoorden gaf, kreeg hij een 10. Als hij logisch dacht maar de spelfouten niet volgde, kreeg hij een onvoldoende.

EigenData zorgt ervoor dat we eerlijk testen. Het bouwt een omgeving waar de AI echt moet leren werken (bijvoorbeeld: daadwerkelijk een ticket boeken in een database), in plaats van alleen maar gissen naar wat het antwoordboekje zegt.

Kortom: EigenData is een zelflerend bouwteam dat zorgt dat de "schoolboeken" voor onze slimme robots perfect, foutloos en realistisch zijn, zodat we echt kunnen zien welke robot de beste is.