EigenData: A Self-Evolving Multi-Agent Platform for Function-Calling Data Synthesis, Auditing, and Repair

Die Arbeit stellt EigenData vor, eine selbstentwickelnde Multi-Agenten-Plattform, die den gesamten Lebenszyklus von Daten für Funktionsaufrufe automatisiert und durch die Korrektur des BFCL-V3-Tests sowie die Einführung einer ergebnisorientierten Evaluierung die Übereinstimmung zwischen Modellrankings und menschlichen Bewertungen der funktionalen Korrektheit signifikant verbessert.

Jiaao Chen, Jingyuan Qi, Mingye Gao, Wei-Chen Wang, Hanrui Wang, Di Jin

Veröffentlicht Mon, 09 Ma
📖 4 Min. Lesezeit☕ Kaffeepausen-Lektüre

Each language version is independently generated for its own context, not a direct translation.

Stellen Sie sich vor, Sie wollen einen hochintelligenten Roboter-Assistenten bauen, der für Sie Flugtickets bucht, Hotelzimmer reserviert oder E-Mails schreibt. Damit dieser Assistent wirklich gut wird, muss er mit perfekten Trainingsdaten lernen. Das Problem ist: Diese Daten zu erstellen, zu prüfen und zu reparieren, ist wie der Versuch, eine riesige Bibliothek mit Millionen von Büchern zu schreiben, zu korrigieren und zu sortieren – und zwar von Hand. Das dauert ewig und ist voller Fehler.

Hier kommt EigenData ins Spiel. Man kann sich EigenData wie eine autonome, sich selbst verbessernde Fabrik vorstellen, die nicht nur Bücher schreibt, sondern auch die Bibliothek selbst baut, die Regale prüft und die Bücher korrigiert.

Hier ist die einfache Erklärung, wie das funktioniert, unterteilt in die drei wichtigsten Bereiche:

1. Die drei Spezialisten (Die "Agenten")

Stellen Sie sich EigenData als ein Team aus drei verschiedenen Handwerkern vor, die unter einem strengen Chef (dem EigenCore) arbeiten:

  • Der Datenbank-Architekt (DatabaseAgent):

    • Die Analogie: Stellen Sie sich einen Architekten vor, der ein riesiges Lagerhaus baut. Bevor der Roboter etwas tun kann, muss es einen Ort geben, an dem Informationen gespeichert sind (z. B. welche Flugzeuge verfügbar sind, welche Hotels noch Zimmer haben).
    • Was er macht: Er baut diese "Lagerhallen" (Datenbanken) digital auf. Er sorgt dafür, dass die Regeln logisch sind (z. B. kann man kein Zimmer buchen, das es gar nicht gibt) und füllt sie mit realistischen Daten.
  • Der Programmierer-Handwerker (CodingAgent):

    • Die Analogie: Das ist der Elektriker und Mechaniker, der die Schalter und Hebel installiert, die den Roboter steuern.
    • Was er macht: Er schreibt den Code, der die "Schalter" (Funktionen) bedient. Das Besondere: Er ist extrem pedantisch. Er schreibt den Code, baut sofort Tests, prüft, ob alles funktioniert, und repariert Fehler, bevor er weitermacht. Er sorgt dafür, dass der Roboter nicht auf einen defekten Schalter drückt.
  • Der Dialog-Regisseur (DataAgent):

    • Die Analogie: Das ist der Drehbuchautor und Regisseur, der Szenen für den Roboter schreibt.
    • Was er macht: Er erzeugt Tausende von Gesprächen zwischen einem Kunden und dem Roboter. Er stellt sicher, dass die Gespräche realistisch sind, dass der Roboter die richtigen Werkzeuge benutzt und dass am Ende das Problem gelöst ist. Er optimiert seine eigenen Anweisungen (Prompts), damit die Dialoge immer besser werden.

2. Wie die Fabrik arbeitet (Der "Selbst-Verbesserungs-Zyklus")

Das Geniale an EigenData ist, dass diese drei Handwerker nicht einfach hintereinander arbeiten, sondern miteinander reden.

  • Das Feedback-System: Wenn der Regisseur (DataAgent) merkt, dass der Roboter in einem Gespräch scheitert, weil ein Schalter (Code) defekt ist, schickt er eine Nachricht an den Handwerker (CodingAgent): "Hey, dieser Schalter funktioniert nicht richtig!" Der Handwerker repariert ihn sofort.
  • Der Chef (EigenCore): Dieser Koordinator sorgt dafür, dass alle auf dem gleichen Stand sind. Wenn die Datenbank geändert wird, passt er den Code und die Dialoge automatisch an. Er verhindert, dass die Handwerker aneinander vorbeireden.

3. Der große Test: Die Reparatur von BFCL

In dem Papier zeigen die Autoren, wie mächtig dieses System ist, indem sie eine bekannte Prüfung für Roboter-Assistenten namens BFCL (eine Art "Abitur" für KI) untersucht haben.

  • Das Problem: Die ursprüngliche Prüfung war voller Fehler. Es gab wie in einem schlechten Schulbuch:

    • Falsche Fragen (die Datenbank sagte "Ticket-ID ist eine Zahl", aber die Lösung brauchte einen "Text").
    • Defekte Schalter (der Code funktionierte nicht so, wie er sollte).
    • Falsche Lösungen (die Musterlösung im Buch war selbst falsch!).
    • Ergebnis: Viele gute Roboter wurden als "schlecht" eingestuft, weil die Prüfung kaputt war.
  • Die EigenData-Lösung: Das Team ließ EigenData die Prüfung durchlaufen.

    1. Auditieren: Die Agenten fanden systematisch alle Fehler (71,5 % der Fälle hatten Probleme!).
    2. Reparieren: Sie korrigierten die Datenbank, den Code und die Musterlösungen.
    3. Neu bewerten: Als sie die KI-Modelle mit der reparierten Prüfung testeten, passten die Ergebnisse plötzlich viel besser zur menschlichen Einschätzung. Modelle, die vorher schlecht abschnitten, weil die Prüfung unfair war, wurden nun als gut erkannt.

Warum ist das wichtig?

Stellen Sie sich vor, Sie würden einen Sportler trainieren, aber das Ziel ist falsch markiert. Wenn er das Ziel trifft, sagen Sie "Falsch!", weil er nicht genau dort war, wo das Schild stand, obwohl er das richtige Tor getroffen hat.

EigenData ist wie ein Trainer, der:

  1. Das Spielfeld (Datenbank) perfekt anlegt.
  2. Die Tore (Funktionen) so baut, dass sie funktionieren.
  3. Die Schiedsrichterregeln (Daten) korrigiert.
  4. Und dann sicherstellt, dass der Gewinner wirklich der beste Spieler ist und nicht nur derjenige, der die kaputten Regeln am besten ausgenutzt hat.

Fazit: EigenData ist eine Plattform, die KI-Daten nicht mehr mühsam von Menschen erstellen lässt, sondern eine sich selbst organisierende Maschine baut, die Daten erzeugt, prüft, Fehler findet und repariert – und so sicherstellt, dass unsere KI-Assistenten wirklich lernen, was sie können sollen.