Generating Expressive and Customizable Evals for Timeseries Data Analysis Agents with AgentFuel

Each language version is independently generated for its own context, not a direct translation.

Stell dir vor, du hast einen sehr intelligenten, aber manchmal etwas verwirrten Assistenten. Dieser Assistent kann riesige Mengen an Daten lesen und dir sagen, was los ist – zum Beispiel: „Wie viele Kunden haben heute etwas gekauft?" oder „Wie schnell lädt unsere Website?". Das klingt toll, oder?

Aber hier ist das Problem: Wenn du ihn fragst: „Was ist passiert, kurz nachdem ein Kunde drei Produkte in den Warenkorb gelegt hat, aber bevor er bezahlt hat?" oder „Welcher Server hat gerade angefangen, seltsame Fehler zu machen, nachdem er einen verdächtigen Download hatte?", dann stolpert dieser Assistent oft. Er vergisst den Kontext, verliert die Spur oder antwortet einfach falsch.

Genau dieses Problem haben die Autoren des Papers mit ihrem neuen Werkzeug namens AgentFuel gelöst. Hier ist die Erklärung in einfachen Worten:

1. Das Problem: Der Assistent ist gut im Zählen, aber schlecht im „Verstehen"

Die meisten aktuellen Daten-Assistenten (die sogenannten „Data Agents") sind wie Schüler, die gut auswendig gelernt haben, wie man einfache Rechenaufgaben löst. Sie können dir sagen, wie viele Kunden es gab (einfache Frage). Aber wenn du sie nach einer Geschichte fragst – also einer Abfolge von Ereignissen über die Zeit (z. B. „Zuerst hat er das gesehen, dann hat er es angefasst, dann hat er es weggeworfen") –, dann kommen sie durcheinander.

Die Autoren haben getestet, wie gut diese Assistenten in echten Szenarien (wie Telekommunikation, Internet der Dinge oder Online-Shops) funktionieren. Das Ergebnis war ernüchternd: Bei einfachen Fragen waren sie zu 73 % richtig, aber bei Fragen, die eine „Geschichte" oder einen „Vorfall" (z. B. einen Server-Ausfall) betrafen, lagen sie nur bei 10 % Richtigkeit.

2. Die Lösung: AgentFuel – Der „Trainer" für Daten-Assistenten

Stell dir AgentFuel wie einen Trainer vor, der einen Sportler auf ein wichtiges Spiel vorbereitet.

Das alte Training: Bisher trainierten die Entwickler ihre Assistenten mit allgemeinen, langweiligen Daten (wie ein Sportler, der nur auf einem leeren Feld läuft). Das reicht nicht für das echte Spiel.
Das neue Training mit AgentFuel: AgentFuel erstellt maßgeschneiderte Trainingsdaten.
1. Der Szenario-Generator: Der Trainer (AgentFuel) baut eine künstliche Welt auf. Er sagt: „Okay, wir simulieren 1000 Kunden. 50 davon kaufen, 20 legen Dinge in den Warenkorb und gehen dann weg, und 5 haben einen technischen Defekt." Er fügt absichtlich „Störungen" und „Fehler" in die Daten ein, genau wie im echten Leben.
2. Die Prüfungsfragen: Anschließend stellt der Trainer dem Assistenten Fragen, die genau auf diese Szenarien zugeschnitten sind. „Wie viele Kunden haben den Warenkorb verlassen, nachdem sie das rote Hemd angesehen haben?"
3. Die Bewertung: Wenn der Assistent die Antwort falsch gibt, weiß der Trainer genau, wo das Problem liegt (z. B. „Er hat die Zeitfolge vergessen" oder „Er hat den Vorfall nicht erkannt").

3. Warum ist das so wichtig? (Die Analogie)

Stell dir vor, du trainierst einen Autopiloten für ein Flugzeug.

Ohne AgentFuel: Du testest den Autopiloten nur bei gutem Wetter auf einer geraden Strecke. Er fliegt perfekt.
Mit AgentFuel: Du baust einen Simulator, der plötzlich Sturmböen, Turbulenzen und einen Triebwerksausfall simuliert. Du testest den Autopiloten genau in diesen kritischen Momenten. Nur so findest du heraus, ob er wirklich sicher ist, bevor er in der echten Welt fliegt.

AgentFuel macht genau das für Daten-Assistenten. Es zwingt sie, sich mit den schwierigen, chaotischen und zeitlichen Abläufen der echten Welt auseinanderzusetzen, bevor sie eingesetzt werden.

4. Das Ergebnis: Bessere Assistenten

Die Autoren haben gezeigt, dass man mit AgentFuel nicht nur Fehler findet, sondern die Assistenten auch besser machen kann. Wenn man dem Assistenten die Fragen von AgentFuel als „Lernmaterial" gibt und ihn wiederholt üben lässt, verbessert sich seine Treffsicherheit um etwa 17 %.

Zusammenfassend:
AgentFuel ist ein Werkzeug, das Entwicklern hilft, ihre Daten-Assistenten nicht nur mit einfachen Fragen zu testen, sondern mit realistischen, komplexen Geschichten und Notfällen. Es ist wie ein Simulator, der sicherstellt, dass dein KI-Assistent nicht nur gut aussieht, sondern auch wirklich funktioniert, wenn es darauf ankommt.

Generating Expressive and Customizable Evals for Timeseries Data Analysis Agents with AgentFuel

1. Das Problem: Der Assistent ist gut im Zählen, aber schlecht im „Verstehen"

2. Die Lösung: AgentFuel – Der „Trainer" für Daten-Assistenten

3. Warum ist das so wichtig? (Die Analogie)

4. Das Ergebnis: Bessere Assistenten

1. Problemstellung

2. Methodik: AgentFuel System

Phase 1: Datengenerierung (Dataset Generation)

Phase 2: Generierung von Frage-Antwort-Paaren (Q-A Generation)

Phase 3: Test-Integration (Test Harness)

3. Hauptbeiträge

4. Ergebnisse und Evaluation

5. Bedeutung und Ausblick

Generating Expressive and Customizable Evals for Timeseries Data Analysis Agents with AgentFuel

1. Das Problem: Der Assistent ist gut im Zählen, aber schlecht im „Verstehen"

2. Die Lösung: AgentFuel – Der „Trainer" für Daten-Assistenten

3. Warum ist das so wichtig? (Die Analogie)

4. Das Ergebnis: Bessere Assistenten

1. Problemstellung

2. Methodik: AgentFuel System

Phase 1: Datengenerierung (Dataset Generation)

Phase 2: Generierung von Frage-Antwort-Paaren (Q-A Generation)

Phase 3: Test-Integration (Test Harness)

3. Hauptbeiträge

4. Ergebnisse und Evaluation

5. Bedeutung und Ausblick

Mehr davon

Interpretable Tau-PET Synthesis from Multimodal T1-Weighted and FLAIR MRI Using Partial Information Decomposition Guided Disentangled Quantized Half-UNet

SUPERGLASSES: Benchmarking Vision Language Models as Intelligent Agents for AI Smart Glasses

MultiModalPFN: Extending Prior-Data Fitted Networks for Multimodal Tabular Learning

"Don't Do That!": Guiding Embodied Systems through Large Language Model-based Constraint Generation

OpenGLT: A Comprehensive Benchmark of Graph Neural Networks for Graph-Level Tasks