Scaling Generalist Data-Analytic Agents

Each language version is independently generated for its own context, not a direct translation.

🧠 DATAMIND: Der neue „Allrounder" für Daten-Analysen

Stell dir vor, du hast einen riesigen, chaotischen Keller voller alter Kisten, Bücher und loser Blätter (das sind deine Daten). Du möchtest herausfinden: „Welches Jahr war das profitabelste?" oder „Gibt es einen Zusammenhang zwischen Wetter und Verkäufen?".

Bisher waren die KI-Modelle, die man dafür nutzen konnte, wie zwei extreme Typen:

Die teuren Super-Experten (Proprietäre Modelle): Sie sind extrem klug, verstehen alles sofort, kosten aber ein Vermögen und sind wie ein verschlossener Safe – man kann nicht sehen, wie sie arbeiten.
Die offenen, kostenlosen Helfer (Open-Source-Modelle): Sie sind kostenlos und offen, aber wenn man sie in den vollen Keller schickt, werden sie oft panisch. Sie verstehen große Datenmengen nicht gut, verlieren den Faden bei langen Aufgaben oder machen dumme Fehler beim Coden.

DATAMIND ist nun eine neue Methode, um aus einem kostenlosen Helfer einen echten Daten-Genie zu machen. Hier ist, wie sie das gemacht haben, mit ein paar lustigen Vergleichen:

1. Der Lehrplan: Vom „1+1" zum „Kochen eines Festmahls" 📚

Früher lernten KI-Modelle oft nur einfache Aufgaben. DATAMIND hat einen cleveren Lehrplan entwickelt.

Die Idee: Stell dir vor, du willst jemanden Kochen beibringen. Du fängst nicht mit einem 10-Gänge-Menü an. Du beginnst mit „Wie schneide ich eine Zwiebel?" (einfache Aufgabe). Dann machst du weiter mit „Wie kocht man eine Suppe?" (mittelschwere Aufgabe).
Die Methode: DATAMIND generiert automatisch Tausende von Fragen, die immer schwieriger werden. Sie kombinieren einfache Aufgaben zu komplexen Ketten (z. B. erst die Daten säubern, dann berechnen, dann vergleichen). So lernt das Modell, wie ein echter Analyst zu denken, statt nur Muster auswendig zu lernen.

2. Der Prüfer: Der „Doppel-Check" mit dem Schiedsrichter ⚖️

Wenn ein Schüler eine Matheaufgabe löst, kann er sich irren. Wie weiß man, ob die Lösung stimmt?

Das Problem: Oft generiert eine KI drei verschiedene Antworten, von denen zwei falsch und eine richtig ist.
Die Lösung: DATAMIND lässt die KI die Aufgabe dreimal lösen. Ein besonders kluger „Schiedsrichter" (ein anderes KI-Modell) prüft dann: „Sind alle drei Antworten im Kern gleich?" Wenn ja, wird die beste und kürzeste Antwort als perfektes Beispiel gespeichert. Wenn nein, wird die KI gebeten, nochmal nachzudenken und ihre Fehler zu korrigieren. So entsteht ein Trainingsbuch, das nur aus fehlerfreien Lösungen besteht.

3. Der Trainings-Coach: Zwischen „Stur lernen" und „Frei experimentieren" 🏋️‍♂️

Das Training von KI ist wie das Aufziehen eines Kindes oder das Trainieren eines Athleten.

Phase 1 (SFT - Supervised Fine-Tuning): Am Anfang gibt der Coach strikte Anweisungen. „Tu genau das, was im Buch steht!" Das gibt dem Modell Sicherheit und verhindert, dass es wild herumrätselt.
Phase 2 (RL - Reinforcement Learning): Wenn das Modell sicherer ist, sagt der Coach: „Okay, jetzt probiere es selbst aus! Wenn du eine gute Lösung findest, bekommst du einen Punkt."
Der Trick: Die DATAMIND-Forscher haben einen dynamischen Coach entwickelt. Er passt die Strenge live an. Wenn das Modell ins Wanken gerät, wird er wieder strenger. Wenn es gut läuft, lässt er mehr Spielraum für Experimente. So bleibt das Training stabil, ohne dass das Modell „verrückt" wird.

4. Der sichere Raum: Ein Labor mit Schutzanzug 🛡️

Datenanalyse erfordert oft das Ausführen von Code (Programmierbefehle). Das ist riskant, wie das Hantieren mit scharfen Messern in einer vollen Küche.

Das Problem: Wenn viele KIs gleichzeitig Code ausführen, kann der Computer überlastet werden oder abstürzen.
Die Lösung: DATAMIND baut für jede einzelne Aufgabe eine isolierte, sichere Zelle. Jede Aufgabe bekommt ihren eigenen kleinen Raum mit begrenztem Zeit- und Speicherlimit. Wenn eine Aufgabe zu lange dauert oder zu viel Speicher frisst, wird sie sofort gestoppt, ohne den ganzen Computer zu gefährden. So können Tausende von Aufgaben gleichzeitig trainiert werden, ohne dass das System kollabiert.

🏆 Das Ergebnis: Ein Open-Source-Wunderkind

Das Ergebnis dieser Methode sind zwei neue Modelle: DATAMIND-7B und DATAMIND-14B.

Die Leistung: Diese Modelle sind so gut, dass sie in Tests besser abschneiden als die teuersten, geschlossenen Modelle von Tech-Giganten (wie GPT-5 oder DeepSeek).
Die Bedeutung: Das ist ein riesiger Durchbruch. Es bedeutet, dass jeder – auch Forscher ohne Millionenbudget – Zugriff auf einen Daten-Analysten hat, der komplexe Tabellen, riesige Dateien und schwierige Fragen lösen kann.

Zusammengefasst:
DATAMIND hat nicht einfach nur mehr Daten gesammelt. Sie haben eine neue Art zu lernen erfunden: durch schrittweise Steigerung der Schwierigkeit, strikte Qualitätskontrolle durch einen Schiedsrichter und ein intelligentes Training, das Sicherheit und Kreativität perfekt ausbalanciert. Sie haben gezeigt, dass man mit der richtigen Methode auch aus einem „kleinen" Modell einen „großen" Meister machen kann.

Each language version is independently generated for its own context, not a direct translation.

1. Problemstellung und Motivation

Datenanalytische Agenten (Data-Analytic Agents) gelten als Schlüsselkatalysator für die automatisierte wissenschaftliche Entdeckung und die Vision des „Innovating AI". Trotz des Fortschritts bei Large Language Models (LLMs) bestehen erhebliche Lücken im Bereich der offenen, generalistischen Datenanalyse:

Abhängigkeit von proprietären Modellen: Bestehende Lösungen basieren oft stark auf Prompt-Engineering oder Multi-Agenten-Frameworks über geschlossene Modelle (z. B. GPT-4, DeepSeek), was Kosten und Zugänglichkeit einschränkt.
Schwächen offener Modelle: Open-Source-Modelle scheitern häufig an der Verarbeitung von Daten in verschiedenen Formaten, großen Dateien und komplexen, mehrstufigen Reasoning-Aufgaben (Long-Horizon Reasoning).
Mangel an Trainingsdaten: Es fehlen hochwertige, skalierbare Datensätze mit schrittweisen Lösungspfaden (Trajektorien) für das Training spezialisierter Agenten.
Instabilität beim Training: Das Training von Agenten, die Code ausführen, ist anfällig für Instabilitäten durch Speicherüberläufe, Fehler in der Code-Generierung und das „Kollabieren" von Multi-Turn-Interaktionen (leere Runden).

2. Methodik: Das DATAMIND-Framework

Die Autoren stellen DATAMIND vor, eine skalierbare Rezeptur zur Synthese von Daten und zum Training von Agenten, die drei Hauptprobleme adressiert: unzureichende Datenressourcen, ungeeignete Trainingsstrategien und instabile Code-basierte Multi-Turn-Rollouts.

A. Datenerstellung und Query-Synthese (DATAMIND-12K)

Um einen großen Trainingskorpus zu erstellen, durchläuft das System einen automatisierten Pipeline-Prozess:

Dateisammlung: Es werden diverse Datenquellen (Kaggle, BIRD, OmniSQL) genutzt, um Tausende von .csv, .xlsx und .sqlite-Dateien zu sammeln und zu filtern.
Feingranulare Taxonomie: Aufgaben werden in 18 feingranulare Kategorien unterteilt (z. B. Korrelationsanalyse, Anomalieerkennung, Multi-Hop-Reasoning), um die Vielfalt zu maximieren.
Rekursive Komposition: Eine „Easy-to-Hard"-Strategie verknüpft einfache Aufgaben rekursiv, um komplexe, mehrstufige analytische Herausforderungen zu generieren.
Trajektorien-Sampling & Filterung:
- Wissensgestützte Stichproben: Ein Workflow mit prozeduralem Wissen steuert die Generierung.
- Selbstkonsistenz-Filter (Self-Consistency): Es werden mehrere Trajektorien pro Query generiert. Ein Judge-Modell (GPT-4o-mini) prüft, ob die Antworten konsistent sind. Nur konsistente Pfade werden behalten.
- Reflexionsschleife: Bei Inkonsistenzen wird das Feedback des Judges als Kritik an das Modell zurückgegeben, um die Reasoning-Pfade zu verfeinern.
- Regelbasierte Filterung: Es werden Formatkonformität (ReAct-Format), Länge (< 1024 Tokens) und sprachliche Integrität geprüft.
- Ergebnis: Der Datensatz DATAMIND-12K mit 11.707 hochwertigen Trajektorien.

B. Trainingsstrategie (SFT + RL)

Das Training kombiniert Supervised Fine-Tuning (SFT) und Reinforcement Learning (RL) in einem hybriden Ansatz:

Dynamische Gewichtung: Anstatt nacheinander SFT und dann RL durchzuführen, wird ein kombinierter Loss verwendet: $L_{Final} = \gamma L_{SFT} + (1-\gamma) L_{RL}$ . Der Faktor $\gamma$ wird dynamisch während des Trainings abgebaut (von 0,9 auf 0,05), um zunächst Stabilität durch SFT zu gewährleisten und später Exploration durch RL zu fördern.
Reward-Design: Die Belohnung besteht aus Format-Reward, Antwort-Reward (evaluiert durch einen Judge) und einem Length-Reward, um übermäßige Halluzinationen zu bestrafen.
Stabiles Multi-Turn-Rollout:
- Asynchrone Ausführung: Trennung von Modell-Generierung und Code-Ausführung, um Speicher-Spitzen zu vermeiden.
- Chunk-basierte Code-Pflege: Statt eines globalen Variablenpools (wie in Notebooks) wird nur der aktive Code-Chunk gespeichert und bei Bedarf mit Vorgängern concateniert, um den Speicherverbrauch zu minimieren.
- Sandboxing: Jede Trajektorie läuft in einer isolierten Umgebung mit strengen Limits für Zeit und Speicher.
- Void-Turn-Filtering: Runden, die keinen gültigen Code oder keine Antwort produzieren, werden im Loss maskiert, um das Training zu stabilisieren.

3. Wichtige Beiträge

DATAMIND-12K: Ein hochwertiger, synthetischer Datensatz mit 12.000 Trajektorien, der diverse Domänen, Dateiformate und 18 Aufgabentypen abdeckt.
DATAMIND-Agenten: Zwei generalistische Modelle (DATAMIND-7B und DATAMIND-14B), die auf Qwen-2.5-Coder basieren und für Datenanalyse optimiert wurden.
Neue Trainings-Paradigmen:
- Nachweis, dass Selbstkonsistenz-Filterung wichtiger ist als die bloße Auswahl der „besten" Trajektorie.
- Demonstration, dass SFT als Stabilisator für RL dient, aber eine zu starke Dominanz von SFT die Exploration erstickt (dynamisches $\gamma$ löst dies).
- Ein stabiler, speichereffizienter Multi-Turn-Rollout-Framework für Code-basierte Agenten.

4. Ergebnisse

Die Modelle wurden auf drei Benchmarks evaluiert: DABench, TableBench und BIRD.

DATAMIND-14B: Erreicht einen Durchschnittswert von 71,16% (pass@1) und 80,25% (pass@3). Dies ist ein neuer State-of-the-Art (SOTA), der sogar stärkste proprietäre Modelle wie GPT-5 und DeepSeek-V3.1 übertrifft.
DATAMIND-7B: Erzielt mit 68,10% (pass@1) die besten Ergebnisse aller Open-Source-Modelle und schlägt damit deutlich größere Modelle (z. B. Llama-3.3-70B, Qwen-72B).
Robustheit: Im Gegensatz zu spezialisierten Modellen (z. B. OmniSQL für SQL oder TableLLM für Tabellen), die bei Formatwechseln stark an Leistung verlieren, generalisiert DATAMIND hervorragend über verschiedene Dateiformate und Aufgabenkomplexitäten.

5. Bedeutung und Implikationen

Demokratisierung der Datenanalyse: Die Arbeit zeigt, dass Open-Source-Modelle durch gezieltes Training mit hochwertigen synthetischen Daten und stabilen RL-Strategien proprietäre Modelle in spezifischen Domänen übertreffen können.
Skalierbarkeit: Der Ansatz demonstriert, wie Agenten-Training durch die Kombination von SFT und RL skaliert werden kann, ohne auf massive manuelle Annotationen angewiesen zu sein.
Empirische Einsichten: Die Studie liefert wertvolle Erkenntnisse für die Community, insbesondere zur Notwendigkeit von Selbstkonsistenz-Filterung, zur Balance zwischen SFT und RL sowie zur Stabilität von Code-Ausführungen in Multi-Turn-Szenarien.
Open Source: Die Autoren veröffentlichen den Datensatz (DATAMIND-12K) und die Modelle (7B, 14B), was die Reproduzierbarkeit und Weiterentwicklung im Bereich der wissenschaftlichen Datenanalyse fördert.

Zusammenfassend stellt DATAMIND einen bedeutenden Fortschritt dar, der die Lücke zwischen proprietären und Open-Source-Lösungen in der automatisierten Datenanalyse schließt und einen robusten Rahmen für das Training von Generalisten-Agenten bereitstellt.