Scaling Generalist Data-Analytic Agents

Each language version is independently generated for its own context, not a direct translation.

🕵️‍♂️ De Databeslissers: Hoe we een AI-trainingskamp bouwden

Stel je voor dat je een superintelligente assistent wilt die niet alleen kan lezen, maar ook echte data-analyses kan doen. Denk aan het vinden van trends in miljoenen verkoopgegevens, het ontdekken van vreemde patronen in ziekenhuisstatistieken of het beantwoorden van complexe vragen over economie.

Vroeger waren dit soort taken alleen voor dure, gesloten computers (zoals die van Google of OpenAI) die je via ingewikkelde instructies (prompt engineering) moest besturen. Open-source modellen (die gratis en open zijn) waren vaak te dom voor dit werk: ze raakten in de war bij grote bestanden of konden niet goed redeneren in stappen.

De auteurs van dit paper (van Zhejiang Universiteit en Alibaba) hebben een oplossing bedacht: DATAMIND.

🏗️ Het Bouwplan: Hoe maak je zo'n slimme agent?

Het paper beschrijft een recept om een "algemene" data-analist te bouwen. Ze noemen drie grote obstakels die ze hebben opgelost:

Het gebrek aan goede voorbeelden (Data): Er waren niet genoeg oefenopdrachten met stap-voor-stap oplossingen.
- De oplossing: Ze hebben een "fabriek" gebouwd die automatisch duizenden nieuwe oefenopdrachten maakt. Ze beginnen met simpele vragen en maken ze langzaam steeds moeilijker, alsof je een leerling eerst laat optellen en daarna laat integreren.
De verkeerde trainingsmethode: Gewoon kopiëren (SFT) werkt niet goed genoeg voor complexe redeneringen.
- De oplossing: Ze gebruiken een mix van "leren van een leraar" (SFT) en "leren door te proberen en fouten te maken" (Reinforcement Learning of RL). Ze wisselen dit slim af: eerst veel leren van de leraar, en later meer ruimte geven om zelf te ontdekken.
Het instabiele brein: Als de AI te veel tegelijk doet, crasht het systeem of raakt het de draad kwijt.
- De oplossing: Ze hebben een "veiligheidsnet" gebouwd. De AI werkt in een afgesloten kamer (sandbox) waar ze geen schade kunnen aanrichten, en het systeem zorgt dat het geheugen niet volloopt, zelfs niet bij lange gesprekken.

🎓 De Grote Doorbraak: DATAMIND-12K

Het team heeft een enorme verzameling oefenmateriaal gemaakt genaamd DATAMIND-12K.

Wat is het? 12.000 hoogwaardige voorbeelden van data-vragen en de juiste code-oplossingen.
Hoe werkt het? Ze hebben data uit het internet gehaald (zoals Kaggle), er slimme vragen over bedacht, en dan een "rechter-AI" (een sterke model) laten controleren of de oplossing klopt. Alleen de beste oplossingen kwamen in de verzameling.

🏆 De Resultaten: De Open-Source Koning

Toen ze hun eigen modellen (DATAMIND-7B en DATAMIND-14B) trainden met deze verzameling, gebeurde er iets verbazingwekkends:

DATAMIND-14B (een model van 14 miljard parameters) deed het beter dan de beste dure, gesloten modellen van de wereld, zoals GPT-5 en DeepSeek-V3.1.
DATAMIND-7B (kleiner, 7 miljard parameters) deed het beter dan elk ander open-source model.

Het is alsof een lokale kok (open-source) met een nieuw, geheim recept (DATAMIND) een Michelin-sterrenrestaurant (de dure modellen) verslaat in een kookwedstrijd.

💡 Drie Belangrijke Lerenlessen (De "Geheimen")

Uit hun experimenten kwamen drie interessante inzichten naar voren, die nuttig zijn voor iedereen die AI probeert te trainen:

Kwaliteit is belangrijker dan "de beste" keuze:
Het is niet nodig om alleen de perfecte oplossing te kiezen voor training. Als drie AI's verschillende wegen nemen maar allemaal tot hetzelfde goede antwoord komen, is het beter om alle drie die wegen te gebruiken. Dit maakt de AI flexibeler.
- Analogie: Als je een kind leert fietsen, is het niet nodig om alleen de perfecte fietser te imiteren. Als drie vrienden op drie verschillende manieren naar huis fietsen en allemaal aankomen, leer je het kind meer variatie door ze allemaal na te doen.
De Leraar moet soms loslaten:
Als je de AI te lang laat kopiëren van de leraar (SFT), wordt hij star en durft hij niet meer zelf te denken. Als je te snel stopt met kopiëren, raakt hij de draad kwijt.
- Analogie: Het is als het opvoeden van een kind. In het begin heb je veel begeleiding nodig (grote leraar-factor). Maar als het kind groeit, moet je de begeleiding langzaam afbouwen, anders wordt het kind onzeker en durft het niet meer zelf te beslissen.
Oefening baart kunst, maar het startpunt telt:
Reinforcement Learning (leren door fouten) kan de kloof tussen een slim en een minder slim model verkleinen, maar het kan een dom model niet plotseling super slim maken.
- Analogie: Je kunt een beginnende atleet trainen tot hij olympisch is, maar je kunt een atleet die niet fit is niet trainen tot hij sneller is dan een wereldkampioen. Je moet een goed startpunt hebben.

🚀 Conclusie

De boodschap van dit paper is simpel: Je hebt geen dure, gesloten AI nodig om data-analyses te doen. Met de juiste trainingsmethode (DATAMIND), een goede verzameling oefenmateriaal en een slimme balans tussen leren en ontdekken, kun je met open-source modellen resultaten boeken die de beste ter wereld verslaan.

Ze hebben hun code en data gratis beschikbaar gesteld, zodat iedereen mee kan doen aan de revolutie in automatische data-analyse.

Each language version is independently generated for its own context, not a direct translation.

Titel: SCALING GENERALIST DATA-ANALYTIC AGENTS (DATAMIND)

Abstract
Dit paper introduceert DATAMIND, een schaalbaar recept voor het synthetiseren van data en het trainen van agenten, ontworpen om algemene (generalist) data-analytische agenten te bouwen. Het doel is om de kloof te overbruggen tussen gesloten, propriëtaire modellen en open-source modellen op het gebied van geautomatiseerde data-analyse.

1. Het Probleem

Huidige data-analytische agenten vertonen drie belangrijke tekortkomingen:

Afhankelijkheid van propriëtaire modellen: Bestaande oplossingen vertrouwen zwaar op prompt-engineering en multi-agent scaffolds boven gesloten modellen (zoals GPT-4 of DeepSeek), terwijl open-source modellen vaak vastlopen bij complexe taken.
Beperkte schaalbaarheid en diversiteit: Open-source modellen worstelen met diverse bestandsformaten (CSV, Excel, SQL), grote datasets en langdurige, multi-stap redeneringen die in de echte wereld nodig zijn.
Ontbreken van hoogwaardige trainingsdata: Er is een gebrek aan grote, hoogwaardige datasets met stap-voor-stap oplossingspaden (trajecten) voor data-analyse. Bestaande benchmarks bieden vaak alleen testsets zonder gedetailleerde annotaties.
Instabiele training: Het trainen van agenten met code-uitvoering (multi-turn rollout) leidt vaak tot instabiliteit door geheugenproblemen, fouten in code-interpretatie en het "instorten" van het beleid tijdens Reinforcement Learning (RL).

2. Methodologie: De DATAMIND Pipeline

De auteurs stellen een volledig geautomatiseerd framework voor dat bestaat uit vier kerncomponenten:

A. Data Synthese en Query Generatie

Data Collectie: Het verzamelen van duizenden ruwe databestanden (.csv, .xlsx, .sqlite) uit bronnen zoals Kaggle, BIRD en OmniSQL.
Fin-grained Taxonomie: Data-analyse taken worden gecategoriseerd in 18 fijne categorieën (bijv. correlatie-analyse, anomaly detection, causal analysis, time-based calculation).
Recursieve Opbouw: Een "easy-to-hard" mechanisme wordt gebruikt waarbij de output van een eenvoudige taak als input dient voor een complexere taak. Dit creëert multi-hop analytische uitdagingen die verder gaan dan de capaciteit van een enkele taaktype.

B. Traject Sampling en Filtering

Kennis-verrijkte Sampling: Het systeem gebruikt een hoog niveau workflow (procedurale kennis) om het model te sturen tijdens het genereren van oplossingen.
Zelfconsistentie Filtering: Voor elke query worden $N$ onafhankelijke trajecten gegenereerd. Een "judge model" (GPT-4o-mini) controleert of de antwoorden consistent zijn. Alleen trajecten die naar hetzelfde antwoord leiden, worden behouden.
Reflectie en Correctie: Als trajecten niet consistent zijn, wordt de redenering van het judge-model teruggevoerd naar de agent als externe kritiek om de redenering te verbeteren.
Regelgebaseerde Filtering: Trajecten worden gefilterd op formaat (ReAct), lengte (max 1024 tokens voor het antwoord) en taalkundige integriteit. Dit resulteert in DATAMIND-12K, een dataset van 11.707 hoogwaardige trajecten.

C. Training Strategie (SFT + RL)

Hybride Doelstelling: In plaats van eerst Supervised Fine-Tuning (SFT) en daarna Reinforcement Learning (RL), wordt een dynamisch gewogen doel gebruikt:
$L_{Final}(\theta) = \gamma L_{SFT}(\theta) + (1 - \gamma) L_{DAPO}(\theta)$
Waarbij $\gamma$ dynamisch afneemt (van 0.9 naar 0.05) tijdens het trainen. Dit zorgt voor stabiliteit in het begin (SFT) en moedigt exploratie aan in latere fasen (RL).
DAPO Algorithm: Er wordt gebruik gemaakt van Decoupled Clip and Dynamic Sampling Policy Optimization voor de RL-fase.

D. Stabiele Multi-turn Rollout

Om crashes en geheugenoverbelasting te voorkomen tijdens het trainen met code-uitvoering:

Asynchrone Interactie: Modellengeneratie en code-uitvoering worden ontkoppeld.
Chunk-wise Code Onderhoud: In plaats van een globale variabelepool (zoals in notebooks), wordt alleen de tekstuele code bewaard en samengevoegd bij uitvoering om het geheugengebruik te minimaliseren.
Veiligheid: Elke traject draait in een geïsoleerde sandbox met strikte limieten op tijd en geheugen.

3. Belangrijkste Bijdragen

DATAMIND-12K: Een nieuwe, hoogwaardige dataset met 12.000+ trajecten die diverse domeinen, taakcategorieën en bestandsformaten omvat.
DATAMIND-7B en DATAMIND-14B: Twee open-source modellen die zijn getraind met deze pipeline.
Nieuwe State-of-the-Art (SOTA): De modellen presteren beter dan de sterkste propriëtaire baselines (zoals GPT-5 en DeepSeek-V3.1) op data-analyse benchmarks.
Empirische Inzichten:
- Zelfconsistentie filtering is belangrijker dan het selecteren van het "beste" traject; diversiteit in redeneringspatronen binnen consistente antwoorden verbetert de prestaties.
- SFT fungeert als een stabilisator voor RL, maar een te hoge weging van SFT gedurende de hele training kan leiden tot overfitting en instorting van de exploratie (entropie).
- RL kan de prestatiekloof tussen modellen verkleinen, maar kan de fundamentele volgorde van modelcapaciteit niet volledig omkeren; de meeste kennis wordt verkregen tijdens SFT.

4. Resultaten

De modellen werden geëvalueerd op drie benchmarks: DABench, TableBench en BIRD.

DATAMIND-14B: Bereikt een gemiddelde score van 71,16% (pass@1), wat een nieuwe SOTA is. Dit presteert beter dan GPT-5, DeepSeek-V3.1 en alle andere open-source modellen.
DATAMIND-7B: Bereikt een score van 68,10%, wat het beste resultaat is onder alle open-source modellen, zelfs beter dan veel grotere modellen (zoals Llama-3.3-70B en Qwen-2.5-72B) zonder specifieke training.
Vergelijking: De modellen tonen robuustheid in het hanteren van verschillende bestandsformaten en complexe tabulaire data, terwijl gespecialiseerde modellen (zoals OmniSQL of TableLLM) sterk presteren op hun specifieke domein maar falen bij generalisatie naar andere formaten.

5. Betekenis en Impact

Dit paper is significant omdat het aantoont dat open-source modellen door middel van een zorgvuldig ontworpen data-synthese- en trainingspipeline (DATAMIND) propriëtaire modellen kunnen overtreffen in complexe, domeinspecifieke taken zoals data-analyse.

Het biedt een blauwdruk voor de gemeenschap om:

Schaalbare, hoogwaardige trainingsdata te synthetiseren zonder afhankelijk te zijn van menselijke annotatie.
Stabiele RL-training voor code-gebaseerde agenten te realiseren door dynamische balans tussen SFT en RL.
Algemene data-analytische agenten te bouwen die niet vastlopen op specifieke bestandsformaten of taaktypes.

De auteurs hebben de dataset (DATAMIND-12K) en de modellen (7B en 14B) open-source beschikbaar gesteld, wat een grote stap is voor de transparantie en reproduceerbaarheid in het veld van AI voor wetenschappelijke ontdekking.