Scaling Generalist Data-Analytic Agents

Dit paper introduceert DataMind, een schaalbaar trainingskader voor open-source data-analyse-agenten dat via geavanceerde datasyntese en een dynamisch trainingsdoel de state-of-the-art bereikt en zelfs proprietaire modellen zoals GPT-5 overtreft.

Shuofei Qiao, Yanqiu Zhao, Zhisong Qiu, Xiaobin Wang, Jintian Zhang, Zhao Bin, Ningyu Zhang, Yong Jiang, Pengjun Xie, Fei Huang, Huajun Chen

Gepubliceerd 2026-03-16
📖 5 min leestijd🧠 Diepgaand

Each language version is independently generated for its own context, not a direct translation.

🕵️‍♂️ De Databeslissers: Hoe we een AI-trainingskamp bouwden

Stel je voor dat je een superintelligente assistent wilt die niet alleen kan lezen, maar ook echte data-analyses kan doen. Denk aan het vinden van trends in miljoenen verkoopgegevens, het ontdekken van vreemde patronen in ziekenhuisstatistieken of het beantwoorden van complexe vragen over economie.

Vroeger waren dit soort taken alleen voor dure, gesloten computers (zoals die van Google of OpenAI) die je via ingewikkelde instructies (prompt engineering) moest besturen. Open-source modellen (die gratis en open zijn) waren vaak te dom voor dit werk: ze raakten in de war bij grote bestanden of konden niet goed redeneren in stappen.

De auteurs van dit paper (van Zhejiang Universiteit en Alibaba) hebben een oplossing bedacht: DATAMIND.

🏗️ Het Bouwplan: Hoe maak je zo'n slimme agent?

Het paper beschrijft een recept om een "algemene" data-analist te bouwen. Ze noemen drie grote obstakels die ze hebben opgelost:

  1. Het gebrek aan goede voorbeelden (Data): Er waren niet genoeg oefenopdrachten met stap-voor-stap oplossingen.
    • De oplossing: Ze hebben een "fabriek" gebouwd die automatisch duizenden nieuwe oefenopdrachten maakt. Ze beginnen met simpele vragen en maken ze langzaam steeds moeilijker, alsof je een leerling eerst laat optellen en daarna laat integreren.
  2. De verkeerde trainingsmethode: Gewoon kopiëren (SFT) werkt niet goed genoeg voor complexe redeneringen.
    • De oplossing: Ze gebruiken een mix van "leren van een leraar" (SFT) en "leren door te proberen en fouten te maken" (Reinforcement Learning of RL). Ze wisselen dit slim af: eerst veel leren van de leraar, en later meer ruimte geven om zelf te ontdekken.
  3. Het instabiele brein: Als de AI te veel tegelijk doet, crasht het systeem of raakt het de draad kwijt.
    • De oplossing: Ze hebben een "veiligheidsnet" gebouwd. De AI werkt in een afgesloten kamer (sandbox) waar ze geen schade kunnen aanrichten, en het systeem zorgt dat het geheugen niet volloopt, zelfs niet bij lange gesprekken.

🎓 De Grote Doorbraak: DATAMIND-12K

Het team heeft een enorme verzameling oefenmateriaal gemaakt genaamd DATAMIND-12K.

  • Wat is het? 12.000 hoogwaardige voorbeelden van data-vragen en de juiste code-oplossingen.
  • Hoe werkt het? Ze hebben data uit het internet gehaald (zoals Kaggle), er slimme vragen over bedacht, en dan een "rechter-AI" (een sterke model) laten controleren of de oplossing klopt. Alleen de beste oplossingen kwamen in de verzameling.

🏆 De Resultaten: De Open-Source Koning

Toen ze hun eigen modellen (DATAMIND-7B en DATAMIND-14B) trainden met deze verzameling, gebeurde er iets verbazingwekkends:

  • DATAMIND-14B (een model van 14 miljard parameters) deed het beter dan de beste dure, gesloten modellen van de wereld, zoals GPT-5 en DeepSeek-V3.1.
  • DATAMIND-7B (kleiner, 7 miljard parameters) deed het beter dan elk ander open-source model.

Het is alsof een lokale kok (open-source) met een nieuw, geheim recept (DATAMIND) een Michelin-sterrenrestaurant (de dure modellen) verslaat in een kookwedstrijd.

💡 Drie Belangrijke Lerenlessen (De "Geheimen")

Uit hun experimenten kwamen drie interessante inzichten naar voren, die nuttig zijn voor iedereen die AI probeert te trainen:

  1. Kwaliteit is belangrijker dan "de beste" keuze:
    Het is niet nodig om alleen de perfecte oplossing te kiezen voor training. Als drie AI's verschillende wegen nemen maar allemaal tot hetzelfde goede antwoord komen, is het beter om alle drie die wegen te gebruiken. Dit maakt de AI flexibeler.

    • Analogie: Als je een kind leert fietsen, is het niet nodig om alleen de perfecte fietser te imiteren. Als drie vrienden op drie verschillende manieren naar huis fietsen en allemaal aankomen, leer je het kind meer variatie door ze allemaal na te doen.
  2. De Leraar moet soms loslaten:
    Als je de AI te lang laat kopiëren van de leraar (SFT), wordt hij star en durft hij niet meer zelf te denken. Als je te snel stopt met kopiëren, raakt hij de draad kwijt.

    • Analogie: Het is als het opvoeden van een kind. In het begin heb je veel begeleiding nodig (grote leraar-factor). Maar als het kind groeit, moet je de begeleiding langzaam afbouwen, anders wordt het kind onzeker en durft het niet meer zelf te beslissen.
  3. Oefening baart kunst, maar het startpunt telt:
    Reinforcement Learning (leren door fouten) kan de kloof tussen een slim en een minder slim model verkleinen, maar het kan een dom model niet plotseling super slim maken.

    • Analogie: Je kunt een beginnende atleet trainen tot hij olympisch is, maar je kunt een atleet die niet fit is niet trainen tot hij sneller is dan een wereldkampioen. Je moet een goed startpunt hebben.

🚀 Conclusie

De boodschap van dit paper is simpel: Je hebt geen dure, gesloten AI nodig om data-analyses te doen. Met de juiste trainingsmethode (DATAMIND), een goede verzameling oefenmateriaal en een slimme balans tussen leren en ontdekken, kun je met open-source modellen resultaten boeken die de beste ter wereld verslaan.

Ze hebben hun code en data gratis beschikbaar gesteld, zodat iedereen mee kan doen aan de revolutie in automatische data-analyse.

Ontvang papers zoals deze in je inbox

Gepersonaliseerde dagelijkse of wekelijkse digests op basis van jouw interesses. Gists of technische samenvattingen, in jouw taal.

Probeer Digest →