DIVE: Scaling Diversity in Agentic Task Synthesis for Generalizable Tool Use

Het paper introduceert DIVE, een bewijsgedreven methode die de volgorde van taaksynthese omkeert door eerst diverse real-world tool-uitvoeringen te genereren en daarop gebaseerde taken af te leiden, wat leidt tot een aanzienlijke verbetering in de generalisatie van tool-gebruikende LLM's op onbekende taken en toolsets.

Aili Chen, Chi Zhang, Junteng Liu, Jiangjie Chen, Chengyu Du, Yunji Li, Ming Zhong, Qin Wang, Zhengmao Zhu, Jiayuan Song, Ke Ji, Junxian He, Pengyu Zhao, Yanghua Xiao

Gepubliceerd Fri, 13 Ma
📖 4 min leestijd☕ Koffiepauze-leesvoer

Each language version is independently generated for its own context, not a direct translation.

DIVE: Hoe we AI-agenten leren om niet alleen te lezen, maar ook te doen

Stel je voor dat je een jonge kok (de AI) wilt leren koken. De meeste methoden in de wereld van kunstmatige intelligentie zijn als volgt: je geeft de kok een receptenboek vol met theoretische recepten. "Als je aardappels wilt schillen, gebruik dan mes A." Maar in de echte wereld zijn er duizenden verschillende messen, schillen en kookpotten, en soms moet je een aardappel eerst wassen, dan schillen, en daarna in blokjes snijden.

Het probleem met de huidige AI's is dat ze vaak alleen maar recepten hebben geleerd voor één specifieke situatie. Als je ze vraagt om iets te doen met een ander type mes of in een andere keuken, raken ze in de war. Ze zijn te stijf.

De onderzoekers van dit paper (DIVE) zeggen: "Nee, laten we de kok niet eerst een recept geven. Laten we eerst koken."

Hier is hoe hun nieuwe methode, DIVE, werkt, vertaald naar alledaagse taal:

1. Het oude probleem: "Eerst het recept, dan de keuken"

Tot nu toe maakten AI's oefenopdrachten door eerst een vraag te bedenken (bijv. "Zoek de beste pizza in Amsterdam") en toen te proberen of de AI dat kon oplossen.

  • Het risico: Vaak bleek achteraf dat de AI het niet kon, omdat de tools (zoals zoekmachines of databases) niet werkten zoals verwacht. Het was alsof je een recept schrijft voor een ingrediënt dat je niet in de winkel kunt vinden.
  • Het gevolg: De AI oefent met veel vragen die onoplosbaar zijn of met slechts één soort "mes" (bijv. alleen zoeken op internet). Ze worden goed in dat ene ding, maar faalt als je ze iets anders vraagt.

2. De DIVE-oplossing: "Eerst koken, dan het recept schrijven"

DIVE draait het proces om. In plaats van een vraag te bedenken en te hopen dat het werkt, doen ze het volgende:

  • Stap 1: De "Kook-uitdaging" (Tools uitvoeren): Ze laten de AI eerst echt werken met een enorme verzameling van echte, verschillende tools. Denk aan 373 verschillende "messen en potten": van het opzoeken van medicijnen, het analyseren van beurscijfers, tot het zoeken in academische papers.
  • Stap 2: De "Kooksporen" verzamelen: De AI gebruikt deze tools en laat zien wat er gebeurt. "Ik heb deze medicijnnaam opgezocht, dit is de dosis, en nu heb ik gecheckt of het veilig is." Dit zijn de bewijzen (evidence).
  • Stap 3: Het recept achteruit afleiden: Pas na het koken schrijven ze de vraag op die bij dit resultaat hoort. "Hoeveel milliliter van dit medicijn moet een patiënt nemen?" Omdat het antwoord al bestaat (uit de echte kooksporen), weten ze zeker dat de vraag oplosbaar is.

De analogie:
Stel je voor dat je een detective bent.

  • Oude methode: Je bedenkt een moordzaak ("Wie heeft de vaas gebroken?") en hoopt dat je getuigen (tools) iets weten. Vaak weten ze niets, en is het verhaal onzin.
  • DIVE-methode: Je laat de detective eerst alle getuigen horen en alle sporen verzamelen. Pas als je ziet dat de getuigen zeggen "Het was de tuinman met de bloempot", schrijf je dan pas de vraag op: "Wie heeft de vaas gebroken?". Je weet nu zeker dat het antwoord bestaat en dat de detective het kan vinden.

3. Waarom is dit zo krachtig?

De onderzoekers ontdekten iets verrassends: Kwaliteit en diversiteit zijn belangrijker dan hoeveelheid.

  • De "Veel-is-beter"-mythe: Veel mensen denken dat je een AI slimmer maakt door hem 100.000 keer hetzelfde soort vraag te laten beantwoorden (bijv. alleen maar zoeken op internet).
  • De DIVE-waarheid: Het is beter om de AI 12.000 keer te laten oefenen met heel verschillende tools en situaties (medicijnen, financiën, code, biologie) dan om 48.000 keer hetzelfde te doen.
  • Het resultaat: De AI leert niet alleen wat hij moet doen, maar hoe hij moet denken in een nieuwe situatie. Het is alsof je een kok leert om met elk type mes om te gaan, in plaats van alleen met één specifiek mes.

4. De resultaten in het kort

Toen ze deze methode toepasten op een AI-model (Qwen3-8B), gebeurde er iets magisch:

  • De AI werd 22% slimmer in het oplossen van nieuwe, onbekende problemen.
  • Ze presteerde beter dan modellen die veel groter waren (maar minder gevarieerd hadden geoefend).
  • Zelfs met 4 keer minder data dan andere methoden, was hun AI beter.

Conclusie

DIVE is als het geven van een "multitool" aan een leerling in plaats van alleen een hamer. Door eerst te laten zien wat er mogelijk is met echte tools, en pas daarna de vragen te bedenken, leren ze AI's om flexibel, creatief en betrouwbaar te zijn in de echte wereld. Ze leren niet alleen te antwoorden, maar echt te handelen.