Data Darwinism Part II: DataEvolve -- AI can Autonomously Evolve Pretraining Data Curation

Dit paper introduceert DataEvolve, een raamwerk dat pretrainingsdata-curatie automatiseert door strategieën via een evolutionaire cyclus te laten evolueren, wat resulteert in het superieure Darwin-CC-dataset dat handmatig ontworpen methoden overtreft.

Tiantian Mi, Dongming Shan, Zhen Huang, Yiwei Qin, Muhang Xie, Yuxuan Qiao, Yixiu Liu, Chenyang Zhou, Pengfei Liu

Gepubliceerd 2026-03-17
📖 4 min leestijd☕ Koffiepauze-leesvoer

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een enorme bibliotheek wilt bouwen om een superintelligente robot (een AI) te leren denken. Je hebt duizenden tonnen boeken, kranten en internetpagina's nodig. Maar hier is het probleem: de meeste van deze bronnen zijn een puinhoop. Ze zitten vol met reclames, kapotte links, dubbele zinnen, en onzin.

In het verleden hebben mensen geprobeerd deze "vuile" data schoon te maken door zelf regels te schrijven: "Haal alle reclame weg," of "Verwijder alle HTML-tags." Maar dat is als proberen een hele stad schoon te maken met één bezem. Het is te veel werk, en je mist vaak de specifieke problemen van bepaalde wijken (zoals medische teksten versus wiskundige formules).

Dit paper introduceert DataEvolve, een slimme manier om die schoonmaakregels niet door mensen te laten bedenken, maar door de computer zelf te laten evolueren, net zoals dieren in de natuur zich aanpassen om te overleven.

Hier is hoe het werkt, vertaald in alledaagse taal:

1. Het Probleem: De "Vuilnisbak" van de Wereld

De auteurs zeggen: "We hebben zoveel data, maar het is te rommelig." Als je een AI traint op deze rommel, wordt de AI ook een beetje rommelig.

  • De oude manier: Mensen kijken naar de data en zeggen: "Oh, dit is wiskunde, we moeten de formules beschermen." En dan: "Oh, dit is medisch, we moeten de ziektenamen niet veranderen." Dit kost jaren aan werk.
  • De nieuwe vraag: Kan de computer zelf leren hoe hij moet schoonmaken?

2. De Oplossing: De "Schoonmaak-Overlevingswedstrijd"

DataEvolve werkt als een soort evolutie-simulatie voor schoonmaakregels. Het is alsof je een wedstrijd organiseert tussen honderden verschillende "schoonmaakrobots".

Het proces ziet er zo uit:

  1. De Observator (De Schouderklop): De computer kijkt naar een kleine steekproef van de rommelige data. Hij zegt: "Hey, hier zit een vreemde code, hier staat een advertentie, en hier is een zin half afgebroken."
  2. De Ontwerper (De Architect): Op basis van die observaties bedenkt de computer een nieuwe "schoonmaakregelset" (een prompt).
  3. De Schoonmaker (De Uitvoerder): Deze regels worden toegepast op een stukje data.
  4. De Jury (De Keurmeester): Een andere AI kijkt naar het resultaat en zegt: "Goed gedaan, je hebt de reclame weggehaald, maar je hebt per ongeluk een belangrijke medische term verwijderd. Score: 6/10."

3. De Evolutie: "Overleven van de Fittest"

Dit is het slimme deel. De computer doet dit niet één keer, maar 30 keer achter elkaar voor elk onderwerp (zoals wiskunde, geneeskunde, etc.).

  • De regels die het beste scoren, worden "ouders".
  • De regels die slecht scoren, worden "weggegooid".
  • De volgende generatie regels krijgt de feedback van de vorige generatie: "Vergeet niet om die medische termen te beschermen!"
  • Na 30 rondes hebben ze een perfecte, op maat gemaakte schoonmaakstrategie gevonden die niemand van tevoren had bedacht.

4. Het Resultaat: Darwin-CC

Het resultaat van dit experiment is een nieuwe dataset genaamd Darwin-CC.

  • Ze hebben 672 miljard woorden (tokens) van internetdata genomen.
  • Na het "evolutie-proces" bleven er 504 miljard woorden over.
  • Het geheim: Ze hebben niet zomaar tekst herschreven (zoals "maak dit meer als een schoolboek"). Ze hebben zich gefocust op schoonmaken: verwijder de rommel, maar laat de originele inhoud intact.

5. Waarom is dit geweldig?

Toen ze een AI trainden met deze nieuwe, "geëvolueerde" data, gebeurde er iets magisch:

  • De AI werd veel slimmer in feiten leren (zoals medische kennis of wiskunde).
  • Het presteerde beter dan AI's die waren getraind op andere beroemde, "schoongemaakte" datasets.
  • De les: Het is niet nodig om de tekst volledig te herschrijven. Als je de "vuilnis" er gewoon netjes uit haalt en de "juweeltjes" (de feiten) intact laat, wordt de AI al veel beter.

De Grootte Analogie: De Tuin

Stel je voor dat je een tuin hebt die overwoekerd is door onkruid, maar er staan ook prachtige zeldzame bloemen tussen.

  • De oude manier: Je loopt rond met een grote hark en harkt alles plat, in de hoop dat de bloemen overleven. Veel bloemen gaan dood.
  • De DataEvolve manier: Je laat een team van tuinders (de AI's) een wedstrijd doen. Eerst harken ze een klein stukje. De jury zegt: "Jij hebt de roos beschadigd, jij hebt het onkruid gemist." De volgende ronde passen ze hun techniek aan. Na 30 rondes hebben ze een perfecte techniek ontwikkeld om alleen het onkruid te verwijderen, terwijl elke bloem perfect bewaard blijft.

Kortom: Dit paper toont aan dat we niet hoeven te wachten op slimme mensen om regels te schrijven. We kunnen AI's zelf laten leren hoe ze data het beste kunnen schoonmaken, wat leidt tot sterkere en slimmere AI's in de toekomst.

Ontvang papers zoals deze in je inbox

Gepersonaliseerde dagelijkse of wekelijkse digests op basis van jouw interesses. Gists of technische samenvattingen, in jouw taal.

Probeer Digest →