Data Darwinism Part II: DataEvolve -- AI can Autonomously Evolve Pretraining Data Curation

Das Paper stellt DataEvolve vor, ein Framework, das durch einen automatisierten evolutionären Prozess Strategien zur Datenkuratierung für heterogene Pretraining-Korpora entwickelt und damit mit dem daraus resultierenden Darwin-CC-Datensatz signifikant bessere Modellleistungen erzielt als manuell kuratierte oder rohe Daten.

Tiantian Mi, Dongming Shan, Zhen Huang, Yiwei Qin, Muhang Xie, Yuxuan Qiao, Yixiu Liu, Chenyang Zhou, Pengfei Liu

Veröffentlicht 2026-03-17
📖 4 Min. Lesezeit☕ Kaffeepausen-Lektüre

Each language version is independently generated for its own context, not a direct translation.

🧬 Die Evolution der Daten: Wie KI ihre eigene Nahrung selbst kocht

Stell dir vor, du möchtest einen genialen Koch (eine Künstliche Intelligenz) ausbilden. Damit er Meisterwerke kocht, brauchst du die besten Zutaten. Aber woher kommen diese Zutaten? Aus dem Internet. Das Internet ist riesig, aber es ist auch ein riesiger, chaotischer Supermarkt.

Das Problem:
Wenn du einfach alles aus dem Supermarkt nimmst (die „rohen Daten"), bekommst du eine Mischung aus frischem Gemüse, alten Dosen, Dreck, Werbung und kaputten Etiketten. Wenn du dem Koch diese Mischung gibst, wird er verwirrt und lernt nicht so gut.

Bisher haben Menschen versucht, diesen Supermarkt zu säubern. Sie haben sich hingesetzt und gesagt: „Okay, bei Mathe-Daten entfernen wir Werbung, bei Medizin-Daten löschen wir falsche Dosierungen." Das ist wie ein Koch, der jeden einzelnen Apfel von Hand schält. Das funktioniert gut für ein paar Äpfel, aber wenn du 672 Milliarden Äpfel hast (das ist die Größe der Daten), wird es unmöglich. Niemand hat die Zeit, für jede einzelne Kategorie (Mathe, Medizin, Code, Geschichte) einen eigenen, perfekten Reinigungsplan zu schreiben.

Die Lösung: DataEvolve (Der evolutionäre Koch)
Die Forscher aus diesem Papier haben eine geniale Idee: Warum soll der Koch nicht lernen, wie man die Zutaten selbst aussortiert? Sie haben ein System namens DataEvolve entwickelt.

Stell dir DataEvolve wie einen evolutionären Garten vor:

  1. Der Beobachter (Der Gärtner):
    Der Computer schaut sich eine kleine Probe der Daten an (z. B. ein paar Mathe-Artikel). Er sagt: „Autsch! Hier ist viel Müll, hier sind die Formeln kaputt, und hier steht Werbung für Zahnpasta mitten in einer Gleichung." Er schreibt diese Fehler in ein Fehler-Logbuch.

  2. Der Designer (Der Erfinder):
    Basierend auf dem Logbuch erfindet der Computer einen neuen „Reinigungsplan" (eine Strategie). Er sagt: „Okay, beim nächsten Mal löschen wir alle Zahnpasta-Werbung und reparieren die Formeln."

  3. Der Tester (Der Probierstube):
    Der Computer wendet diesen Plan auf eine neue kleine Probe an. Dann prüft ein Richter (ein anderer KI-Modell), ob das Ergebnis besser ist.

    • War es erfolgreich? Super! Der Plan wird gespeichert und verbessert.
    • War es schlecht? Weg damit! Der Plan wird verworfen.
  4. Die Evolution (Das Überleben des Besten):
    Dieser Prozess läuft 30 Mal hintereinander für jede Datenkategorie. Wie in der Natur: Die besten Reinigungspläne überleben, die schlechten sterben aus. Mit jeder Runde werden die Pläne schlauer und passgenauer. Am Ende hat das System für Mathe einen anderen Plan entwickelt als für Medizin, weil es selbst gelernt hat, was dort funktioniert.

Das Ergebnis: Darwin-CC
Am Ende des Prozesses haben die Forscher ein riesiges Dataset namens Darwin-CC erstellt. Es ist wie ein riesiger, perfekt sortierter Vorratsraum, der aus den ursprünglichen 672 Milliarden Datenstücken auf 504 Milliarden „geputzte" Stücke reduziert wurde.

Was passiert, wenn man damit trainiert?
Die Forscher haben einen kleinen KI-Koch (ein 3-Milliarden-Parameter-Modell) mit diesen Daten gefüttert. Das Ergebnis war verblüffend:

  • Die KI war deutlich schlauer als solche, die mit rohen Daten trainiert wurden.
  • Besonders in Wissensfragen (wie Medizin oder Mathe) war sie ein Genie. Sie konnte Fakten viel besser behalten, weil der „Müll" entfernt war, der sie abgelenkt hätte.
  • Sie war sogar besser als andere berühmte Datensätze, die von Menschen handgefertigt wurden.

Die große Erkenntnis: Sauberkeit statt Umbau
Das Überraschendste an der Studie ist, was die KI gelernt hat, um die Daten zu verbessern.
Früher dachten viele: „Wir müssen die Texte umschreiben, damit sie wie ein Schulbuch klingen."
Aber DataEvolve hat gelernt: Nein, wir müssen sie nur putzen.
Die KI hat entdeckt, dass man die Texte nicht umschreiben muss. Man muss nur den Dreck entfernen (Werbung, HTML-Tags, doppelte Sätze) und sicherstellen, dass die wichtigen Teile (wie medizinische Einheiten oder mathematische Beweise) intakt bleiben.

Zusammenfassung in einem Satz:
Statt dass Menschen mühsam versuchen, für jede Datenart einen Reinigungsplan zu erfinden, haben die Forscher eine KI entwickelt, die sich selbstständig die besten Reinigungspläne „heranwachsen" lässt – ähnlich wie die Natur durch Evolution die besten Überlebensstrategien findet. Das Ergebnis ist eine KI, die mit weniger, aber saubereren Daten viel schlauer wird.

Erhalten Sie solche Paper in Ihrem Posteingang

Personalisierte tägliche oder wöchentliche Digests passend zu Ihren Interessen. Gists oder technische Zusammenfassungen, in Ihrer Sprache.

Digest testen →