Scale Dependent Data Duplication

Each language version is independently generated for its own context, not a direct translation.

Die große Entdeckung: Wenn „Besseres Lernen" zum Problem wird

Stell dir vor, du möchtest einen Schüler (einen KI-Modell) darauf vorbereiten, die Welt zu verstehen. Du gibst ihm Bücher zum Lesen.

Das alte Problem:
Früher war das Problem einfach: Wenn du dem Schüler das exakt gleiche Buch 100-mal gibst, lernt er nichts Neues. Er merkt sich nur die Seiten auswendig, versteht aber den Inhalt nicht wirklich. Das nennt man „Duplikate". Man hat also versucht, alle doppelten Bücher aus dem Regal zu werfen.

Das neue, versteckte Problem:
Die Forscher haben nun etwas Überraschendes entdeckt: Was als „Duplikat" gilt, hängt davon ab, wie klug der Schüler ist.

Der kleine Schüler (kleines KI-Modell):
Wenn der Schüler noch jung und weniger erfahren ist, achtet er nur auf die Oberfläche.
- Beispiel: Er sieht zwei Bücher. Eines ist auf Englisch, das andere auf Französisch, aber sie erzählen die gleiche Geschichte.
- Reaktion: Für den kleinen Schüler sind das zwei völlig verschiedene Bücher. Er lernt aus beiden, weil die Wörter anders klingen. Er spürt keine Redundanz.
Der große Schüler (großes, starkes KI-Modell):
Wenn der Schüler sehr klug wird, versteht er die Bedeutung hinter den Wörtern.
- Beispiel: Er liest wieder das englische und das französische Buch.
- Reaktion: Jetzt denkt er: „Moment, das ist doch dieselbe Geschichte! Ich habe das schon gelernt." Für ihn sind die beiden Bücher identisch, auch wenn die Wörter anders sind. Er nennt das „semantische Duplikate".

Das Dilemma: Je smarter, desto mehr „Fake"-Duplikate

Hier kommt der Haken (und das ist der Kern der Studie):

Je smarter der Schüler wird, desto mehr „Duplikate" sieht er.
Dinge, die früher wie verschiedene Informationen aussahen (z. B. Übersetzungen, leicht umformulierte Texte, verschiedene Artikel über dasselbe Ereignis), werden für den klugen Schüler zu redundantem Gerede.
Das Internet ist riesig, aber nicht unendlich.
Wir trainieren diese KI-Modelle mit Billionen von Wörtern aus dem Internet. Je mehr Daten wir sammeln, desto höher ist die Wahrscheinlichkeit, dass wir auf diese „semantischen Duplikate" stoßen.

Die Analogie des Musikfestivals:
Stell dir vor, du bist auf einem riesigen Musikfestival (dem Internet).

Ein kleines Ohr (kleines Modell) hört: „Da spielt eine Band, da spielt eine andere." Es sind 100 verschiedene Bands.
Ein großes, erfahrenes Ohr (großes Modell) hört: „Moment, die erste Band spielt Rock, die zweite spielt auch Rock, die dritte ist nur eine Coverband der ersten."
Für das große Ohr sind es plötzlich nur noch 10 echte Bands, und 90 sind nur Wiederholungen.

Das Problem: Je mehr Daten wir dem großen Modell geben, desto schneller füllt sich sein Regal mit diesen „Cover-Bands". Es lernt nicht mehr schneller, sondern verliert nur Zeit mit dem Hören von Dingen, die es schon kennt.

Was passiert, wenn wir es ignorieren?

Die Forscher haben gezeigt, dass wir uns bisher zu sehr darauf verlassen haben, dass „mehr Daten = besseres Ergebnis" immer linear funktioniert.

Die falsche Vorhersage: Man dachte: „Wenn wir das Modell verdoppeln und die Daten verdoppeln, wird es doppelt so gut."
Die harte Realität: Wenn das Modell sehr groß wird, trifft es auf so viele „semantische Duplikate", dass die zusätzlichen Daten kaum noch etwas bringen. Die Leistung stagniert oder verschlechtert sich sogar, weil das Modell sich in Schleifen verheddert.

Die Lösung: Ein neuer Maßstab

Die Autoren haben eine neue Formel entwickelt. Sie sagen:
„Wir müssen nicht nur zählen, wie viele Bücher wir haben, sondern wie viele einzigartige Geschichten (semantische Einzigartigkeit) darin stecken."

Sie haben auch einen cleveren Trick gefunden: Man kann schätzen, wie viele echte Geschichten in einem Datenhaufen stecken, indem man sich anschaut, wie ähnlich sich die Texte untereinander sind (wie oft man im Regal auf Cover-Bands stößt). Damit kann man vorhersagen, wie gut ein Modell wirklich werden wird, bevor man es überhaupt trainiert.

Fazit für die Zukunft

Die Studie warnt uns vor einem falschen Weg:
Man kann nicht einfach unendlich viele KI-generierte Texte oder Übersetzungen sammeln und hoffen, dass das Modell dadurch genial wird. Wenn die Daten nicht wirklich neue Ideen enthalten, sondern nur dieselben Ideen in anderer Verpackung, wird das Modell am Ende nicht klüger, sondern nur müde und ineffizient.

Kurz gesagt:
Für kleine Modelle ist Vielfalt im Wortschatz wichtig. Für riesige, super-intelligente Modelle ist Vielfalt in den Ideen (semantische Einzigartigkeit) das wichtigste Gut. Wenn wir das ignorieren, stoßen wir an eine Wand, die wir mit bloßem „mehr Daten" nicht durchbrechen können.

Each language version is independently generated for its own context, not a direct translation.

Titel: Scale Dependent Data Duplication (Skalenabhängige Datenduplizierung)

Autoren: Joshua Kazdan, Noam Levi, Rylan Schaeffer, Jessica Chudnovsky, Abhay Puri, Bo He, Mehmet Donmez, Sanmi Koyejo, David Donoho.

1. Problemstellung

Das Training von Large Language Models (LLMs) stützt sich auf das „Scaling Law"-Paradigma: Leistung steigt mit mehr Parametern, mehr Rechenleistung und mehr Trainingsdaten. Ein zentrales Problem bei Web-Skala-Datensätzen ist die Datenduplizierung.

Herausforderung: Herkömmliche Deduplizierungsmethoden entfernen nur exakte oder oberflächliche Ähnlichkeiten (z. B. via SimHash).
Neue Erkenntnis: Mit zunehmender Modellkapazität werden semantisch äquivalente Dokumente (z. B. Übersetzungen, Paraphrasen) für das Modell zu redundanten Trainingssignalen. Ein leistungsfähiges Modell erkennt, dass zwei unterschiedlich formulierte Texte dieselbe Bedeutung haben, und aktualisiert seine Parameter in dieselbe Richtung.
Folge: Was für kleine Modelle als einzigartige Daten erscheint, wirkt für große Modelle wie eine exakte Duplizierung. Dies führt zu einer „semantischen Kollision" (Semantic Collision), die die effektive Datengröße reduziert und die Skalierbarkeit (Scaling Laws) untergräbt. Bisher war unklar, wie stark dieser Effekt mit der Skalierung zunimmt.

2. Methodik

Die Autoren untersuchen dieses Phänomen durch drei komplementäre experimentelle und theoretische Ansätze:

A. Analyse von Gradienten-Ähnlichkeit (Emergence of Semantics)

Setup: Sie trainieren Modelle unterschiedlicher Größe auf einem Datensatz (FineWeb-Edu-Dedup) und berechnen die Gradienten des Cross-Entropy-Verlusts für einzelne Dokumente.
Transformationen: Sie wenden semantik-erhaltende Transformationen an (z. B. Übersetzung ins Chinesische/Französische, Groß-/Kleinschreibung ändern, Wörter löschen).
Messung: Sie vergleichen die Kosinus-Ähnlichkeit der Gradienten zwischen:
1. Unverwandten Dokumenten (Negative Basislinie).
2. Einem Dokument und seiner transformierten Version (Positive).
Ziel: Zu prüfen, ob größere Modelle bei semantisch gleichen Dokumenten ähnliche Gradientenrichtungen (Updates) produzieren als bei zufälligen Dokumenten.

B. Analyse semantischer Kollisionen (Semantic Collisions)

Embedding: Sie embedden 192 Millionen Dokumente aus FineWeb-Edu-Dedup mit dem Modell EmbeddingGemma-300m.
Statistik: Sie analysieren die Kosinus-Ähnlichkeit der nächsten Nachbarn (Nearest-Neighbor, NN) in Abhängigkeit von der Korpusgröße ( $N$ ).
Vergleich: Sie testen, ob die Verteilung der Ähnlichkeiten einem isotropen Power-Law (wie bei zufälligen Daten) folgt oder ob es bei großen $N$ zu einer Abweichung kommt.
Synthetische Daten: Ein ähnlicher Test wird mit einem rein synthetischen Datensatz (Recycling-the-Web) durchgeführt, um die Diversität zu bewerten.

C. Kontrolliertes Pretraining und Skalierungsgesetze

Experiment: Sie trainieren Skalierungsleitern (Scaling Ladders) auf Datenströmen, die mit Zurücklegen aus einem Pool von $K$ einzigartigen Dokumenten gezogen werden (was exakte Wiederholungen erzwingt).
Vergleich: Dies wird mit einem „unendlich einzigartigen" Baseline-Strahl (ohne Zurücklegen) verglichen.
Theorie: Sie leiten eine neue Skalierungsformel her, die die begrenzte semantische Einzigartigkeit ( $K_{eff}$ ) und die zunehmende semantische Sensitivität ( $\rho$ ) des Modells explizit modelliert.

3. Wichtige Ergebnisse

A. Skalierungsabhängige Semantik

Kleine Modelle: Ihre Gradienten werden von oberflächlichen Merkmalen (Sprache, Großschreibung) dominiert. Semantische Duplikate erzeugen keine signifikant ähnlicheren Gradienten als zufällige Paare.
Große Modelle: Mit zunehmender Kapazität werden die Gradienten für semantisch äquivalente Dokumente stark ausgerichtet (hohe Kosinus-Ähnlichkeit).
Fazit: Für leistungsfähige Modelle verhalten sich semantische Duplikate wie exakte Duplikate und führen zu redundanten Updates.

B. Zusammenbruch der Skalierungsgesetze bei Kollisionen

Power-Law-Abweichung: Bei kleinen Datensätzen folgt die Anzahl der nächsten Nachbarn einem vorhersehbaren Power-Law. Sobald das Korpus jedoch auf Hunderte von Milliarden Token wächst, bricht dieses Gesetz zusammen.
Beschleunigte Kollisionen: Die Ähnlichkeit der nächsten Nachbarn sinkt viel schneller als erwartet, was auf eine massive Zunahme semantischer Kollisionen hindeutet.
Synthetische Daten: Bei synthetischen Daten tritt dieser Zusammenbruch der Diversität bereits eine Größenordnung früher auf als bei realen Daten, was auf eine geringere semantische Vielfalt hinweist.

C. Verluststrafen und Skalierungsgesetze

Skalenabhängige Degradation: Bei kleinen Modellen führt eine begrenzte Einzigartigkeit ( $K$ ) nur zu milden Leistungsverlusten. Bei großen Modellen (hoher FLOP-Budget) steigen die Verluststrafen jedoch exponentiell an.
Bruch der Extrapolation: Naive Skalierungsextrapolationen (basierend auf kleinen Modellen) unterschätzen die Verluste großer Modelle, wenn die Datenmenge begrenzt ist.
Wiederhergestellte Vorhersagbarkeit: Die Autoren leiten eine korrigierte Skalierungsformel her:
$\Delta(C, K) \approx a \cdot C^\beta \cdot K_{eff}^{-\gamma}$
Dabei ist $\Delta$ der relative Verlustanstieg, $C$ die Rechenleistung, und $K_{eff}$ die effektive Einzigartigkeit. Diese Formel erlaubt es, den Verlust basierend auf der verfügbaren semantischen Vielfalt vorherzusagen.

D. Schätzung der effektiven Einzigartigkeit

Es wird gezeigt, dass man $K_{eff}$ direkt aus der mittleren Kosinus-Ähnlichkeit der nächsten Nachbarn im Trainingsstrom schätzen kann, ohne die wahre Anzahl einzigartiger Dokumente zu kennen. Dies ermöglicht eine praktische Korrektur von Skalierungsprognosen.

4. Bedeutung und Implikationen

Ende des „Blinden Skalierens": Die Arbeit widerlegt die naive Annahme, dass mehr Token immer linear zu besserer Leistung führen. Wenn die semantische Vielfalt erschöpft ist, führt mehr Training nur zu redundanten Updates und Verschwendung von Rechenressourcen.
Warnung vor synthetischen Daten: Da synthetische Daten (LLM-generierte Texte) oft eine geringere semantische Diversität aufweisen, kollidieren sie viel früher. Das bloße Skalieren der Token-Menge mit synthetischen Daten könnte die Leistungsgrenzen früher erreichen als erwartet.
Neue Metriken für die Praxis: Anstatt nur auf die Rohzahl der Token zu schauen, müssen Praktiker die effektive semantische Einzigartigkeit ( $K_{eff}$ ) und die semantische Sensitivität ( $\rho$ ) des Modells berücksichtigen.
Zukünftige Richtungen: Die Ergebnisse deuten darauf hin, dass die Branche entweder in die Entwicklung dateneffizienterer Architekturen investieren muss oder massive Investitionen in die Sicherstellung semantischer Vielfalt in Datensätzen (auch synthetischen) tätigen muss, um die Skalierungsgesetze aufrechtzuerhalten.

Zusammenfassend identifiziert das Paper eine bisher unbekannte Quelle der Skalierungsabhängigkeit: Die Tatsache, dass die Definition eines „Duplikats" nicht statisch ist, sondern mit der Modellkapazität wächst. Dies erfordert eine Neubewertung von Datenstrategien für das Training zukünftiger, noch größerer Sprachmodelle.