Scale Dependent Data Duplication

Die Studie zeigt, dass semantische Daten-Duplikate mit zunehmender Modellgröße und Korpusumfang zu stärkeren Gradienten-Übereinstimmungen und schnelleren semantischen Kollisionen führen, was die Leistung größerer Modelle beeinträchtigt und eine Anpassung der Skalierungsgesetze für präzisere Vorhersagen erfordert.

Joshua Kazdan, Noam Levi, Rylan Schaeffer, Jessica Chudnovsky, Abhay Puri, Bo He, Mehmet Donmez, Sanmi Koyejo, David Donoho

Veröffentlicht 2026-03-10
📖 4 Min. Lesezeit☕ Kaffeepausen-Lektüre

Each language version is independently generated for its own context, not a direct translation.

Die große Entdeckung: Wenn „Besseres Lernen" zum Problem wird

Stell dir vor, du möchtest einen Schüler (einen KI-Modell) darauf vorbereiten, die Welt zu verstehen. Du gibst ihm Bücher zum Lesen.

Das alte Problem:
Früher war das Problem einfach: Wenn du dem Schüler das exakt gleiche Buch 100-mal gibst, lernt er nichts Neues. Er merkt sich nur die Seiten auswendig, versteht aber den Inhalt nicht wirklich. Das nennt man „Duplikate". Man hat also versucht, alle doppelten Bücher aus dem Regal zu werfen.

Das neue, versteckte Problem:
Die Forscher haben nun etwas Überraschendes entdeckt: Was als „Duplikat" gilt, hängt davon ab, wie klug der Schüler ist.

  1. Der kleine Schüler (kleines KI-Modell):
    Wenn der Schüler noch jung und weniger erfahren ist, achtet er nur auf die Oberfläche.

    • Beispiel: Er sieht zwei Bücher. Eines ist auf Englisch, das andere auf Französisch, aber sie erzählen die gleiche Geschichte.
    • Reaktion: Für den kleinen Schüler sind das zwei völlig verschiedene Bücher. Er lernt aus beiden, weil die Wörter anders klingen. Er spürt keine Redundanz.
  2. Der große Schüler (großes, starkes KI-Modell):
    Wenn der Schüler sehr klug wird, versteht er die Bedeutung hinter den Wörtern.

    • Beispiel: Er liest wieder das englische und das französische Buch.
    • Reaktion: Jetzt denkt er: „Moment, das ist doch dieselbe Geschichte! Ich habe das schon gelernt." Für ihn sind die beiden Bücher identisch, auch wenn die Wörter anders sind. Er nennt das „semantische Duplikate".

Das Dilemma: Je smarter, desto mehr „Fake"-Duplikate

Hier kommt der Haken (und das ist der Kern der Studie):

  • Je smarter der Schüler wird, desto mehr „Duplikate" sieht er.
    Dinge, die früher wie verschiedene Informationen aussahen (z. B. Übersetzungen, leicht umformulierte Texte, verschiedene Artikel über dasselbe Ereignis), werden für den klugen Schüler zu redundantem Gerede.
  • Das Internet ist riesig, aber nicht unendlich.
    Wir trainieren diese KI-Modelle mit Billionen von Wörtern aus dem Internet. Je mehr Daten wir sammeln, desto höher ist die Wahrscheinlichkeit, dass wir auf diese „semantischen Duplikate" stoßen.

Die Analogie des Musikfestivals:
Stell dir vor, du bist auf einem riesigen Musikfestival (dem Internet).

  • Ein kleines Ohr (kleines Modell) hört: „Da spielt eine Band, da spielt eine andere." Es sind 100 verschiedene Bands.
  • Ein großes, erfahrenes Ohr (großes Modell) hört: „Moment, die erste Band spielt Rock, die zweite spielt auch Rock, die dritte ist nur eine Coverband der ersten."
    Für das große Ohr sind es plötzlich nur noch 10 echte Bands, und 90 sind nur Wiederholungen.

Das Problem: Je mehr Daten wir dem großen Modell geben, desto schneller füllt sich sein Regal mit diesen „Cover-Bands". Es lernt nicht mehr schneller, sondern verliert nur Zeit mit dem Hören von Dingen, die es schon kennt.

Was passiert, wenn wir es ignorieren?

Die Forscher haben gezeigt, dass wir uns bisher zu sehr darauf verlassen haben, dass „mehr Daten = besseres Ergebnis" immer linear funktioniert.

  • Die falsche Vorhersage: Man dachte: „Wenn wir das Modell verdoppeln und die Daten verdoppeln, wird es doppelt so gut."
  • Die harte Realität: Wenn das Modell sehr groß wird, trifft es auf so viele „semantische Duplikate", dass die zusätzlichen Daten kaum noch etwas bringen. Die Leistung stagniert oder verschlechtert sich sogar, weil das Modell sich in Schleifen verheddert.

Die Lösung: Ein neuer Maßstab

Die Autoren haben eine neue Formel entwickelt. Sie sagen:
„Wir müssen nicht nur zählen, wie viele Bücher wir haben, sondern wie viele einzigartige Geschichten (semantische Einzigartigkeit) darin stecken."

Sie haben auch einen cleveren Trick gefunden: Man kann schätzen, wie viele echte Geschichten in einem Datenhaufen stecken, indem man sich anschaut, wie ähnlich sich die Texte untereinander sind (wie oft man im Regal auf Cover-Bands stößt). Damit kann man vorhersagen, wie gut ein Modell wirklich werden wird, bevor man es überhaupt trainiert.

Fazit für die Zukunft

Die Studie warnt uns vor einem falschen Weg:
Man kann nicht einfach unendlich viele KI-generierte Texte oder Übersetzungen sammeln und hoffen, dass das Modell dadurch genial wird. Wenn die Daten nicht wirklich neue Ideen enthalten, sondern nur dieselben Ideen in anderer Verpackung, wird das Modell am Ende nicht klüger, sondern nur müde und ineffizient.

Kurz gesagt:
Für kleine Modelle ist Vielfalt im Wortschatz wichtig. Für riesige, super-intelligente Modelle ist Vielfalt in den Ideen (semantische Einzigartigkeit) das wichtigste Gut. Wenn wir das ignorieren, stoßen wir an eine Wand, die wir mit bloßem „mehr Daten" nicht durchbrechen können.