Scale Dependent Data Duplication

Each language version is independently generated for its own context, not a direct translation.

Titel: Waarom meer data niet altijd beter is: Het probleem van de "onzichtbare kopieën"

Stel je voor dat je een zeer slimme student wilt opleiden om de wereld te begrijpen. Je geeft hem een bibliotheek vol boeken. De regel is simpel: hoe meer boeken je hem geeft, hoe slimmer hij wordt. Dit is hoe we vandaag de dag kunstmatige intelligentie (zoals chatbots) trainen. We gooien er trilhoeveelheden aan tekst op af.

Maar deze nieuwe studie, geschreven door onderzoekers van o.a. Stanford, vertelt ons een verrassend verhaal: Soms helpt het niet om meer boeken te geven, als die boeken eigenlijk allemaal hetzelfde verhaal vertellen.

Hier is de uitleg in simpele taal, met een paar leuke vergelijkingen.

1. Het probleem: "Semantische Kopieën"

Normaal gesproken denken we dat een "kopie" iets is dat er exact hetzelfde uitziet, zoals twee keer hetzelfde PDF-bestand. Als je dat verwijdert, is de data "schoner".

Maar deze studie zegt: wacht even. Voor een heel slim model (een "capabel" model) zijn twee teksten die er anders uitzien, maar hetzelfde betekenen, ook kopieën.

Voorbeeld: Een nieuwsartikel in het Nederlands en een vertaling ervan in het Frans. Voor een mens zijn het twee verschillende teksten. Voor een slimme AI die de betekenis perfect begrijpt, zijn het twee keer hetzelfde verhaal.

De onderzoekers ontdekten iets interessants: naarmate een AI-model slimmer wordt, begint het deze "betekenis-kopieën" steeds meer als exacte kopieën te behandelen. Het leert er niet meer van. Het is alsof je een student twee keer hetzelfde verhaal vertelt, maar dan in een andere taal. De eerste keer leert hij iets, de tweede keer is het saai en leert hij niets nieuws.

2. De vergelijking: De "Smaakproever"

Stel je voor dat je een wijnproever opleidt.

Beginnend proever (Klein model): Hij kijkt vooral naar het etiket en de kleur van de fles. Als hij een fles "Château X" ziet en daarna een fles "Château X (Franse vertaling)", denkt hij: "Oh, dit is iets anders!" Hij leert van beide.
Meesterproever (Groot model): Hij proeft de wijn. Hij merkt dat de smaak, de structuur en de afdronk exact hetzelfde zijn. Hij denkt: "Dit is dezelfde wijn, alleen in een ander glas." Hij leert er niets nieuws van.

Hoe slimmer de AI wordt, hoe meer hij de "smaak" (de betekenis) herkent en hoe meer hij merkt dat hij eigenlijk dezelfde "wijn" (data) herhaald krijgt.

3. Het "Botsings"-probleem (De Semantic Collisions)

De onderzoekers keken naar enorme verzamelingen data (honderden miljarden woorden). Ze ontdekten een wetmatigheid:

Bij kleine verzamelingen is de kans klein dat je twee teksten vindt die precies dezelfde "smaak" hebben.
Maar naarmate de verzameling groter wordt, explosieert het aantal van deze "betekenis-kopieën".

Het is alsof je een gigantische zaal vult met mensen die allemaal een verhaal vertellen. Bij 100 mensen zijn er weinig dubbele verhalen. Maar bij 100 miljoen mensen vertellen ze allemaal hetzelfde verhaal, alleen in verschillende kleding. De AI loopt tegen een muur van "herhaling" aan, zelfs als de tekst er anders uitziet.

4. Het gevaar voor de toekomst

Veel bedrijven denken nu: "We hebben een tekort aan menselijke tekst, dus we laten AI tekst schrijven om die tekort aan te vullen."
Deze studie waarschuwt: Pas op!
Als je AI-taal gebruikt om meer tekst te maken, creëer je vaak een "echo-kamer". De AI schrijft dingen die semantisch (qua betekenis) heel veel op elkaar lijken.

Resultaat: Je hebt misschien wel miljarden woorden, maar ze bevatten weinig nieuwe ideeën. Het is alsof je een student 1000 keer hetzelfde boek laat lezen, maar dan met verschillende lettertypes. Hij wordt niet slimmer, hij wordt alleen maar beter in het onthouden van dat ene boek.

5. De oplossing: Een nieuwe rekenregel

De onderzoekers hebben een nieuwe formule bedacht. In plaats van alleen te kijken naar hoeveel data je hebt, moet je kijken naar hoe uniek de betekenis is.
Ze zeggen: "Als je weet hoeveel 'echte' unieke ideeën er in je dataset zitten, kun je precies voorspellen hoe goed je AI wordt."

Dit helpt ontwikkelaars om te begrijpen waarom hun AI soms stopt met verbeteren, zelfs als ze meer rekenkracht en data toevoegen. Het is niet dat de AI dom is; het is dat de "voorraad" aan nieuwe ideeën op is.

Samenvattend in één zin:

Hoe slimmer je AI wordt, hoe meer hij merkt dat veel van die "nieuwe" data eigenlijk maar herhalingen zijn van oude ideeën, en om echt slimmer te worden, heb je meer nieuwe ideeën nodig, niet alleen maar meer woorden.

Each language version is independently generated for its own context, not a direct translation.

Titel: Schaalafhankelijke Data-duplicatie (Scale Dependent Data Duplication)

Auteurs: Joshua Kazdan, Noam Levi, Rylan Schaeffer, et al. (Stanford University, EPFL, ServiceNow, IMC Trading).
Datum: Preprint, maart 2026.

1. Het Probleem: De Illusie van Schaalbaarheid

Moderne taalmodellen (LLM's) worden getraind op web-schaal datasets met biljoenen tokens. De huidige consensus is dat het simpelweg vergroten van parameters, rekenkracht en trainingsdata leidt tot betere prestaties ("The Bitter Lesson"). Echter, er is een kritiek probleem: data-duplicatie.

Traditioneel wordt duplicatie gezien als exacte kopieën of bijna-identieke documenten (op basis van oppervlakkige kenmerken zoals hash-waarden). De auteurs stellen echter dat bij web-schaal en voor zeer capabele modellen een nieuw fenomeen optreedt: semantische duplicatie.

De Kernproblematiek: Naarmate modellen slimmer worden, worden ze steeds gevoeliger voor betekenis. Twee documenten die oppervlakkig verschillend zijn (bijv. vertalingen van elkaar, of herschreven teksten), kunnen voor een capabel model exact dezelfde trainingsinformatie bevatten.
Het Gevolg: Deze "semantische duplicaten" gedragen zich tijdens het trainen als exacte duplicaten. Ze genereren bijna identieke gradiënten, wat leidt tot redundante updates en een afname van de effectieve unieke trainingsdata. Dit breekt de voorspelbare schaalwetten (scaling laws) die worden gebruikt om prestaties te extrapoleren.

2. Methodologie

De auteurs gebruiken een combinatie van empirische experimenten, statistische analyse van embeddings en theoretische modellering om dit fenomeen te kwantificeren.

A. Analyse van Gradiënt-Alignement (Semantische Gevoeligheid)

Opzet: Ze nemen 1000 documenten uit de FineWeb-Edu-Dedup dataset. Voor elk document berekenen ze de volledige parameter-gradiënt ( $\nabla_\theta \ell$ ) voor verschillende modelgroottes en trainingsfasen.
Transformaties: Ze passen semantisch behoudende transformaties toe (vertalen naar Chinees/Frans/Duits, hoofdletters wisselen, woorden verwijderen, karakters vervangen).
Metriek: Ze meten de cosine-similariteit tussen de gradiënten van het origineel en de getransformeerde versie, vergeleken met de similariteit tussen willekeurige, niet-gerelateerde documenten.
Doel: Bepalen of grotere modellen gradiënten genereren die semantisch equivalent zijn, zelfs als de oppervlakte verschilt.

B. Analyse van Semantische Collisies (Nearest-Neighbor Statistieken)

Dataset: 192 miljoen documenten uit FineWeb-Edu-Dedup.
Embeddings: Ze gebruiken EmbeddingGemma-300m om alle documenten te embedden.
Statistiek: Ze analyseren de nearest-neighbor (NN) cosine-similariteit naarmate de corpusgrootte toeneemt (van $10^4$ tot $10^8$ documenten).
Vergelijking: Ze vergelijken dit met synthetische data (Recycling-the-Web) om te zien of de diversiteit van synthetische data voldoende is.

C. Gecontroleerde Pretraining (Scaling Ladders)

Experiment: Ze trainen decoder-only transformers (Qwen-architectuur, 34M–344M parameters) op data die met terugplaatsing (sampling with replacement) wordt gehaald uit pools van beperkte unieke documenten ( $K$ ).
Doel: Simuleren van het effect van beperkte unieke data op grotere schaal en observeren hoe de loss-penalty toeneemt voor grotere modellen.

D. Theoretisch Model

Ze modelleren documenten als een combinatie van een semantische latent ( $z$ ) en een oppervlakkige transformatie ( $\tau$ ).
Ze definiëren "effectieve duplicaten": documenten die een gradiëntcosine-similariteit $\ge 1-\epsilon$ hebben.
Ze leiden een nieuwe schaalwet af die rekening houdt met de effectieve unieke grootte ( $K_{eff}$ ) en de semantische alignering ( $\rho$ ) die toeneemt met de modelgrootte.

3. Belangrijkste Resultaten

A. Semantische Gevoeligheid is Schaalafhankelijk

Kleine modellen: De gradiënten worden gedomineerd door oppervlakkige kenmerken (taalidentiteit, hoofdletters). Semantische duplicaten (zoals vertalingen) worden niet herkend als equivalent; hun gradiënten zijn niet gealigneerd.
Grote modellen: Naarmate het model groter en capabeler wordt, worden de gradiënten van semantisch equivalente documenten sterk gealigneerd. Voor een groot model zijn een Engelstalig document en zijn Franse vertaling bijna identiek in de gradiëntruimte.
Conclusie: Wat voor een klein model unieke data is, wordt voor een groot model redundant.

B. Breuk van Schaalwetten bij Semantische Collisies

Voor middelgrote corpora volgt de NN-similariteit een voorspelbare machtswet (power law).
Bij zeer grote corpora (honderden miljarden tokens) breekt deze wet: de NN-similariteit daalt veel sneller dan voorspeld. Dit betekent dat er exponentieel meer "semantische naburige" documenten zijn dan verwacht.
Synthetische Data: Synthetische datasets (gegenereerd door LLM's) tonen deze afwijking al bij een orde van grootte eerder dan real data. Dit suggereert dat synthetische data minder semantische diversiteit heeft en sneller "op" raakt.

C. Schaalafhankelijke Degradatie

Wanneer modellen worden getraind op een beperkte pool van unieke documenten ( $K$ $K$ ):
- Kleine modellen: Presteren redelijk goed; de degradatie is mild en voorspelbaar.
- Grote modellen: Er is een snelle, niet-lineaire toename van de loss. Na een bepaald punt (afhankelijk van $K$ en de modelgrootte) breekt de naive extrapolatie volledig.
De "effectieve unieke grootte" ( $K_{eff}$ ) krimpt naarmate het model groter wordt, omdat het model meer semantische varianten als duplicaten herkent.

D. Herstelde Schaalwetten

De auteurs leiden een nieuwe formule af om de degradatie te kwantificeren:
$\Delta(C, K) \approx a \cdot C^\beta \cdot K^{-\gamma}$
Waarbij:

$C$ = Rekenkracht (Compute).
$K$ = Aantal unieke documenten.
$\beta$ en $\gamma$ zijn exponenten die de invloed van semantische hergebruik en capaciteit beschrijven.
Ze tonen aan dat men $K_{eff}$ kan schatten op basis van de gemiddelde NN-cosine-similariteit van de datastream, waardoor men de verwachte loss kan voorspellen zonder de echte unieke grootte te kennen.

4. Bijdragen en Significantie

Praktische Implicaties

Herdefinitie van Duplicatie: Duplicatie is geen statische eigenschap van een dataset, maar een dynamische, schaalafhankelijke eigenschap die afhangt van het model.
Risico voor Synthetische Data: Het gebruik van synthetische data (LLM gegenereerd) voor pretraining is riskant. Deze data heeft vaak te weinig semantische diversiteit, wat leidt tot vroegtijdige saturatie van de trainingsinformatie en een breuk in schaalwetten.
Voorspellingsmodel: De paper biedt een methode om de "effectieve unieke grootte" van een dataset te schatten en de prestaties van toekomstige grote modellen accurater te voorspellen, rekening houdend met semantische redundantie.

Theoretische Bijdrage

Het paper verbindt de theorie van hiërarchisch leren (Random Hierarchy Model) met empirische gradiënt-analyse.
Het introduceert het concept dat semantische invariancie (het vermogen van een model om betekenis te herkennen ongeacht vorm) een bron van redundantie wordt bij schaalvergroting.

Toekomstige Richtingen

De auteurs waarschuwen dat als de totale hoeveelheid semantisch unieke menselijke gedachten op het web niet toereikend is voor de volgende generatie modellen, de industrie moet investeren in:

Meer efficiënte trainingsarchitecturen.
Methoden om semantische diversiteit in synthetische data te vergroten.
Striktere deduplicatie die rekening houdt met semantische equivalentie, niet alleen oppervlakkige gelijkenis.

Samenvattend

Deze paper onthult een "insidieuze" bron van schaalafhankelijkheid: naarmate modellen slimmer worden, zien ze meer duplicaten in de data dan we denken. Dit leidt tot een snellere afname van de leerkracht bij schaalvergroting dan de huidige lineaire extrapolaties voorspellen. De auteurs bieden een wiskundig kader om dit te corrigeren en waarschuwen voor de beperkingen van huidige datasets en synthetische data voor de toekomstige schaalvergroting van AI.