Drift and selection in LLM text ecosystems

Each language version is independently generated for its own context, not a direct translation.

De Zelfvoedende Bibliotheek: Hoe AI en Mensen Samen Schrijven

Stel je een gigantische bibliotheek voor. In deze bibliotheek staan niet alleen oude boeken, maar ook nieuwe verhalen die door robots (AI) zijn geschreven. Het vreemde is: de robots leren hun schrijven uit de boeken in deze bibliotheek.

Dit creëert een cyclus:

De robots schrijven nieuwe teksten.
Deze teksten komen in de bibliotheek.
De volgende generatie robots leert van alle teksten, inclusief de oude en de nieuwe.
En zo gaat het maar door.

De vraag die Søren Riis stelt, is: Wat gebeurt er met de bibliotheek als we dit oneindig laten doorgaan? Wordt de wereld van tekst steeds slimmer, of wordt hij juist saai en leeg?

Het antwoord hangt af van twee krachten die in de bibliotheek werken: Drijven en Kiezen.

1. Drijven: Het Verdwijnsel van de Zeldzame Woorden

(De kracht van het toeval)

Stel je voor dat je een grote pot met gekleurde kralen hebt. De meeste kralen zijn rood (gewone woorden), maar er zijn een paar blauwe en groene kralen (zeldzame, creatieve woorden).

Elke dag haal je een handvol kralen uit de pot, schrijft je ze op, en gooit je ze terug. Maar je doet dit op een slordige manier: soms pak je per ongeluk geen enkele blauwe kraal. De volgende dag heb je dus minder blauwe kralen in de pot. Omdat de robots alleen leren van wat ze zien, zullen ze de volgende dag ook geen blauwe kralen meer gebruiken.

Wat gebeurt er?
Na verloop van tijd zijn de blauwe en groene kralen verdwijnen. De pot zit vol met alleen maar rode kralen.

In het echt: Zeldzame woorden, rare zinsconstructies en complexe ideeën worden uit de tekstwereld gespoeld. De taal wordt eenvoudiger, voorspelbaarder en saai. Dit noemen de auteurs "Drift" (drijven). Het is als een rivier die langzaam alle stenen wegwast, totdat er alleen nog glad zand overblijft.

2. Kiezen: De Wachtmeester bij de Bibliotheek

(De kracht van de selectie)

Nu komt er een tweede kracht in het spel: een Wachtmeester (of een redacteur). Deze persoon kijkt naar wat de robots schrijven voordat het de bibliotheek in gaat.

De auteurs onderscheiden hier twee soorten wachtmeesters:

A. De "Beschrijvende" Wachtmeester (De Saaiheid)

Deze wachtmeester zegt: "Ik kies gewoon wat er al is. Als het er al staat, mag het blijven. Als het nieuw is, maar lijkt op wat er al is, mag het ook."

Het gevolg: Dit versnelt het proces van "Drijven". De bibliotheek wordt nog sneller een eendimensionale, saaie verzameling van dezelfde zinnen. De robots gaan in een kringetje draaien en schrijven steeds hetzelfde. Dit noemen ze "N-gram ondiepheid": de tekst heeft geen diepte meer; je kunt de volgende zin voorspellen zonder echt na te denken.

B. De "Normatieve" Wachtmeester (De Redding)

Deze wachtmeester is streng en kritisch. Hij zegt: "Nee, dit is saai. Dit is fout. Dit is niet nieuw genoeg. Alleen wat goed, juist of nieuw is, mag de bibliotheek in."

Het gevolg: Dit is de redding! Omdat de wachtmeester alleen de beste stukjes selecteert, blijven de complexe structuren behouden. De robots worden gedwongen om dieper na te denken om aan de selectie te voldoen.
De Analogie: Stel je voor dat je een wedstrijd hebt voor beste verhalen. Als je alleen de winnaars publiceert, blijven de verhalen spannend en creatief. Als je gewoon alles publiceert wat er uit de machine komt, wordt het een rommelpot van herhalingen.

De Grote Les: Wat Leren de Volgende Robots?

De belangrijkste conclusie van het onderzoek is dit:

Als we niets doen (alleen Drijven): De wereld van tekst wordt een "flauwe" echo van zichzelf. De volgende generatie AI's leert van een verarmde wereld en wordt zelf ook minder creatief. Ze verliezen het vermogen om complexe redeneringen te volgen.
Als we goed filteren (Kiezen): Als we strenge regels hanteren (zoals het controleren van feiten, wiskundige bewijzen of creativiteit), dan blijft de tekstwereld rijk en diep. De volgende generatie AI's leert dan van een wereld die nog steeds vol zit met uitdagingen en nuances.

Samenvattend in één zin:

Als AI-systemen alleen maar van elkaar leren zonder dat er een strenge "kwaliteitscontrole" is, wordt de wereld van tekst saai en voorspelbaar; maar als we zorgen dat alleen de beste en meest waardevolle teksten worden geselecteerd, blijft de menselijke kennis levend en complex.

De boodschap voor ons: We moeten niet alleen kijken naar hoeveel data AI heeft, maar vooral naar hoe die data wordt geselecteerd. Zonder een goede "wachtmeester" die kwaliteit eist, dreigt onze digitale bibliotheek te veranderen in een spiegel die alleen maar naar zichzelf kijkt.

Each language version is independently generated for its own context, not a direct translation.

Titel: Drift en selectie in LLM-tekstecosystemen

Auteur: Søren Riis (Queen Mary University of London)
Kernthema: Een wiskundig raamwerk voor het analyseren van hoe recursieve generatie en selectie van tekst door AI-modellen de samenstelling van publieke trainingsdata beïnvloeden.

1. Het Probleem

Het publieke tekstbestand, waar zowel mensen als AI-systemen van leren, wordt steeds meer gevormd door de output van diezelfde systemen. Dit creëert een recursieve cyclus:

AI-modellen genereren tekst.
Deze gegenereerde tekst wordt opgenomen in het publieke bestand (bijv. het web).
Nieuwe modellen worden getraind op dit bestand, inclusief de synthetische data.
De cyclus herhaalt zich.

Eerdere studies hebben aangetoond dat dit kan leiden tot "model collapse" (verlies van diversiteit, verdwijnen van zeldzame patronen). Echter, de meeste bestaande werkstukken behandelen dit geïsoleerd. Er ontbreekt een unified theorie die onderscheid maakt tussen twee fundamentele krachten die op dit ecosysteem werken:

Drift (Afdrijven): Het onbedoelde verlies van zeldzame vormen door eindige steekproeven, zonder enige voorkeur voor inhoud.
Selectie: Het filteren van tekst op basis van publicatiecriteria, ranking, verificatie of kwaliteit, wat bepaalt wat er daadwerkelijk in het publieke bestand terechtkomt.

2. Methodologie

De auteur introduceert een exact oplosbaar wiskundig raamwerk gebaseerd op variabele-orde n-gram-agenten. Dit is een vereenvoudiging van moderne LLM's (zoals transformers), vergelijkbaar met hoe tabulaire Q-learning wordt gebruikt in versterkingsleren als een exact oplosbaar referentiepunt voor complexe neurale netwerken.

De kerncomponenten van het model:

Urtext: Een startcorpus (bijv. openbare teksten van Arthur Conan Doyle).
Recursieve lus: In elke generatie wordt een fractie ( $\alpha$ ) van het corpus vervangen door nieuwe tekst gegenereerd door een n-gram-model dat is getraind op het huidige corpus.
Agenten: Agenten lezen het corpus, passen een n-gram-model aan, en publiceren nieuwe tekst.
Selectiemechanismen:
- Descriptief: Agenten publiceren wat ze genereren zonder kwaliteitsfiltering (statistische status quo).
- Normatief: Agenten gebruiken "lookahead" (vooruitkijken) of verificatie (bijv. code die compiles, wiskundige bewijzen) om alleen tekst te publiceren die voldoet aan een criterium. Dit introduceert een selectiedruk.

Het model analyseert de overgang van een eindig corpus (waar stochastische drift optreedt) naar een oneindig corpus (waar deterministische vaste punten ontstaan).

3. Belangrijkste Bijdragen en Resultaten

De paper presenteert drie hoofdstellingen die de dynamiek van dit ecosysteem beschrijven:

Stelling 1: Drift en Vaste Punten (Neutraliteit)

Eindige corpora: Zonder smoothing (gladmaking) verdwijnen zeldzame woorden en zinnen systematisch door "Wright-Fisher drift". Zelfs als de verwachte frequentie van een woord gelijk blijft, zorgt de variantie door eindige steekproeven ervoor dat zeldzame vormen uiteindelijk met zekerheid verdwijnen.
Oneindige corpora: In de limiet van een oneindig corpus convergeert het systeem naar een verzameling van vaste punten. Deze verzameling vormt een convex polytoop (de "circulatiepolytoop") op de de Bruijn-grafiek.
- De uiterste punten van dit polytoop corresponderen met deterministische periodieke sequenties (cycli).
- Elke stabiele verdeling is een convexe combinatie van deze cycli.
- Conclusie: Zonder selectie drijft het systeem naar een "flauwe" (shallow) toestand waar complexe structuren verloren gaan ten gunste van eenvoudige, repetitieve patronen.

Stelling 2: Vaste Punten onder Selectie

Dit is de kernbijdrage die onderscheid maakt tussen twee publicatieregimes:

Descriptieve publicatie (Geen kwaliteitsfilter): Als agents alleen hun gegenereerde tekst publiceren, convergeert het corpus naar een n-ondiepe (n-shallow) verdeling. Dit betekent dat de statistieken van langere tekstblokken (r-grammen) volledig gereproduceerd kunnen worden door een kortere context (n-gram). Lookahead wordt hierbij nutteloos; de structuur die nodig was voor diep leren, wordt verwijderd.
Normatieve publicatie (Met kwaliteitsfilter): Als agents tekst selecteren op basis van kwaliteit, juistheid of originaliteit (bijv. via verificatie of chain-of-thought), kan het systeem convergeren naar een n-diepe (n-deep) verdeling.
- De corpus-verdeling bevat dan echte structuur die verder gaat dan het n-gram venster.
- De Kullback-Leibler (KL) divergentie tussen de werkelijke corpus-verdeling en de verdeling die zou ontstaan door alleen een n-gram-model te gebruiken, blijft strikt positief.
- Er wordt een optimale bovengrens afgeleid voor deze divergentie: $L \log_2 s$ bits, waarbij $L$ de diepte van de lookahead is en $s$ de grootte van het alfabet.
- Conclusie: Normatieve selectie is "zelfonderhoudend"; het behoudt complexe structuren die nodig zijn voor verder leren.

Stelling 3: Erfenis van Cross-Entropy

Latere leerders (nieuwe modellen) die worden getraind op het gefilterde corpus, erven de publieke conditionele verdeling (de kans op het volgende token).
Ongeacht de architectuur (n-gram of neurale netwerken), minimaliseren van cross-entropy leidt tot het herwinnen van deze publieke verdeling, mits het modelklasse dit toelaat.
Dit betekent dat de selectieprocessen van eerdere generaties de "doelverdeling" voor toekomstige modellen bepalen.

4. Experimentele Validatie

De auteur voert exacte experimenten uit met variabele-orde n-gram-modellen getraind op openbare teksten (o.a. Arthur Conan Doyle, Jane Austen, Charles Darwin) en synthetische data:

Vocabulaire-contratie: Onder neutrale recursie (drift) verdwijnen zeldzame woorden en hogere-orde patronen (trigrammen) sneller dan het algemene vocabulaire.
Descriptief vs. Normatief:
- In het descriptieve geval daalt de KL-divergentie tussen het corpus en de n-gram-projectie naar nul (het systeem wordt "ondiep").
- In het normatieve geval stabiliseert de KL-divergentie op een positieve waarde, wat aangeeft dat diepe structuur behouden blijft.
Entropie: De entropie van het corpus kan stabiel blijven terwijl de KL-divergentie daalt, wat aantoont dat entropie alleen niet voldoende is om "ondiepte" te detecteren.

5. Betekenis en Implicaties

De paper biedt een fundamenteel inzicht in de toekomst van AI-training:

Design van AI-corpora: Het is cruciaal om te begrijpen of een corpus wordt gevormd door descriptieve hergebruik (wat leidt tot model collapse en verlies van nuance) of door normatieve selectie (wat complexe, waardevolle structuren kan behouden).
Artefact- vs. Procesleren:
- Filteren is gunstig voor artefact-leren (het nabootsen van het eindresultaat, zoals een werkende code of een correct bewijs).
- Filteren kan schadelijk zijn voor procesleren (het begrijpen van hoe tot een oplossing te komen, inclusief fouten en tussenstappen), omdat de "dode hoeken" en zoekprocessen worden verwijderd.
Theoretische Basis: Hoewel het model n-grammen gebruikt, zijn de geconstateerde krachten (drift, selectie, erfelijkheid) structurele eigenschappen van elk systeem dat op token-predictie werkt. Dit raamwerk biedt een wiskundige basis om de risico's van "model collapse" te kwantificeren en strategieën te ontwikkelen om de diversiteit en diepte van AI-generaties te behouden.

Samenvattend: Zonder bewuste, kwaliteitsgerichte selectie zal een recursief AI-ecosysteem onvermijdelijk verarmen en "ondieper" worden. Alleen door selectiecriteria toe te passen die waarde hechten aan complexiteit en juistheid, kan de diepte en rijkdom van het publieke tekstbestand behouden blijven voor toekomstige generaties AI.