Drift and selection in LLM text ecosystems

Dit artikel introduceert een wiskundig raamwerk dat aantoont hoe het recursieve gebruik van gegenereerde tekst in de openbare bronnen ofwel leidt tot een verarming van de taal door drift, ofwel een rijkere structuur behoudt door selectieve filtering.

Søren Riis

Gepubliceerd 2026-04-13
📖 4 min leestijd☕ Koffiepauze-leesvoer

Each language version is independently generated for its own context, not a direct translation.

De Zelfvoedende Bibliotheek: Hoe AI en Mensen Samen Schrijven

Stel je een gigantische bibliotheek voor. In deze bibliotheek staan niet alleen oude boeken, maar ook nieuwe verhalen die door robots (AI) zijn geschreven. Het vreemde is: de robots leren hun schrijven uit de boeken in deze bibliotheek.

Dit creëert een cyclus:

  1. De robots schrijven nieuwe teksten.
  2. Deze teksten komen in de bibliotheek.
  3. De volgende generatie robots leert van alle teksten, inclusief de oude en de nieuwe.
  4. En zo gaat het maar door.

De vraag die Søren Riis stelt, is: Wat gebeurt er met de bibliotheek als we dit oneindig laten doorgaan? Wordt de wereld van tekst steeds slimmer, of wordt hij juist saai en leeg?

Het antwoord hangt af van twee krachten die in de bibliotheek werken: Drijven en Kiezen.


1. Drijven: Het Verdwijnsel van de Zeldzame Woorden

(De kracht van het toeval)

Stel je voor dat je een grote pot met gekleurde kralen hebt. De meeste kralen zijn rood (gewone woorden), maar er zijn een paar blauwe en groene kralen (zeldzame, creatieve woorden).

Elke dag haal je een handvol kralen uit de pot, schrijft je ze op, en gooit je ze terug. Maar je doet dit op een slordige manier: soms pak je per ongeluk geen enkele blauwe kraal. De volgende dag heb je dus minder blauwe kralen in de pot. Omdat de robots alleen leren van wat ze zien, zullen ze de volgende dag ook geen blauwe kralen meer gebruiken.

Wat gebeurt er?
Na verloop van tijd zijn de blauwe en groene kralen verdwijnen. De pot zit vol met alleen maar rode kralen.

  • In het echt: Zeldzame woorden, rare zinsconstructies en complexe ideeën worden uit de tekstwereld gespoeld. De taal wordt eenvoudiger, voorspelbaarder en saai. Dit noemen de auteurs "Drift" (drijven). Het is als een rivier die langzaam alle stenen wegwast, totdat er alleen nog glad zand overblijft.

2. Kiezen: De Wachtmeester bij de Bibliotheek

(De kracht van de selectie)

Nu komt er een tweede kracht in het spel: een Wachtmeester (of een redacteur). Deze persoon kijkt naar wat de robots schrijven voordat het de bibliotheek in gaat.

De auteurs onderscheiden hier twee soorten wachtmeesters:

A. De "Beschrijvende" Wachtmeester (De Saaiheid)

Deze wachtmeester zegt: "Ik kies gewoon wat er al is. Als het er al staat, mag het blijven. Als het nieuw is, maar lijkt op wat er al is, mag het ook."

  • Het gevolg: Dit versnelt het proces van "Drijven". De bibliotheek wordt nog sneller een eendimensionale, saaie verzameling van dezelfde zinnen. De robots gaan in een kringetje draaien en schrijven steeds hetzelfde. Dit noemen ze "N-gram ondiepheid": de tekst heeft geen diepte meer; je kunt de volgende zin voorspellen zonder echt na te denken.

B. De "Normatieve" Wachtmeester (De Redding)

Deze wachtmeester is streng en kritisch. Hij zegt: "Nee, dit is saai. Dit is fout. Dit is niet nieuw genoeg. Alleen wat goed, juist of nieuw is, mag de bibliotheek in."

  • Het gevolg: Dit is de redding! Omdat de wachtmeester alleen de beste stukjes selecteert, blijven de complexe structuren behouden. De robots worden gedwongen om dieper na te denken om aan de selectie te voldoen.
  • De Analogie: Stel je voor dat je een wedstrijd hebt voor beste verhalen. Als je alleen de winnaars publiceert, blijven de verhalen spannend en creatief. Als je gewoon alles publiceert wat er uit de machine komt, wordt het een rommelpot van herhalingen.

De Grote Les: Wat Leren de Volgende Robots?

De belangrijkste conclusie van het onderzoek is dit:

  1. Als we niets doen (alleen Drijven): De wereld van tekst wordt een "flauwe" echo van zichzelf. De volgende generatie AI's leert van een verarmde wereld en wordt zelf ook minder creatief. Ze verliezen het vermogen om complexe redeneringen te volgen.
  2. Als we goed filteren (Kiezen): Als we strenge regels hanteren (zoals het controleren van feiten, wiskundige bewijzen of creativiteit), dan blijft de tekstwereld rijk en diep. De volgende generatie AI's leert dan van een wereld die nog steeds vol zit met uitdagingen en nuances.

Samenvattend in één zin:

Als AI-systemen alleen maar van elkaar leren zonder dat er een strenge "kwaliteitscontrole" is, wordt de wereld van tekst saai en voorspelbaar; maar als we zorgen dat alleen de beste en meest waardevolle teksten worden geselecteerd, blijft de menselijke kennis levend en complex.

De boodschap voor ons: We moeten niet alleen kijken naar hoeveel data AI heeft, maar vooral naar hoe die data wordt geselecteerd. Zonder een goede "wachtmeester" die kwaliteit eist, dreigt onze digitale bibliotheek te veranderen in een spiegel die alleen maar naar zichzelf kijkt.

Ontvang papers zoals deze in je inbox

Gepersonaliseerde dagelijkse of wekelijkse digests op basis van jouw interesses. Gists of technische samenvattingen, in jouw taal.

Probeer Digest →