Drift and selection in LLM text ecosystems

Each language version is independently generated for its own context, not a direct translation.

Stellen Sie sich vor, die gesamte menschliche Wissenssammlung – Bücher, Artikel, Tweets, Nachrichten – ist ein riesiger, lebendiger Ozean. In diesem Ozean schwimmen nicht nur Menschen, die Texte schreiben, sondern jetzt auch KI-Modelle, die diese Texte lesen, verstehen und dann neue Texte daraus schreiben.

Das Problem, das Søren Riis in diesem Papier untersucht, ist wie ein Teufelskreis der Selbstverdünnung. Wenn KIs Texte schreiben, die dann wieder von anderen KIs gelesen werden, passiert etwas Merkwürdiges: Der Ozean wird flacher, die Farben verblassen, und die seltenen, einzigartigen Geschichten verschwinden.

Hier ist die einfache Erklärung der drei Hauptkräfte, die in diesem Papier beschrieben werden, mit ein paar kreativen Vergleichen:

1. Der "Drift": Das vergessene Echo (Die zufällige Verarmung)

Stellen Sie sich vor, Sie haben eine große Schüssel mit Marmelade, in der sich viele verschiedene Früchte befinden: Erdbeeren, Himbeeren, Blaubeeren und ein paar seltene, exotische Früchte.

Was passiert: Jedes Jahr nehmen wir einen Löffel Marmelade heraus, um eine neue Schüssel zu füllen. Aber wir nehmen nicht die ganze Schüssel auf einmal, sondern nur einen Löffel.
Das Problem: Die seltenen Früchte (die exotischen Beeren) sind so selten, dass sie beim Löffeln oft einfach nicht erwischt werden. Wenn sie nicht in die neue Schüssel kommen, sind sie im nächsten Jahr weg.
Die Folge: Mit jedem Jahr verschwinden die seltenen Früchte. Übrig bleibt nur noch die häufigste Marmelade (die Erdbeeren). Das ist der Drift. Es ist kein böser Wille, es ist einfach Statistik. Wenn KI-Modelle nur das "Durchschnittliche" aus dem Internet neu schreiben, verlieren wir mit der Zeit die Nuancen, den Humor und die seltenen Ausdrucksweisen. Die Welt wird "flacher".

2. Die "Selektion": Der strenge Redakteur (Die bewusste Filterung)

Jetzt kommt ein zweiter Akteur ins Spiel: Ein strenger Redakteur (oder ein KI-Verifizierer), der entscheidet, was in die Schüssel darf.

Das Papier unterscheidet hier zwei Arten von Redakteuren:

Der "Deskriptive" Redakteur (Der Spiegel):
Dieser Redakteur schaut nur darauf, was schon da ist. "Das hier sieht aus wie der Rest, also nehme ich es."
- Das Ergebnis: Er beschleunigt den Drift. Er sorgt dafür, dass nur noch das "Normale" übrig bleibt. Die KI lernt nur noch, was sie schon kennt, und wird immer besser darin, das Gleiche zu wiederholen. Das ist wie ein Echo, das immer leiser wird, bis nur noch ein monotones Summen übrig ist.
Der "Normative" Redakteur (Der Qualitätsprüfer):
Dieser Redakteur hat eine Regel: "Nur das kommt rein, was richtig ist, neu ist oder schön ist." Er prüft den Text auf Fehler, Logik oder Kreativität.
- Das Ergebnis: Dieser Redakteur kann den Drift stoppen! Wenn er nur die besten, korrektesten oder kreativsten Texte durchlässt, bleibt die Tiefe erhalten. Die KI lernt nicht nur, was "üblich" ist, sondern was "gut" ist.
- Die Metapher: Stellen Sie sich vor, Sie filtern Wasser durch ein Sieb. Wenn das Sieb nur Schmutz rauslässt (normative Selektion), bleibt das Wasser klar und strukturiert. Wenn das Sieb nur das Durchschnittliche durchlässt (deskriptive Selektion), wird das Wasser trüb und langweilig.

3. Das Erbe: Was lernen die nächsten KIs?

Am Ende des Tages lernen die neuen KI-Generationen aus dem, was im Ozean übrig geblieben ist.

Wenn wir nur Drift und deskriptive Selektion haben, lernen die neuen KIs eine Welt, die flach ist. Sie können keine komplexen Probleme mehr lösen, weil die "Baugruppen" für komplexe Ideen (die seltenen Wörter und Strukturen) im Ozean verschwunden sind. Sie werden zu perfekten Kopierern, aber schlechten Denker.
Wenn wir normative Selektion (Qualitätskontrolle) haben, bleibt die Struktur erhalten. Die neuen KIs können immer noch tiefgründige Zusammenhänge lernen, weil die "tiefen" Teile des Ozeans durch die Filterung geschützt wurden.

Die große Botschaft für uns alle

Dieses Papier warnt uns: Wenn wir KI-Texte einfach so zurück in das Internet werfen, ohne sie zu prüfen, wird unsere digitale Welt langsam "kollabieren". Sie wird sich selbst essen.

Die Lösung? Wir müssen wie die "Normativen Redakteure" agieren. Wir müssen sicherstellen, dass KI-Texte, die in die Trainingsdaten zurückfließen, nicht nur "wahrscheinlich" sind, sondern wertvoll, korrekt und neu. Nur so können wir verhindern, dass die KI-Zukunft in einer flachen, sich selbst wiederholenden Schleife gefangen ist.

Kurz gesagt:

Drift = Das Vergessen des Seltenen (wie ein Foto, das immer wieder kopiert wird und unscharf wird).
Deskriptive Selektion = Der Spiegel, der das Unscharfe nur noch unscharfer macht.
Normative Selektion = Der Retuscheur, der das Bild schärft und die wichtigen Details bewahrt.

Wir müssen entscheiden, welche Art von Redakteur wir für unsere Zukunft wollen.

Each language version is independently generated for its own context, not a direct translation.

Problemstellung

Der öffentliche Textbestand, aus dem sowohl Menschen als auch KI-Systeme lernen, wird zunehmend von den Ausgaben dieser Systeme selbst geprägt. Generierte Texte gelangen in den öffentlichen Datensatz, spätere Agenten (Modelle) lernen daraus, und der Zyklus wiederholt sich. Dies führt zu einem Rückkopplungsloop, der folgende Risiken birgt:

Modellkollaps (Model Collapse): Die rekursive Wiederverwendung synthetischer Daten kann zu einem Verlust von Vielfalt, dem Verschwinden seltener Ausdrücke und einer Verarmung der Datenstruktur führen.
Unterscheidung der Kräfte: Bisherige Arbeiten haben oft isolierte Phänomene untersucht. Es fehlte ein einheitliches theoretisches Rahmenwerk, das zwischen zwei fundamentalen Kräften unterscheidet:
1. Drift (Drift): Der unfilterte, zufällige Verlust seltener Formen durch endliche Stichprobenziehung.
2. Selektion (Selection): Der Filtereffekt durch Veröffentlichungsregeln, Rankings, Verifikation oder Qualitätskriterien, die bestimmen, was im öffentlichen Datensatz sichtbar bleibt.

Die zentrale Frage ist: Wie verändern diese Kräfte die Verteilung der nächsten Token (Next-Token-Law) im öffentlichen Datensatz, und was erben spätere Lerner daraus?

Methodik

Der Autor entwickelt ein exakt lösbares mathematisches Rahmenwerk, das auf variablen Ordnungs-n-Gram-Agenten basiert. Anstatt komplexe Transformer-Architekturen direkt zu simulieren, nutzt das Paper n-Gramme als idealisierte, analytisch handhabbare Proxy-Modelle (analog zu tabellarischem Q-Learning in der RL-Forschung).

Das Grundmodell:

Urtext & Rekursion: Ein Startkorpus (Urtext) wird verwendet, um ein n-Gram-Modell zu fitten. Ein Teil des Korpus wird durch synthetisch generierte Texte ersetzt, die aus dem gefitteten Modell stammen. Dieser Prozess wird über Generationen wiederholt.
Drift-Analyse: Für den Fall ohne Filterung (unsmoothed) wird der Prozess als stochastischer Prozess modelliert, der mit dem Wright-Fisher-Modell aus der Populationsgenetik identisch ist.
Selektions-Analyse: Es werden zwei Arten von Veröffentlichungsregeln unterschieden:
- Deskriptiv: Texte werden basierend auf dem statistischen Status quo veröffentlicht (keine Qualitätsprüfung).
- Normativ: Texte werden nach Kriterien wie Korrektheit, Qualität oder Neuheit gefiltert (z. B. durch Lookahead, Verifikation oder Chain-of-Thought).
Mathematische Werkzeuge:
- Analyse von Fixpunkten im Grenzwert unendlicher Korpusgröße ( $M \to \infty$ ).
- Verwendung von De-Bruijn-Graphen zur Charakterisierung der Fixpunkt-Mengen.
- Einführung des Project-Lift-Diagnostik: Ein Test, um zu prüfen, ob eine Korpus-Verteilung $r$ -Gramm-tief ist oder ob sie durch ein einfacheres $n$ -Gramm-Modell vollständig reproduzierbar ist (Flachheit vs. Tiefe).

Hauptbeiträge und Theoreme

Das Paper liefert drei zentrale Theoreme, die die Dynamik von Drift und Selektion exakt beschreiben:

1. Theorem 1: Drift und der Fixpunkt-Polytop (Neutrale Rekursion)

Endliche Korpora: In endlichen Korpora führt die unfilterte Rekursion zu einem Wright-Fisher-Drift. Seltene Wörter (Allele) haben eine erwartete Häufigkeit, die konstant bleibt, aber die Varianz führt dazu, dass sie mit Wahrscheinlichkeit $1 - k/M$ (wobei $k$ die aktuelle Häufigkeit und $M$ die Korpusgröße ist) aussterben.
Unendliche Korpora ( $M \to \infty$ ): Im deterministischen Grenzwert bilden die Fixpunkte der Rekursion einen konvexen Polytop (den Polytop der nicht-negativen Einheitszirkulationen auf dem De-Bruijn-Graphen).
- Die Eckpunkte dieses Polytops entsprechen einfachen gerichteten Zyklen im Graphen (deterministische periodische Sequenzen).
- Jeder Fixpunkt ist eine konvexe Kombination dieser deterministischen Extreme.
- Ergebnis: Ohne Selektion neigt das System dazu, sich in einen „flachen" Zustand zu bewegen, in dem die sichtbare Statistik durch ein einfacheres Modell erklärt werden kann.

2. Theorem 2: Fixpunkte unter Selektion
Dieses Theorem unterscheidet zwischen deskriptiver und normativer Veröffentlichung:

Deskriptive Veröffentlichung: Wenn Agenten nur das generieren, was statistisch wahrscheinlich ist (ohne externe Qualitätsfilter), konvergiert das Korpus zu einer $n$ -flachen Verteilung. Das bedeutet, die $r$ -Gramm-Verteilung des Korpus ist exakt durch die Rollout-Verteilung des induzierten $n$ -Gramm-Modells reproduzierbar. Lookahead wird redundant; die tiefere Struktur geht verloren.
Normative Veröffentlichung: Wenn Agenten Texte basierend auf Qualitätskriterien filtern (z. B. Verifikation, Korrektheit), kann das System in einem nicht-flachen Zustand stabilisieren.
- Die $r$ -Gramm-Verteilung behält echte Struktur jenseits des $n$ -Gramm-Fensters.
- Die Kullback-Leibler (KL)-Divergenz zwischen der Korpusverteilung und der Rollout-Verteilung des $n$ -Gramm-Modells bleibt strikt positiv.
- Obere Schranke: Die maximale KL-Divergenz ist durch $L \log_2 s$ Bits begrenzt (wobei $L$ die Lookahead-Tiefe und $s$ die Vokabulargröße ist). Dieser Wert wird durch zyklische De-Bruijn-Sequenzen erreicht.

3. Theorem 3: Kreuzentropie-Erblichkeit

Spätere Lerner, die auf dem gefilterten öffentlichen Datensatz trainiert werden, erben die öffentliche bedingte Verteilung (Public Conditional).
Unabhängig von der Architektur (n-Gram vs. Neural Net) konvergieren Lerner, die die Kreuzentropie minimieren, gegen denselben Ziel-Conditional, sofern die Modellklasse dies zulässt.
Dies zeigt, dass die Filterung (Selektion) die eigentliche „Erbe"-Information für zukünftige Modelle darstellt, nicht der interne Mechanismus, der die Filterung ursprünglich erzeugt hat.

Ergebnisse und Experimente

Die theoretischen Ergebnisse werden durch exakte Simulationen und Experimente mit öffentlichen Texten (Arthur Conan Doyle, Jane Austen, Charles Darwin) und synthetischen Daten untermauert:

Vokabular-Kontraktion: In neutralen Rekursionen verschwinden seltene Wörter und hochordentliche Strukturen (z. B. Trigramme) schneller als einfache Wörter. Die Erhaltung von Trigramm-Typen fällt drastisch stärker aus als die von Wörtern.
Deskriptiver Kollaps vs. Normatives Plateau:
- In deskriptiven Szenarien kollabiert die KL-Divergenz zwischen der Korpusverteilung und der $n$ -Gramm-Rollout-Verteilung gegen Null (das System wird flach).
- In normativen Szenarien stabilisiert sich die KL-Divergenz auf einem positiven Wert (z. B. 2,57 Bits in einem Experiment), was beweist, dass tiefe Struktur erhalten bleibt.
Trade-off zwischen Support und Diversität: Lookahead-Filterung erhält die „Überlebensfähigkeit" von Sequenzen (verhindert Back-off auf kürzere Kontexte), reduziert aber die Vielfalt, da nur Pfade mit hoher Überlebenswahrscheinlichkeit durchgelassen werden.

Bedeutung und Implikationen

Theoretische Klarheit: Das Paper liefert den ersten exakten mathematischen Beweis dafür, dass rekursive Textgenerierung nicht zwangsläufig zu einem Kollaps führt, sondern dass das Ergebnis stark von der Art der Filterung abhängt.
Design von Trainingsdaten:
- Für Artefakt-Lernen (z. B. das Lernen von fertigen Beweisen oder Code-Patches) kann Filterung hilfreich sein, da sie „tote Enden" entfernt und erfolgreiche Strukturen standardisiert.
- Für Prozess-Lernen (z. B. Debugging, wissenschaftliche Exploration) ist die unfilterte Rekursion schädlich, da sie die notwendigen Zwischenschritte und Fehlerpfade löscht, die für das Verständnis des Suchprozesses essenziell sind.
Zukunft der KI-Ökosysteme: Das Paper warnt davor, dass reine deskriptive Veröffentlichung (z. B. automatisches Ranking ohne Qualitätsprüfung) die öffentliche Wissensbasis „flach" macht und damit die Fähigkeit zukünftiger Modelle, komplexe Muster zu lernen, untergräbt. Normative Filterung (Verifikation, menschliches Feedback) ist notwendig, um tiefe Strukturen zu erhalten.
Übertragbarkeit: Obwohl das Modell auf n-Grammen basiert, gelten die Mechanismen (Drift, Selektion, Vererbung der bedingten Verteilung) auch für moderne Transformer-Modelle, da diese letztlich versuchen, dieselbe öffentliche bedingte Verteilung zu approximieren.

Zusammenfassend identifiziert das Paper die Bedingungen, unter denen rekursive Publikation Textdaten komprimiert (flach macht) und unter welchen sie reichhaltigere Strukturen aufrechterhält, und liefert damit eine theoretische Grundlage für die Gestaltung robusterer KI-Trainingspipelines.

Drift and selection in LLM text ecosystems

1. Der "Drift": Das vergessene Echo (Die zufällige Verarmung)

2. Die "Selektion": Der strenge Redakteur (Die bewusste Filterung)

3. Das Erbe: Was lernen die nächsten KIs?

Die große Botschaft für uns alle

Problemstellung

Methodik

Hauptbeiträge und Theoreme

Ergebnisse und Experimente

Bedeutung und Implikationen

Mehr davon

SynDocDis: A Metadata-Driven Framework for Generating Synthetic Physician Discussions Using Large Language Models

EMA Is Not All You Need: Mapping the Boundary Between Structure and Content in Recurrent Context

WAND: Windowed Attention and Knowledge Distillation for Efficient Autoregressive Text-to-Speech Models

Medical Reasoning with Large Language Models: A Survey and MR-Bench

Uncertainty Estimation for the Open-Set Text Classification systems