Drift and selection in LLM text ecosystems

Die Studie entwickelt ein exakt lösbares mathematisches Modell, das zeigt, wie unfilterierte Wiederverwendung von KI-generierten Texten zu einer Verarmung des öffentlichen Textkorpus führt, während normative Selektionsmechanismen wie Qualitätsbewertung notwendig sind, um komplexe Strukturen zu erhalten.

Søren Riis

Veröffentlicht 2026-04-13
📖 4 Min. Lesezeit☕ Kaffeepausen-Lektüre

Each language version is independently generated for its own context, not a direct translation.

Stellen Sie sich vor, die gesamte menschliche Wissenssammlung – Bücher, Artikel, Tweets, Nachrichten – ist ein riesiger, lebendiger Ozean. In diesem Ozean schwimmen nicht nur Menschen, die Texte schreiben, sondern jetzt auch KI-Modelle, die diese Texte lesen, verstehen und dann neue Texte daraus schreiben.

Das Problem, das Søren Riis in diesem Papier untersucht, ist wie ein Teufelskreis der Selbstverdünnung. Wenn KIs Texte schreiben, die dann wieder von anderen KIs gelesen werden, passiert etwas Merkwürdiges: Der Ozean wird flacher, die Farben verblassen, und die seltenen, einzigartigen Geschichten verschwinden.

Hier ist die einfache Erklärung der drei Hauptkräfte, die in diesem Papier beschrieben werden, mit ein paar kreativen Vergleichen:

1. Der "Drift": Das vergessene Echo (Die zufällige Verarmung)

Stellen Sie sich vor, Sie haben eine große Schüssel mit Marmelade, in der sich viele verschiedene Früchte befinden: Erdbeeren, Himbeeren, Blaubeeren und ein paar seltene, exotische Früchte.

  • Was passiert: Jedes Jahr nehmen wir einen Löffel Marmelade heraus, um eine neue Schüssel zu füllen. Aber wir nehmen nicht die ganze Schüssel auf einmal, sondern nur einen Löffel.
  • Das Problem: Die seltenen Früchte (die exotischen Beeren) sind so selten, dass sie beim Löffeln oft einfach nicht erwischt werden. Wenn sie nicht in die neue Schüssel kommen, sind sie im nächsten Jahr weg.
  • Die Folge: Mit jedem Jahr verschwinden die seltenen Früchte. Übrig bleibt nur noch die häufigste Marmelade (die Erdbeeren). Das ist der Drift. Es ist kein böser Wille, es ist einfach Statistik. Wenn KI-Modelle nur das "Durchschnittliche" aus dem Internet neu schreiben, verlieren wir mit der Zeit die Nuancen, den Humor und die seltenen Ausdrucksweisen. Die Welt wird "flacher".

2. Die "Selektion": Der strenge Redakteur (Die bewusste Filterung)

Jetzt kommt ein zweiter Akteur ins Spiel: Ein strenger Redakteur (oder ein KI-Verifizierer), der entscheidet, was in die Schüssel darf.

Das Papier unterscheidet hier zwei Arten von Redakteuren:

  • Der "Deskriptive" Redakteur (Der Spiegel):
    Dieser Redakteur schaut nur darauf, was schon da ist. "Das hier sieht aus wie der Rest, also nehme ich es."

    • Das Ergebnis: Er beschleunigt den Drift. Er sorgt dafür, dass nur noch das "Normale" übrig bleibt. Die KI lernt nur noch, was sie schon kennt, und wird immer besser darin, das Gleiche zu wiederholen. Das ist wie ein Echo, das immer leiser wird, bis nur noch ein monotones Summen übrig ist.
  • Der "Normative" Redakteur (Der Qualitätsprüfer):
    Dieser Redakteur hat eine Regel: "Nur das kommt rein, was richtig ist, neu ist oder schön ist." Er prüft den Text auf Fehler, Logik oder Kreativität.

    • Das Ergebnis: Dieser Redakteur kann den Drift stoppen! Wenn er nur die besten, korrektesten oder kreativsten Texte durchlässt, bleibt die Tiefe erhalten. Die KI lernt nicht nur, was "üblich" ist, sondern was "gut" ist.
    • Die Metapher: Stellen Sie sich vor, Sie filtern Wasser durch ein Sieb. Wenn das Sieb nur Schmutz rauslässt (normative Selektion), bleibt das Wasser klar und strukturiert. Wenn das Sieb nur das Durchschnittliche durchlässt (deskriptive Selektion), wird das Wasser trüb und langweilig.

3. Das Erbe: Was lernen die nächsten KIs?

Am Ende des Tages lernen die neuen KI-Generationen aus dem, was im Ozean übrig geblieben ist.

  • Wenn wir nur Drift und deskriptive Selektion haben, lernen die neuen KIs eine Welt, die flach ist. Sie können keine komplexen Probleme mehr lösen, weil die "Baugruppen" für komplexe Ideen (die seltenen Wörter und Strukturen) im Ozean verschwunden sind. Sie werden zu perfekten Kopierern, aber schlechten Denker.
  • Wenn wir normative Selektion (Qualitätskontrolle) haben, bleibt die Struktur erhalten. Die neuen KIs können immer noch tiefgründige Zusammenhänge lernen, weil die "tiefen" Teile des Ozeans durch die Filterung geschützt wurden.

Die große Botschaft für uns alle

Dieses Papier warnt uns: Wenn wir KI-Texte einfach so zurück in das Internet werfen, ohne sie zu prüfen, wird unsere digitale Welt langsam "kollabieren". Sie wird sich selbst essen.

Die Lösung? Wir müssen wie die "Normativen Redakteure" agieren. Wir müssen sicherstellen, dass KI-Texte, die in die Trainingsdaten zurückfließen, nicht nur "wahrscheinlich" sind, sondern wertvoll, korrekt und neu. Nur so können wir verhindern, dass die KI-Zukunft in einer flachen, sich selbst wiederholenden Schleife gefangen ist.

Kurz gesagt:

  • Drift = Das Vergessen des Seltenen (wie ein Foto, das immer wieder kopiert wird und unscharf wird).
  • Deskriptive Selektion = Der Spiegel, der das Unscharfe nur noch unscharfer macht.
  • Normative Selektion = Der Retuscheur, der das Bild schärft und die wichtigen Details bewahrt.

Wir müssen entscheiden, welche Art von Redakteur wir für unsere Zukunft wollen.

Erhalten Sie solche Paper in Ihrem Posteingang

Personalisierte tägliche oder wöchentliche Digests passend zu Ihren Interessen. Gists oder technische Zusammenfassungen, in Ihrer Sprache.

Digest testen →