Death of the Novel(ty): Beyond n-Gram Novelty as a Metric for Textual Creativity

Die Studie zeigt, dass die alleinige Verwendung von n-Gram-Neuartigkeit als Metrik für Textkreativität unzureichend ist, da sie den Aspekt der Angemessenheit ignoriert und bei KI-Modellen oft mit geringerer Pragmatik einhergeht, während menschliche Expertenbewertungen und fortgeschrittene LLMs als Richter eine genauere Bewertung ermöglichen.

Arkadiy Saakyan, Najoung Kim, Smaranda Muresan, Tuhin Chakrabarty

Veröffentlicht 2026-03-04
📖 4 Min. Lesezeit☕ Kaffeepausen-Lektüre

Each language version is independently generated for its own context, not a direct translation.

Das große Missverständnis: „Neu" ist nicht immer „Kreativ"

Stellen Sie sich vor, Sie gehen in eine riesige Bibliothek, die alle Bücher enthält, die jemals geschrieben wurden. Die Forscher dieser Studie haben eine neue Art von „Kreativitäts-Messgerät" untersucht, das nur eine Frage stellt: „Ist dieser Satz in der Bibliothek schon einmal vorgekommen?"

Wenn ein Satz noch nie da war, nennt das Messgerät ihn „neu" (novel). Viele glauben bisher, dass „neu" automatisch „kreativ" bedeutet. Diese Studie sagt jedoch: Falsch!

Hier ist die Geschichte, warum das so ist, erklärt mit ein paar einfachen Bildern:

1. Der verrückte Koch vs. der geniale Künstler

Die Studie vergleicht Texte mit Gerichten.

  • Das alte Messgerät (n-Gramm-Neuheit): Es schaut nur auf die Zutaten. Wenn ein Koch Zutaten nimmt, die noch nie zusammengekocht wurden (z. B. „Schokolade und Hering"), sagt das Messgerät: „Wow, das ist super kreativ! Das gibt es noch nie!"
  • Das Problem: Das Gericht schmeckt vielleicht furchtbar. Es ist zwar neu, aber es ist kein gutes Essen. Es macht keinen Sinn.
  • Die Erkenntnis der Studie: Echte Kreativität braucht zwei Dinge:
    1. Neuheit: Es muss etwas Besonderes sein.
    2. Passung (Pragmatik): Es muss schmecken und in den Kontext passen.

Die Forscher haben 26 echte Schriftsteller (Experten) gebeten, Texte zu lesen und zu bewerten. Das Ergebnis war schockierend: 91 % der Texte, die das alte Messgerät als „super neu" eingestuft hat, wurden von den Schriftstellern als „nicht kreativ" abgelehnt, weil sie einfach nur seltsam oder sinnlos waren.

2. Der KI-Fluch: Je verrückter, desto schlechter

Die Studie hat untersucht, wie künstliche Intelligenz (KI) schreibt.

  • Menschen: Wenn ein Mensch einen Satz schreibt, der sehr ungewöhnlich ist, macht er das meist mit Absicht, um eine schöne Metapher zu schaffen. Der Satz macht immer noch Sinn.
  • KI: Wenn die KI versucht, „neu" zu klingen, gerät sie oft ins Wanken. Je mehr sie versucht, Wörter zu mischen, die noch nie zusammen waren, desto mehr verliert sie den Faden.
    • Das Bild: Stellen Sie sich einen KI-Roboter vor, der versucht, ein Gedicht zu schreiben. Je mehr er versucht, „neue" Wörter zu erfinden, desto mehr beginnt er zu stammeln. Er sagt Dinge wie: „Die Stühle wurden von den Morgenblessings errötet." Das ist neu, aber es ist Unsinn.

Die Studie zeigt: Bei KI führt mehr „Neuheit" oft zu weniger „Sinn".

3. Die neue Lösung: Der „Kritiker-KI"-Assistent

Da das alte Messgerät (nur auf Neuheit schauen) versagt hat, haben die Forscher eine neue Methode getestet. Sie haben gefragt: „Können wir eine andere KI bauen, die wie ein menschlicher Lektor denkt?"

Sie haben KI-Modelle (wie GPT-5) trainiert, nicht nur zu zählen, ob Wörter neu sind, sondern die Texte wirklich zu lesen und zu verstehen:

  • „Macht dieser Satz Sinn?"
  • „Passt er hierher?"
  • „Ist das wirklich ein schöner, kreativer Moment?"

Das Ergebnis:

  • Diese neuen „Kritiker-KIs" sind viel besser als das alte Zähl-Verfahren.
  • Sie können erkennen, wenn ein KI-Text zwar „neu" klingt, aber eigentlich nur „Müll" (Slop) ist.
  • Sie können auch erkennen, wenn ein menschlicher Text zwar bekannte Wörter benutzt, aber durch die Art, wie sie kombiniert sind, tiefgründig und kreativ ist.

Zusammenfassung in einem Satz

Die Studie sagt uns: Vertraue nicht blind darauf, dass etwas „noch nie dagewesen" ist, um es kreativ zu nennen. Echte Kreativität ist wie ein gutes Gericht: Die Zutaten müssen neu sein, aber sie müssen auch zusammenpassen und schmecken. KI neigt dazu, nur auf die „neuen Zutaten" zu achten und vergisst dabei, dass das Essen essbar sein muss.

Die Forscher haben jetzt ein besseres Werkzeug, um zu messen, was wirklich kreativ ist – und das hilft uns, KI-Texte besser zu bewerten und zu verbessern.