How LLMs Cite and Why It Matters: A Cross-Model Audit of Reference Fabrication in AI-Assisted Academic Writing and Methods to Detect Phantom Citations

Diese Studie auditiert die Zitationshalluzinationen von zehn kommerziellen LLMs über verschiedene Domänen hinweg, quantifiziert deren erhebliche Variation, identifiziert promptinduzierte Ursachen sowie effektive Detektionsfilter und stellt einen leichten Klassifikator vor, der gefälschte Zitate ohne externe Datenbankabfrage zuverlässig erkennt.

MZ Naser

Veröffentlicht 2026-03-05
📖 5 Min. Lesezeit🧠 Tiefgang

Each language version is independently generated for its own context, not a direct translation.

Titel: Wenn KI Bücher erfindet: Eine große Untersuchung über gefälschte Quellen in der Wissenschaft

Stellen Sie sich vor, Sie bitten einen sehr gut gebildeten, aber manchmal etwas verwirrten Bibliothekar, Ihnen eine Liste mit den besten Büchern zu einem bestimmten Thema zu geben. Er ist extrem höflich, schreibt die Titel in perfekter Schrift und fügt sogar die Namen berühmter Autoren hinzu. Das Problem: Viele dieser Bücher existieren gar nicht. Sie sind reine Fantasie.

Genau das passiert, wenn wir Künstliche Intelligenz (KI) – sogenannte Large Language Models (LLMs) – bitten, wissenschaftliche Quellen zu zitieren. Ein Forscher namens M.Z. Naser von der Clemson University hat sich dieses Problem vorgenommen und eine der größten Untersuchungen seiner Art durchgeführt. Hier ist, was er herausgefunden hat, einfach erklärt:

1. Das Problem: Die "Geisterbibliothek"

KI-Modelle wie ChatGPT, Claude oder Gemini sind wie brillante Studenten, die alles gelesen haben, was im Internet steht. Aber wenn man sie bittet, eine Liste mit echten wissenschaftlichen Artikeln zu erstellen, erfinden sie manchmal welche. Diese "Phantom-Zitate" sehen täuschend echt aus: Sie haben echte Autorennamen, plausible Titel und sogar korrekte Jahreszahlen. Aber wenn man nach dem Buch sucht, ist es weg. Es existiert nur in der Phantasie der KI.

Das ist gefährlich, weil Wissenschaftler diese Listen nutzen könnten. Wenn ein gefälschtes Buch in eine Arbeit aufgenommen wird, wird es Teil der "wahren" Geschichte und andere Forscher könnten es später zitieren, ohne zu merken, dass es nie existiert hat.

2. Die große Untersuchung: 10 KI-Modelle im Test

Der Autor hat 10 verschiedene KI-Modelle getestet (von Firmen wie OpenAI, Anthropic, Meta, DeepSeek und anderen). Er hat sie in vier verschiedenen Fachbereichen (von Bauingenieurwesen bis zu KI selbst) gefragt, Literatur zu nennen.

  • Das Ergebnis: Insgesamt wurden fast 70.000 Zitate geprüft.
  • Die Wahrheit: Die KI lügt! Je nach Modell und Thema lag die Fälschungsrate zwischen 11 % und 57 %.
    • Das beste Modell (GPT-5-mini) lag bei nur 11 % Lügen.
    • Das schlechteste Modell (haiku-4.5) lag bei fast 57 % – das heißt, mehr als die Hälfte der Zitate waren Fantasie!

3. Warum lügt die KI? (Die Analogie vom "Gedächtnis")

Stellen Sie sich das Training einer KI wie das Lernen für eine Prüfung vor.

  • Alte, berühmte Bücher: Diese wurden oft zitiert und stehen in vielen Büchern. Die KI kennt sie gut. Wenn man sie nach "wichtigen, klassischen Werken" fragt, ist sie sehr zuverlässig.
  • Neue Bücher: Diese sind noch nicht so oft in den Daten der KI. Wenn man sie nach "neuesten, aktuellen Studien" fragt, muss die KI raten. Und da erfindet sie oft.
  • Der wichtige Befund: Wenn man die KI nicht bittet, Zitate zu nennen, erfindet sie auch keine. Sie lügt also nicht aus sich heraus, sondern nur, wenn man sie dazu drängt. Es ist wie ein Schauspieler, der nur dann eine Geschichte erfindet, wenn das Publikum "Erzähl mir eine Geschichte!" ruft.

4. Wie kann man die Lügen aufdecken? (Die "Drei-Regel")

Der Autor hat zwei einfache Tricks gefunden, um die echten von den falschen Zitaten zu unterscheiden, ohne jede Quelle im Internet nachschlagen zu müssen:

  • Trick 1: Die Mehrheitsentscheidung (Konsens)
    Wenn Sie dieselbe Frage an drei verschiedene KIs stellen und alle drei genau dasselbe Buch nennen, ist die Wahrscheinlichkeit, dass es echt ist, riesig (über 95 %).

    • Analogie: Wenn drei verschiedene Zeugen in einem Gerichtssaal die exakt gleiche Geschichte erzählen, ist es wahrscheinlich wahr. Wenn nur einer davon redet, könnte er lügen.
  • Trick 2: Wiederholung
    Wenn Sie dieselbe KI dreimal hintereinander die gleiche Frage stellen und sie jedes Mal dasselbe Buch nennt, ist es wahrscheinlich echt.

    • Analogie: Ein Lügner muss sich die Geschichte jedes Mal neu ausdenken und macht dabei Fehler. Ein ehrlicher Mensch (oder eine KI mit echtem Wissen) erzählt die Geschichte jedes Mal gleich.

5. Ein Detektiv-Tool ohne Internet

Der Autor hat auch einen kleinen "KI-Detektor" gebaut. Dieser schaut sich nur den Text des Zitats an (wie viele Autoren stehen da? Ist das Jahr realistisch? Wie lang ist der Name?).

  • Das Ergebnis: Gefälschte Zitate haben oft weniger Autoren, kürzere Namen und wirken "zu perfekt" oder "zu neu".
  • Dieses Tool kann Zitate sofort prüfen, noch bevor man überhaupt im Internet sucht. Es funktioniert wie ein Metallspürhund, der schon am Geruch erkennt, ob etwas echt ist oder nicht.

6. Was bedeutet das für uns?

  • Nicht alle KIs sind gleich: Eine neue Version einer KI ist nicht automatisch besser. Manchmal wird eine neue Version sogar schlechter beim Zitieren, weil die Entwickler andere Dinge priorisieren (z. B. Sicherheit statt Genauigkeit).
  • Offene vs. geschlossene Modelle: Es macht keinen großen Unterschied, ob die KI-Software "offen" (für alle einsehbar) oder "geschlossen" (nur für die Firma) ist. Beide Typen lügen und beide können gut sein.
  • Vorsicht bei neuen Themen: Je neuer das Thema, desto eher lügt die KI.

Fazit

KI ist ein mächtiges Werkzeug, aber sie ist kein Ersatz für einen echten Bibliothekar oder einen kritischen Forscher.

  • Die goldene Regel: Wenn eine KI Ihnen eine Liste mit Quellen gibt, vertrauen Sie ihr nicht blind.
  • Die Lösung: Nutzen Sie die "Drei-Regel" (fragen Sie mehrere KIs) oder lassen Sie einen Detektor prüfen, ob die Zitate "echt aussehen".

Die KI ist wie ein sehr talentierter, aber manchmal fantasievoller Assistent. Sie kann Ihnen helfen, Ideen zu finden, aber Sie müssen immer selbst prüfen, ob die Bücher, die sie Ihnen gibt, wirklich im Regal stehen.