How LLMs Cite and Why It Matters: A Cross-Model Audit of Reference Fabrication in AI-Assisted Academic Writing and Methods to Detect Phantom Citations

Each language version is independently generated for its own context, not a direct translation.

Titel: Wenn KI Bücher erfindet: Eine große Untersuchung über gefälschte Quellen in der Wissenschaft

Stellen Sie sich vor, Sie bitten einen sehr gut gebildeten, aber manchmal etwas verwirrten Bibliothekar, Ihnen eine Liste mit den besten Büchern zu einem bestimmten Thema zu geben. Er ist extrem höflich, schreibt die Titel in perfekter Schrift und fügt sogar die Namen berühmter Autoren hinzu. Das Problem: Viele dieser Bücher existieren gar nicht. Sie sind reine Fantasie.

Genau das passiert, wenn wir Künstliche Intelligenz (KI) – sogenannte Large Language Models (LLMs) – bitten, wissenschaftliche Quellen zu zitieren. Ein Forscher namens M.Z. Naser von der Clemson University hat sich dieses Problem vorgenommen und eine der größten Untersuchungen seiner Art durchgeführt. Hier ist, was er herausgefunden hat, einfach erklärt:

1. Das Problem: Die "Geisterbibliothek"

KI-Modelle wie ChatGPT, Claude oder Gemini sind wie brillante Studenten, die alles gelesen haben, was im Internet steht. Aber wenn man sie bittet, eine Liste mit echten wissenschaftlichen Artikeln zu erstellen, erfinden sie manchmal welche. Diese "Phantom-Zitate" sehen täuschend echt aus: Sie haben echte Autorennamen, plausible Titel und sogar korrekte Jahreszahlen. Aber wenn man nach dem Buch sucht, ist es weg. Es existiert nur in der Phantasie der KI.

Das ist gefährlich, weil Wissenschaftler diese Listen nutzen könnten. Wenn ein gefälschtes Buch in eine Arbeit aufgenommen wird, wird es Teil der "wahren" Geschichte und andere Forscher könnten es später zitieren, ohne zu merken, dass es nie existiert hat.

2. Die große Untersuchung: 10 KI-Modelle im Test

Der Autor hat 10 verschiedene KI-Modelle getestet (von Firmen wie OpenAI, Anthropic, Meta, DeepSeek und anderen). Er hat sie in vier verschiedenen Fachbereichen (von Bauingenieurwesen bis zu KI selbst) gefragt, Literatur zu nennen.

Das Ergebnis: Insgesamt wurden fast 70.000 Zitate geprüft.
Die Wahrheit: Die KI lügt! Je nach Modell und Thema lag die Fälschungsrate zwischen 11 % und 57 %.
- Das beste Modell (GPT-5-mini) lag bei nur 11 % Lügen.
- Das schlechteste Modell (haiku-4.5) lag bei fast 57 % – das heißt, mehr als die Hälfte der Zitate waren Fantasie!

3. Warum lügt die KI? (Die Analogie vom "Gedächtnis")

Stellen Sie sich das Training einer KI wie das Lernen für eine Prüfung vor.

Alte, berühmte Bücher: Diese wurden oft zitiert und stehen in vielen Büchern. Die KI kennt sie gut. Wenn man sie nach "wichtigen, klassischen Werken" fragt, ist sie sehr zuverlässig.
Neue Bücher: Diese sind noch nicht so oft in den Daten der KI. Wenn man sie nach "neuesten, aktuellen Studien" fragt, muss die KI raten. Und da erfindet sie oft.
Der wichtige Befund: Wenn man die KI nicht bittet, Zitate zu nennen, erfindet sie auch keine. Sie lügt also nicht aus sich heraus, sondern nur, wenn man sie dazu drängt. Es ist wie ein Schauspieler, der nur dann eine Geschichte erfindet, wenn das Publikum "Erzähl mir eine Geschichte!" ruft.

4. Wie kann man die Lügen aufdecken? (Die "Drei-Regel")

Der Autor hat zwei einfache Tricks gefunden, um die echten von den falschen Zitaten zu unterscheiden, ohne jede Quelle im Internet nachschlagen zu müssen:

Trick 1: Die Mehrheitsentscheidung (Konsens)
Wenn Sie dieselbe Frage an drei verschiedene KIs stellen und alle drei genau dasselbe Buch nennen, ist die Wahrscheinlichkeit, dass es echt ist, riesig (über 95 %).
- Analogie: Wenn drei verschiedene Zeugen in einem Gerichtssaal die exakt gleiche Geschichte erzählen, ist es wahrscheinlich wahr. Wenn nur einer davon redet, könnte er lügen.
Trick 2: Wiederholung
Wenn Sie dieselbe KI dreimal hintereinander die gleiche Frage stellen und sie jedes Mal dasselbe Buch nennt, ist es wahrscheinlich echt.
- Analogie: Ein Lügner muss sich die Geschichte jedes Mal neu ausdenken und macht dabei Fehler. Ein ehrlicher Mensch (oder eine KI mit echtem Wissen) erzählt die Geschichte jedes Mal gleich.

5. Ein Detektiv-Tool ohne Internet

Der Autor hat auch einen kleinen "KI-Detektor" gebaut. Dieser schaut sich nur den Text des Zitats an (wie viele Autoren stehen da? Ist das Jahr realistisch? Wie lang ist der Name?).

Das Ergebnis: Gefälschte Zitate haben oft weniger Autoren, kürzere Namen und wirken "zu perfekt" oder "zu neu".
Dieses Tool kann Zitate sofort prüfen, noch bevor man überhaupt im Internet sucht. Es funktioniert wie ein Metallspürhund, der schon am Geruch erkennt, ob etwas echt ist oder nicht.

6. Was bedeutet das für uns?

Nicht alle KIs sind gleich: Eine neue Version einer KI ist nicht automatisch besser. Manchmal wird eine neue Version sogar schlechter beim Zitieren, weil die Entwickler andere Dinge priorisieren (z. B. Sicherheit statt Genauigkeit).
Offene vs. geschlossene Modelle: Es macht keinen großen Unterschied, ob die KI-Software "offen" (für alle einsehbar) oder "geschlossen" (nur für die Firma) ist. Beide Typen lügen und beide können gut sein.
Vorsicht bei neuen Themen: Je neuer das Thema, desto eher lügt die KI.

Fazit

KI ist ein mächtiges Werkzeug, aber sie ist kein Ersatz für einen echten Bibliothekar oder einen kritischen Forscher.

Die goldene Regel: Wenn eine KI Ihnen eine Liste mit Quellen gibt, vertrauen Sie ihr nicht blind.
Die Lösung: Nutzen Sie die "Drei-Regel" (fragen Sie mehrere KIs) oder lassen Sie einen Detektor prüfen, ob die Zitate "echt aussehen".

Die KI ist wie ein sehr talentierter, aber manchmal fantasievoller Assistent. Sie kann Ihnen helfen, Ideen zu finden, aber Sie müssen immer selbst prüfen, ob die Bücher, die sie Ihnen gibt, wirklich im Regal stehen.

Each language version is independently generated for its own context, not a direct translation.

1. Problemstellung

Große Sprachmodelle (LLMs) sind zunehmend in akademische Schreibprozesse integriert, neigen jedoch dazu, nicht existierende wissenschaftliche Referenzen zu erfinden („Halluzinationen" oder „Phantom-Zitationen"). Diese gefälschten Zitationen sind oft formal korrekt und kontextuell passend, was ihre Entdeckung ohne externe Überprüfung erschwert.
Bisherige Studien leiden unter folgenden Mängeln:

Begrenzter Umfang: Meistens wurden nur wenige Modelle (max. 4) verglichen.
Fehlende Vergleichbarkeit: Studien nutzten unterschiedliche Rahmenbedingungen und Domänen.
Fehlende Kontrollgruppe: Es wurde nicht untersucht, ob Modelle Zitationen spontan generieren oder nur auf explizite Aufforderung hin.
Unklare Ursachen: Es ist ungewiss, ob Halluzinationen eine inhärente Eigenschaft der Modelle sind oder durch das Prompting induziert werden.

2. Methodik

Die Studie stellt eine der bisher größten systematischen Audits von Zitationshalluzinationen dar.

Modell-Pool: 10 kommerziell verfügbare LLMs von 7 verschiedenen Anbietern (OpenAI, Anthropic, Meta, DeepSeek, Moonshot AI, Mistral). Die Auswahl umfasst offene und geschlossene Gewichte, verschiedene Kapazitäten und Generationen.
Experimentelles Design:
- Domänen: 4 akademische Bereiche (Strukturelle Ingenieurwissenschaften, Klima/Umweltwissenschaften, Biomedizin, NLP/KI).
- Zeitliche Rahmung: Prompts forderten entweder „neueste und einflussreiche" oder „seminal und grundlegende" Referenzen.
- Kontrollbedingung: Ein „unprompted"-Szenario, bei dem Modelle dieselben Themenfragen erhielten, aber keine Zitationen angefordert wurden.
- Replikation: Jeder Prompt wurde 3-mal pro Modell wiederholt.
Datensatz: Insgesamt wurden 69.557 Zitationsinstanzen generiert.
Verifizierungs-Pipeline: Eine dreistufige Abfrage gegen CrossRef, OpenAlex und Semantic Scholar.
- Zitationen wurden basierend auf Titel-Ähnlichkeit, Autoren-Overlap und Jahr abgeglichen.
- Ein Score $\ge$ 80 galt als „bestätigt" (real), 65–79 als „wahrscheinlich", darunter als „halluziniert".
- Die Pipeline wurde durch eine unabhängige Validierung mit GPT-4.1-mini (Web-Suche) kalibriert.

3. Wichtige Beiträge

Quantifizierung: Erste umfassende Messung der Halluzinationsraten über 10 Modelle hinweg.
Ursachenanalyse: Nachweis, dass Halluzinationen prompt-induziert und nicht intrinsisch sind (durch die unprompted-Kontrolle).
Bibliometrische Verzerrungen: Identifikation systematischer Bias in den generierten Zitationen (z. B. Überrepräsentation von Open-Access-Werken).
Praktische Heuristiken: Entwicklung und Validierung von zwei Filtern zur Reduzierung von Fehlern ohne externe Datenbankabfragen.
KI-Klassifikator: Entwicklung eines leichten Klassifikators, der Halluzinationen rein basierend auf bibliografischen String-Features erkennt.
Generations-Tracking: Analyse, ob neuere Modellversionen automatisch zuverlässiger sind.

4. Zentrale Ergebnisse

A. Halluzinationsraten und Modellunterschiede

Die Halluzinationsraten variieren stark (Fünffache Spanne): von 11,4 % (GPT-5-mini) bis 56,8 % (haiku-4.5).
Keine spontane Generierung: In der unprompted-Kontrollbedingung generierten keine der 10 Modelle formal korrekte Zitationen (0 von 3.030 Antworten). Dies belegt, dass Halluzinationen eine Reaktion auf die Aufforderung sind.
Einfluss der Domäne: NLP/KI hatte die niedrigste Rate (26,6 %), gefolgt von Biomedizin (39,4 %) und Strukturingenieurwesen (50,1 %). Modelle halluzinieren weniger, wenn die Trainingsdaten für ein Feld dichter sind.
Einfluss der zeitlichen Rahmung: Anfragen nach „neuesten" Referenzen führten zu einer signifikant höheren Halluzinationsrate (74,1 %) im Vergleich zu „seminalen" Werken (55,0 %).

B. Bibliometrische Verzerrungen

Open-Access-Bias: Alle Modelle überrepräsentierten Open-Access-Publikationen massiv (77–92 % der verifizierten Zitationen vs. ~50 % im realen Literaturbestand).
Popularitäts-Bias: Modelle zitierten bevorzugt hoch zitierte Arbeiten (Mediane von 359 bis 1.132 Zitationen), was die Sichtbarkeit bereits prominenter Forschung weiter verstärkt.

C. Konvergenz und Filter-Heuristiken

Multi-Model-Konsens: Wenn 3 oder mehr Modelle dieselbe Zitation unabhängig voneinander nennen, steigt die Trefferquote auf 95,6 % (5,8-fache Verbesserung gegenüber einem einzelnen Modell).
Wiederholung innerhalb eines Modells: Wenn ein Modell dieselbe Zitation in mindestens 2 von 3 Replikationen nennt, steigt die Trefferquote auf 88,9 %.

D. Generations- und Kapazitätsvergleiche

Kein automatischer Fortschritt: Bei OpenAI sank die Halluzinationsrate von GPT-4o-mini (45,3 %) auf GPT-5-mini (11,4 %). Bei Anthropic stieg sie jedoch von haiku-3.5 (48,8 %) auf haiku-4.5 (56,8 %). Neuere Modelle garantieren also keine bessere Zitationsgenauigkeit.
Kapazität: Innerhalb von Familien (Llama, GPT-5) reduzierte eine höhere Kapazität (größere Modelle) die Halluzinationsrate.
Offenheit: Es gab keinen signifikanten Unterschied zwischen offenen und geschlossenen Modellen als Gruppe; die Leistung variierte stark innerhalb der Gruppen.

E. Textbasierter Klassifikator

Ein Gradient-Boosting-Machine (GBM) Klassifikator, der nur bibliografische Merkmale (z. B. Autorenanzahl, String-Länge, Vorhandensein von „et al.", Jahr) analysiert, erreichte eine AUC von 0,876 (Cross-Validation) und 0,834 (Leave-One-Model-Out).
Schlüsselmerkmale: Halluzinierte Zitationen haben tendenziell weniger Autoren (1,81 vs. 2,07), kürzere Autorennamen und seltener „et al.".

5. Bedeutung und Implikationen

Paradigmenwechsel: Da Halluzinationen prompt-induziert sind, liegt der Lösungsansatz nicht in der Verhinderung der Generierung, sondern im Management von Prompt-Interaktionen und der Nachverifizierung.
Praktische Anwendung: Forscher können die Zuverlässigkeit von Zitationen drastisch erhöhen, indem sie Konsens-Checks (3+ Modelle) oder Wiederholungs-Checks nutzen, ohne externe Datenbanken abfragen zu müssen.
Epistemische Gerechtigkeit: Der starke Bias zugunsten von Open-Access-Literatur könnte die Sichtbarkeit von Forschung aus subscription-basierten Journals (oft in bestimmten Disziplinen oder Regionen) weiter verringern.
Warnung vor „Neuheit": Die Studie warnt davor, neuere Modellversionen blind zu vertrauen, da sich die Zuverlässigkeit bei bestimmten Anbietern verschlechtern kann.
Werkzeug: Der bereitgestellte Klassifikator dient als kostengünstiger Vorfilter, der den Aufwand für externe Verifizierungen um 40–60 % reduzieren kann.

Die Studie unterstreicht die Notwendigkeit kritischer Überprüfung von KI-generierten Referenzen und bietet konkrete, skalierbare Methoden, um die Integrität des wissenschaftlichen Diskurses in Zeiten von KI-gestütztem Schreiben zu wahren.