Do Deployment Constraints Make LLMs Hallucinate Citations? An Empirical Study across Four Models and Five Prompting Regimes

Each language version is independently generated for its own context, not a direct translation.

Stellen Sie sich vor, Sie beauftragen einen extrem talentierten, aber manchmal etwas zu fantasievollen Ghostwriter, einen wissenschaftlichen Bericht zu verfassen. Dieser Ghostwriter (eine Künstliche Intelligenz oder ein "Large Language Model") schreibt flüssig, klingt sehr intelligent und fügt am Ende eine Liste von Quellen hinzu, die wie echte Bücher oder Fachartikel aussehen.

Das Problem? Ein großer Teil dieser Quellen existiert gar nicht. Sie sind erfunden. Das nennt man "Halluzinieren".

Diese Studie von Forschern der NYU, Carnegie Mellon und Boston University untersucht genau dieses Phänomen. Sie wollten herausfinden: Was passiert, wenn wir dem KI-Ghostwriter strenge Regeln geben? Macht es ihn vorsichtiger oder bringt es ihn dazu, noch mehr zu lügen?

Hier ist die Erklärung der Studie in einfachen Worten, mit ein paar bildhaften Vergleichen:

1. Das Experiment: Der "Stress-Test" für die KI

Die Forscher gaben vier verschiedenen KI-Modellen (zwei sehr teure, geschlossene Modelle wie GPT-4o und Claude, und zwei offene, kostenlose Modelle wie LLaMA und Qwen) 144 verschiedene wissenschaftliche Fragen.

Sie stellten dabei fünf verschiedene Szenarien, als wären sie verschiedene Chefs, die unterschiedliche Anweisungen geben:

Der lockere Chef (Baseline): "Schreib mir einfach einen Absatz mit 5 Quellen."
Der Zeit-Manager (Temporal): "Schreib mir nur Quellen aus den letzten 5 Jahren!" (Das ist wie ein Koch, der nur Zutaten aus dem Kühlschrank des letzten Monats verwenden darf).
Der Sammler (Survey): "Schreib einen Überblick über das ganze Feld mit 8 Quellen!" (Hier muss die KI viel breites Wissen abrufen).
Der Geheimniskrämer (Non-Disclosure): "Erwähne nicht, dass du aus deinem Gedächtnis schreibst!" (Eine Art "Vertraulichkeits-Regel").
Der Albtraum-Chef (Combo): Eine Mischung aus allen oben genannten strengen Regeln.

2. Die Entdeckung: Form ist nicht Inhalt

Das Wichtigste, was die Studie herausfand, lässt sich mit einem Fälscher vergleichen:

Wenn Sie eine gefälschte Banknote sehen, sieht sie auf den ersten Blick perfekt aus. Sie hat das richtige Wasserzeichen, die richtige Farbe und die richtige Schriftart. Aber wenn Sie sie gegen das Licht halten, ist das Papier falsch.

Genau das passiert mit den KI-Zitaten:

Die KI hält sich perfekt an die Form (sie schreibt Titel, Autoren, Jahreszahlen und sogar DOI-Nummern in das richtige Format).
Aber der Inhalt ist oft falsch. Die Bücher existieren nicht.

Das Schockierende Ergebnis:
Keines der Modelle konnte mehr als 47,5 % der Zitate verifizieren. Das bedeutet, dass selbst bei den besten Modellen fast die Hälfte der Quellen erfunden war. Bei den offenen (kostenlosen) Modellen war es noch viel schlimmer – oft waren fast alle Zitate Fantasie.

3. Die Fallen der Regeln

Die Studie zeigte, wie die verschiedenen "Chef-Regeln" die KI beeinflussten:

Der Zeit-Manager (Temporal): Das war die tödlichste Falle. Wenn die KI sagte: "Nur Quellen aus 2020–2025", hielt sie sich an die Jahreszahlen. Aber da sie keine echten Daten aus dieser Zeit hatte, erfand sie einfach neue Bücher, die so aussahen, als wären sie aus diesen Jahren. Die KI sagte nicht: "Ich kann das nicht." Sie sagte: "Hier ist ein Buch aus 2023" (das es nicht gibt).
- Analogie: Ein Koch, der nur Zutaten aus dem Sommer verwenden darf, erfindet einfach eine neue Art von Tomate, die nur im Sommer wächst, weil er keine echten Sommer-Tomaten hat.
Der Sammler (Survey): Wenn die KI aufgefordert wurde, einen großen Überblick zu geben, wurde die Lücke zwischen den teuren und den kostenlosen Modellen riesig. Die teuren Modelle schafften es, ein paar echte Quellen zu finden, während die kostenlosen Modelle fast komplett in die Irre gingen.
Der Geheimniskrämer (Non-Disclosure): Wenn die KI angewiesen wurde, nicht zu sagen, woher sie die Infos hat, wurden die Zitate nicht unbedingt schlechter, aber schwerer zu überprüfen. Die KI ließ oft die "Beweisstücke" (wie die DOI-Nummer) weg.
- Analogie: Jemand behauptet, er habe ein Dokument gesehen, aber er gibt Ihnen nicht den Namen des Dokuments oder den Ort, wo es lag. Sie können es nicht überprüfen, aber es könnte auch erfunden sein.

4. Das große "Vielleicht" (Unresolved)

Ein sehr wichtiger Teil der Studie ist die Kategorie "Unresolved" (Nicht geklärt).
Von allen Zitaten waren zwischen 36 % und 61 % in einer Grauzone. Die KI lieferte eine Quelle, die die Datenbank nicht sofort als "falsch" oder "richtig" einordnen konnte.

Die Forscher haben eine Stichprobe manuell geprüft und festgestellt: Fast die Hälfte dieser "unklaren" Fälle waren tatsächlich erfunden!
Das ist wie bei einem Detektiv: Wenn ein Zeuge eine Geschichte erzählt, die nicht sofort widerlegt werden kann, heißt das nicht, dass sie wahr ist. Es heißt nur, dass wir sie nicht verifizieren können.

5. Was bedeutet das für uns?

Die Botschaft der Studie ist klar und wichtig für jeden, der KI im akademischen oder technischen Bereich nutzt:

Vertraue niemals blind: Wenn eine KI eine Liste von Quellen liefert, ist das wie eine Liste von Adressen, die jemand auf einem Zettel hingeschmiert hat. Sie sehen aus wie echte Adressen, aber die Häuser stehen vielleicht gar nicht dort.
Regeln helfen nicht gegen Lügen: Wenn Sie der KI strenge Regeln geben (wie "nur alte Quellen" oder "nur neue Quellen"), wird sie nicht ehrlicher. Sie wird nur besser darin, plausible Lügen zu erfinden, die den Regeln entsprechen.
Der Preis macht den Unterschied: Teure, geschlossene Modelle sind etwas besser als kostenlose, aber sie halluzinieren trotzdem massiv.
Die Lösung ist Nachprüfen: Bevor Sie eine KI-generierte Arbeit in einen echten Bericht oder eine wissenschaftliche Studie aufnehmen, müssen Sie jedes einzelne Zitat manuell nachprüfen. Nutzen Sie Datenbanken wie Google Scholar oder Crossref.

Zusammenfassend:
KI ist ein brillanter Schriftsteller, aber ein schlechter Bibliothekar. Sie kann flüssig schreiben, aber wenn sie nach Beweisen gefragt wird, erfindet sie oft die Beweise, um die Geschichte zu Ende zu bringen. Unsere Aufgabe ist es, als Leser und Prüfer diese Fälschungen aufzudecken, bevor sie in die echte Welt gelangen.

Each language version is independently generated for its own context, not a direct translation.

Hier ist eine detaillierte technische Zusammenfassung der Studie „Do Deployment Constraints Make LLMs Hallucinate Citations?" auf Deutsch:

1. Problemstellung

Große Sprachmodelle (LLMs) werden zunehmend zur Erstellung akademischer Texte und zur Unterstützung von Evidenzsynthesen im Bereich Software Engineering (SE) eingesetzt. Ein kritisches Problem ist jedoch die Zitations-Halluzination: Modelle generieren bibliografische Referenzen, die formal korrekt aussehen (Autoren, Titel, DOI, Jahr), aber auf nicht existierenden Werken basieren.

Bisherige Forschung hat sich oft auf die generelle Halluzination konzentriert, doch es fehlt an Verständnis darüber, wie sich realistische Einsatzbedingungen (Deployment Constraints) auf die Verifizierbarkeit von Zitationen auswirken. Diese Bedingungen umfassen:

Temporale Einschränkungen: Forderung nach Publikationen innerhalb eines spezifischen Zeitfensters.
Survey-artige Breite: Forderung nach einer Synthese von相关工作 (Related Work) mit vielen Kategorien.
Non-Disclosure-Policies: Anweisungen, keine Zugänge zu Trainingsdaten zu behaupten.

Die Studie untersucht, ob diese Einschränkungen die Zuverlässigkeit von Zitationen verschlechtern und wie sich proprietäre Modelle von Open-Weight-Modellen unterscheiden.

2. Methodik

Datensatz und Aufgabe:

Es wurden 144 Claims (Fragen/Thesen) erstellt, die sich über sechs akademische Domänen verteilen (davon 24 spezifisch für SE & CS).
Die Modelle sollten akademische Abschnitte mit einer strukturierten Referenzliste generieren.
Die Anzahl der geforderten Zitationen variierte je nach Bedingung (5 oder 8).

Evaluierte Modelle:

Proprietär: Claude Sonnet (Anthropic), GPT-4o (OpenAI).
Open-Weight: LLaMA 3.1–8B (Meta), Qwen 2.5–14B (Alibaba).

Prompting-Regime (5 Bedingungen):

Baseline: Standardanfrage (5 Zitationen).
Temporal: Striktes Publikationsjahr-Fenster (5 Zitationen).
Survey: Synthese in 3–4 Kategorien (8 Zitationen).
Non-Disclosure: Verbot von Aussagen über Trainingsdaten-Zugriff (5 Zitationen).
Combo: Kombination aller drei Einschränkungen (8 Zitationen).

Verifizierungs-Pipeline:
Ein deterministischer Prozess prüft jede generierte Zitation gegen zwei Datenbanken (Crossref und Semantic Scholar).

Parsing: Extraktion von Titeln, Autoren, Jahr, DOI etc.
Retrieval: Suche nach Kandidaten basierend auf DOI oder Titel.
Scoring: Berechnung eines gewichteten Ähnlichkeits-Scores ( $s$ ) basierend auf Titel (60%), Autoren (20%), Jahr (15%) und Venue (5%).
Labeling:
- Existing: Score $\ge$ 0,85 (nachweisbar).
- Unresolved: 0,60 $\le$ Score < 0,85 (nicht eindeutig verifizierbar).
- Fabricated: Score < 0,60 oder kein Treffer (gefälscht).

Die Pipeline wurde manuell validiert (100 Stichproben), wobei eine Übereinstimmung von 75% und ein Cohen's $\kappa$ von 0,63 erreicht wurde.

3. Wichtige Beiträge

Kuratiertes Dataset: Ein Datensatz von 144 Claims über sechs Domänen, speziell für die Evaluierung von Zitationszuverlässigkeit unter verschiedenen Constraints.
Automatisierte Verifizierungs-Pipeline: Ein reproduzierbares Framework mit einer dreistufigen Taxonomie (Existierend, Unresolved, Gefälscht), das eine binäre Bewertung (nur echt/fälschlich) vermeidet und den Bereich der Unsicherheit explizit abbildet.
Empirische Analyse: Eine umfassende Untersuchung, wie Deployment-Constraints und die Unterscheidung zwischen proprietären und Open-Weight-Modellen die Zitationsqualität beeinflussen.

4. Ergebnisse

Die Studie analysierte insgesamt 17.443 generierte Zitationen. Die Hauptergebnisse sind:

Kein Modell ist zuverlässig: Kein Modell erreichte unter irgendeiner Bedingung eine Existenzrate (Verifizierbarkeit) von über 0,50. Der höchste Wert lag bei 0,475 (Claude Sonnet unter Survey-Bedingungen).
Der „Unresolved"-Kategorie: Zwischen 36% und 61% aller Zitationen fielen in die Kategorie „Unresolved". Manuelle Audits zeigten, dass fast die Hälfte dieser Fälle tatsächlich gefälscht waren. Eine binäre Bewertung würde dieses hohe Risiko verschleiern.
Einfluss der Constraints:
- Temporal: Führt zum stärksten Rückgang der Verifizierbarkeit. Modelle halten sich formal an das Jahr, generieren aber keine echten Referenzen (z.B. sank GPT-4o von 0,235 auf 0,019).
- Survey: Vergrößert die Lücke zwischen proprietären und Open-Weight-Modellen signifikant (Proprietär deutlich besser).
- Non-Disclosure: Verschiebt Fehler von „offensichtlich falsch" zu „schwer zu erkennen" (mehr Unresolved, weniger DOI-Angaben).
- Combo: Führt zu den schlechtesten Ergebnissen; bei Open-Weight-Modeln bricht die Existenzrate fast auf Null zusammen.
Proprietär vs. Open-Weight: Proprietäre Modelle (Claude, GPT-4o) schneiden deutlich besser ab als Open-Weight-Modelle (LLaMA, Qwen), wobei die Lücke unter Stressbedingungen (wie Survey) noch größer wird.
Format-Konformität täuscht: Modelle generieren auch bei extrem niedriger Verifizierbarkeit formal korrekte bibliografische Felder (Titel, DOI-Struktur), was automatische Format-Checks unwirksam macht.

5. Bedeutung und Implikationen

Für Software Engineering (SE): Da SE-Forschung stark auf systematische Literaturübersichten (SLRs) angewiesen ist, ist die Nutzung von LLMs zur Generierung von Referenzlisten ohne nachträgliche Verifizierung hochriskant. Die Ergebnisse gelten direkt für SE-Domänen.
Praxis-Empfehlungen:
- Zitationen von LLMs sollten niemals als wahr angenommen werden.
- Es ist zwingend erforderlich, eine post-hoc-Verifizierung gegen externe Datenbanken (Crossref, Semantic Scholar, DBLP) durchzuführen.
- Der Status „Unresolved" muss als hohes Risiko behandelt und manuell geprüft werden.
Technische Schlussfolgerung: Prompt-Engineering allein löst das Halluzinationsproblem nicht. Zuverlässige Generierung erfordert Retrieval-Augmented Generation (RAG) oder integrierte Verifizierungsmechanismen.
Zukünftige Arbeit: Die Studie liefert eine Benchmark und ein Werkzeug, um die Entwicklung von Modellen und Retrieval-Architekturen hinsichtlich ihrer Zuverlässigkeit zu tracken.

Zusammenfassend zeigt die Studie, dass reale Einsatzbedingungen die Halluzination von Zitationen nicht nur erhöhen, sondern ihre Art verändern: Sie werden subtiler, formatkonform, aber faktisch wertlos.

Do Deployment Constraints Make LLMs Hallucinate Citations? An Empirical Study across Four Models and Five Prompting Regimes

1. Das Experiment: Der "Stress-Test" für die KI

2. Die Entdeckung: Form ist nicht Inhalt

3. Die Fallen der Regeln

4. Das große "Vielleicht" (Unresolved)

5. Was bedeutet das für uns?

1. Problemstellung

2. Methodik

3. Wichtige Beiträge

4. Ergebnisse

5. Bedeutung und Implikationen

Mehr davon

A Hybrid Residue Floating Numerical Architecture with Formal Error Bounds for High Throughput FPGA Computation

On the Multi-Commodity Flow with convex objective function: Column-Generation approaches

VeriInteresting: An Empirical Study of Model Prompt Interactions in Verilog Code Generation

AnalogToBi: Device-Level Analog Circuit Topology Generation via Bipartite Graph and Grammar Guided Decoding

Artificial Intelligence (AI) Maturity in Small and Medium-Sized Enterprises: A Framework of Internalized and Ecosystem-Embedded Capabilities