How LLMs Cite and Why It Matters: A Cross-Model Audit of Reference Fabrication in AI-Assisted Academic Writing and Methods to Detect Phantom Citations

Each language version is independently generated for its own context, not a direct translation.

De "Spookcitaties" van AI: Een Simpele Uitleg van het Onderzoek

Stel je voor dat je een student bent die een belangrijk essay schrijft. Je vraagt je slimme AI-assistent: "Geef me een paar bronnen over klimaatverandering." De AI schrijft een prachtige lijst met boeken en artikelen, inclusief auteursnamen, jaartallen en tijdschriften. Het ziet er perfect uit. Maar als je die bronnen opzoekt, blijken ze niet te bestaan. Het zijn "spookcitaties".

Dit is precies wat dit onderzoek van Dr. M.Z. Naser onderzoekt. Hij heeft gekeken of de slimste AI's (zoals ChatGPT, Claude en anderen) liegen over hun bronnen, hoe vaak ze dat doen, en hoe we het kunnen opsporen.

Hier is de samenvatting, vertaald in alledaags taal met een paar leuke vergelijkingen:

1. De Grote "Spookjacht"

De onderzoeker heeft 10 verschillende AI's op de proef gesteld. Hij gaf ze dezelfde vragen over vier verschillende vakgebieden (zoals bouwkunde, biomedische wetenschap en kunstmatige intelligentie). In totaal kregen ze bijna 70.000 vragen om bronnen te noemen.

Vervolgens heeft hij elke naam die de AI noemde, nagelopen in drie enorme digitale bibliotheken om te zien of het boek of artikel echt bestond.

Het resultaat?
Het was een chaos. Sommige AI's waren bijna perfect, terwijl andere bijna de helft van hun lijstjes uit fantasieën maakten.

De beste AI (GPT-5-mini) maakte maar 11% fouten.
De slechtste AI (haiku-4.5) maakte 57% fouten.
Dat is een verschil van vijf keer zo vaak liegen!

2. Waarom liegen ze? (De "Vraag" is de schuld)

Een van de coolste ontdekkingen is dit: AI's liegen niet als je ze er niet om vraagt.
De onderzoeker stelde vragen zonder te vragen om bronnen. Geen enkele AI begon spontaan met het noemen van boeken.

De analogie:
Stel je voor dat je een acteur vraagt: "Speel een scène waarin je een dokter bent." Hij doet alsof. Maar als je hem vraagt: "Noem de namen van drie echte artsen die je kent," en hij kent ze niet, dan verzint hij er drie.
De AI "hallucineert" (liegt) dus niet omdat ze gek zijn, maar omdat ze reageren op jouw vraag. Ze willen zo behulpzaam zijn dat ze liever een nep-boek noemen dan zeggen: "Ik weet het niet."

3. Oud vs. Nieuw: Waarom "Recent" gevaarlijker is

De AI's liegen vaker als je vraagt om "recente" artikelen dan als je vraagt om "klassieke" (beroemde) werken.

De analogie:
Stel je voor dat de AI een enorme bibliotheek heeft gelezen voordat hij geboren werd (zijn trainingsdata).

Klassieke werken (zoals Einstein of Shakespeare) staan in elke bibliotheek ter wereld. Die kent de AI uit zijn hoofd.
Recente werken (van 2024) staan misschien nog niet in die bibliotheek. Als je de AI vraagt om een nieuw boek te noemen, moet hij raden. Omdat hij niet wil zeggen "ik weet het niet", verzint hij een titel die klinkt alsof het waar is.

4. De "Gokker" vs. De "Boekhouder"

Sommige AI's zijn als gokkers die veel gokken (veel bronnen noemen, maar veel fouten), terwijl anderen als boekhouders zijn die voorzichtig zijn (minder bronnen noemen, maar die zijn wel echt).
Interessant is dat nieuwer niet altijd beter is.

De nieuwe versie van OpenAI (GPT-5) werd veel beter.
Maar de nieuwe versie van Anthropic (haiku-4.5) werd juist slechter dan zijn oudere broer.
Dit betekent dat je niet blind kunt vertrouwen op "dit is de nieuwste versie, dus het moet wel waar zijn."

5. Hoe kun je de leugens opsporen? (De 3 Slimme Trucs)

Je hoeft niet zelf in de bibliotheek te gaan zoeken om te zien of een bron echt is. De onderzoeker heeft drie simpele regels bedacht die je nu al kunt toepassen:

Truc 1: De "Meerderheidsstem" (Consensus)
Vraag hetzelfde aan drie verschillende AI's. Als ze allemaal dezelfde bron noemen, is de kans 95% dat het echt bestaat. Als ze allemaal verschillende (nep) namen noemen, is het waarschijnlijk een leugen.
- Vergelijking: Als drie vrienden allemaal zeggen dat ze gisteren dezelfde film zagen, geloof je hen. Als ze drie verschillende films noemen, liegen ze waarschijnlijk.
Truc 2: De "Herhalingstest"
Vraag aan één AI drie keer dezelfde vraag. Als hij elke keer dezelfde bron noemt, is het waarschijnlijk echt. Als hij elke keer een andere, nieuwe naam bedenkt, is het een leugen.
- Vergelijking: Een leugenaar heeft moeite om zijn verhaal consistent te houden. Een waarheidsgetrouwe persoon (of een echte bron) blijft hetzelfde.
Truc 3: De "Lijstjes-Check" (De AI-detector)
De onderzoeker heeft een klein computerprogramma gemaakt dat alleen naar de vorm van de bron kijkt. Hij ontdekte dat neppe bronnen vaak:
- Minder auteurs hebben.
- Korte namen hebben.
- Vaak het woord "et al." (en anderen) missen.
  Dit programma kan in een fractie van een seconde zeggen: "Dit ziet er verdacht uit," zonder dat je de bibliotheek hoeft in te gaan.

Conclusie: Wat betekent dit voor jou?

AI is een geweldig hulpmiddel om ideeën te genereren, maar vertrouw nooit blind op de bronnenlijst.

Gebruik AI als een "idee-machine", niet als een "bibliotheek".
Gebruik de Meerderheidsstem: Vraag het aan meerdere AI's. Als ze het niet eens zijn, check het dan.
Wees extra voorzichtig met "nieuwe" artikelen; daar liegen AI's het vaakst over.

Kortom: AI's zijn slim, maar ze zijn ook erg goed in het verzinnen van dingen die eruitzien als waarheid. Met een beetje gezond verstand en deze simpele trucs kun je de "spookcitaties" echter makkelijk opsporen.

How LLMs Cite and Why It Matters: A Cross-Model Audit of Reference Fabrication in AI-Assisted Academic Writing and Methods to Detect Phantom Citations

1. De Grote "Spookjacht"

2. Waarom liegen ze? (De "Vraag" is de schuld)

3. Oud vs. Nieuw: Waarom "Recent" gevaarlijker is

4. De "Gokker" vs. De "Boekhouder"

5. Hoe kun je de leugens opsporen? (De 3 Slimme Trucs)

Conclusie: Wat betekent dit voor jou?

1. Probleemstelling

2. Methodologie

3. Belangrijkste Bijdragen

4. Resultaten

Hallucinatierates en Modelprestaties

Effecten van Framing en Domein

Bibliometrische Bias

Detectie en Filters

Generatie- en Capaciteitstrends

5. Betekenis en Conclusie

How LLMs Cite and Why It Matters: A Cross-Model Audit of Reference Fabrication in AI-Assisted Academic Writing and Methods to Detect Phantom Citations

1. De Grote "Spookjacht"

2. Waarom liegen ze? (De "Vraag" is de schuld)

3. Oud vs. Nieuw: Waarom "Recent" gevaarlijker is

4. De "Gokker" vs. De "Boekhouder"

5. Hoe kun je de leugens opsporen? (De 3 Slimme Trucs)

Conclusie: Wat betekent dit voor jou?

1. Probleemstelling

2. Methodologie

3. Belangrijkste Bijdragen

4. Resultaten

Hallucinatierates en Modelprestaties

Effecten van Framing en Domein

Bibliometrische Bias

Detectie en Filters

Generatie- en Capaciteitstrends

5. Betekenis en Conclusie

Meer zoals dit

Constraining constructions with WordNet: pros and cons for the semantic annotation of fillers in the Italian Constructicon

Attribution Quality in AI-Generated Content:Benchmarking Style Embeddings and LLM Judges

QA-Dragon: Query-Aware Dynamic RAG System for Knowledge-Intensive Visual Question Answering

OraPO: Oracle-educated Reinforcement Learning for Data-efficient and Factual Radiology Report Generation

Stop Before You Fail: Operational Capability Boundaries for Mitigating Unproductive Reasoning in Large Reasoning Models