Do Deployment Constraints Make LLMs Hallucinate Citations? An Empirical Study across Four Models and Five Prompting Regimes

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een zeer slimme, maar soms een beetje verzonnen robot hebt die je helpt met het schrijven van een academisch artikel. Je vraagt hem: "Vertel me wat er bekend is over dit onderwerp en geef me de bronnen." De robot schrijft een prachtige tekst en plakt er een lijst met boeken en artikelen onder. Alles ziet er perfect uit: de auteursnamen klinken echt, de tijdschriften bestaan, en de jaartallen kloppen.

Maar hier is de valkuil: die boeken en artikelen bestaan vaak helemaal niet. Ze zijn verzonnen door de robot.

Dit onderzoek van Chen Zhao en zijn team uit New York, Pittsburgh en Boston, kijkt naar precies dit probleem. Ze noemen het "hallucineren van citaten". Maar ze gaan een stap verder: ze kijken wat er gebeurt als je de robot regels geeft, zoals je dat in het echte leven ook doet.

Hier is wat ze hebben ontdekt, vertaald naar alledaagse taal:

1. De "Supermarkt"-Problematiek

Stel je voor dat je een robot vraagt om een boodschappenlijstje te maken.

De basisvraag: "Geef me 5 producten." De robot geeft je 5 producten. Sommige zijn echt, sommige zijn verzonnen.
De tijdsregels: "Geef me alleen producten die dit jaar zijn uitgebracht."
De "brede" vraag: "Geef me een overzicht van alles wat er is, verdeeld in 4 categorieën."
De "geheimhouding": "Vertel niet dat je een boek hebt gelezen; doe alsof je het gewoon weet."

De onderzoekers hebben gekeken wat er gebeurt als ze deze regels aan de robot opleggen. Ze hebben 4 verschillende robots getest (twee dure, gesloten "pro" modellen en twee goedkopere, open modellen) en 144 verschillende vragen gesteld.

2. De Grote Ontdekkingen

A. De "Uiterlijk vs. Inhoud" Val
Dit is het meest verrassende: als je de robot zegt "Geef me alleen artikelen uit 2024", doet de robot precies wat je zegt. De jaartallen kloppen, de vorm is perfect. Maar... de artikelen bestaan niet.
Het is alsof een kok je een bord met een perfecte, glanzende tomatensoep geeft. Het ziet eruit als soep, ruikt als soep, maar als je proeft, is het water met een beetje rode kleurstof. De robot houdt zich aan de regels (de vorm), maar de inhoud (de feiten) is volledig verzonnen.

B. De "Dure vs. Goedkope" Robots
De dure, gesloten robots (zoals die van OpenAI en Anthropic) doen het iets beter dan de open, goedkopere robots. Maar "beter" betekent hier niet "goed". Zelfs de beste robot slaagt er maar in om minder dan de helft van de citaten te vinden die echt bestaan.

De dure robot: ongeveer 38% van de citaten is echt.
De goedkope robot: vaak minder dan 10% is echt.
Het verschil is groot, maar geen van hen is betrouwbaar genoeg om blindelings te vertrouwen.

C. De "Onoplosbare" Lijst
Bijna de helft van alle citaten die de robots maakten, viel in een categorie die ze "Onoplosbaar" noemden.
Stel je voor dat je een detective bent en je zoekt een verdachte.

Bestaand: Je vindt de verdachte.
Verzonnen: Je weet zeker dat de persoon niet bestaat.
Onoplosbaar: Je hebt een naam en een adres, maar je kunt niet vinden of het een echt huis is of een nepadres.
Het onderzoek toont aan dat van deze "onoplosbare" lijst, bijna de helft eigenlijk ook verzonnen is. Het is dus een gevaarlijke valkuil: als je denkt "oh, dit is misschien wel waar, maar ik kan het niet controleren", ben je waarschijnlijk al bedrogen.

D. Hoe meer regels, hoe slechter
Als je de robot alle regels tegelijk geeft (bijvoorbeeld: "Geef me een breed overzicht van recente artikelen, maar zeg niet dat je ze uit je geheugen haalt"), dan stort de betrouwbaarheid volledig in. De robots blijven wel citaten genereren (ze blijven "praten"), maar de kans dat die echt zijn, zakt naar bijna nul.

3. Wat betekent dit voor jou?

Stel je voor dat je een student bent die een scriptie schrijft, of een ingenieur die een technisch rapport maakt. Je wilt de hulp van een AI gebruiken om tijd te besparen.

Gebruik de AI als een schrijfhulp, niet als een bibliotheek: Laat de AI de tekst schrijven, maar vertrouw nooit op de lijst met bronnen die hij eronder plakt.
Controleer alles: Elke bron die de AI geeft, moet je zelf gaan zoeken in een echte database (zoals Google Scholar of Crossref).
Pas op met "nieuwe" regels: Als je de AI vraagt om alleen heel recente bronnen te vinden, is de kans het grootst dat hij eruit springt met verzonnen artikelen die er perfect uitzien.

Conclusie in één zin

De onderzoekers concluderen dat AI-modellen momenteel erg goed zijn in het vervalsen van een lijst met bronnen die er echt uitziet, maar dat ze er nog niet in slagen om die bronnen ook echt te vinden. Het is als een kunstenaar die een perfecte vervalsing van een schilderij maakt: het ziet eruit als het origineel, maar het is het niet.

De boodschap: Laat de AI schrijven, maar laat jij de feiten controleren.

Do Deployment Constraints Make LLMs Hallucinate Citations? An Empirical Study across Four Models and Five Prompting Regimes

1. De "Supermarkt"-Problematiek

2. De Grote Ontdekkingen

3. Wat betekent dit voor jou?

Conclusie in één zin

Titel: Do Deployment Constraints Make LLMs Hallucinate Citations? (Maak implementatiebeperkingen LLM's hallucineren citaten?)

1. Het Probleem

2. Methodologie

3. Belangrijkste Bijdragen

4. Resultaten

5. Betekenis en Implicaties

Do Deployment Constraints Make LLMs Hallucinate Citations? An Empirical Study across Four Models and Five Prompting Regimes

1. De "Supermarkt"-Problematiek

2. De Grote Ontdekkingen

3. Wat betekent dit voor jou?

Conclusie in één zin

Titel: Do Deployment Constraints Make LLMs Hallucinate Citations? (Maak implementatiebeperkingen LLM's hallucineren citaten?)

1. Het Probleem

2. Methodologie

3. Belangrijkste Bijdragen

4. Resultaten

5. Betekenis en Implicaties

Meer zoals dit

A Hybrid Residue Floating Numerical Architecture with Formal Error Bounds for High Throughput FPGA Computation

On the Multi-Commodity Flow with convex objective function: Column-Generation approaches

VeriInteresting: An Empirical Study of Model Prompt Interactions in Verilog Code Generation

AnalogToBi: Device-Level Analog Circuit Topology Generation via Bipartite Graph and Grammar Guided Decoding

Artificial Intelligence (AI) Maturity in Small and Medium-Sized Enterprises: A Framework of Internalized and Ecosystem-Embedded Capabilities