Citation Failure: Definition, Analysis and Efficient Mitigation

Dit paper introduceert de CITECONTROL-benchmark en het CITENTION-framework om citatiefouten in RAG-systemen te analyseren en efficiënt te mitigeren door generatieve, attention-gebaseerde en retrieval-methoden te combineren.

Jan Buchmann, Iryna Gurevych

Gepubliceerd 2026-03-05
📖 5 min leestijd🧠 Diepgaand

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat een kunstmatige intelligentie (een AI) als een zeer slimme, maar soms overmoedige bibliothecaris optreedt. Je stelt hem een vraag, en hij geeft je een perfect antwoord. Maar als je vraagt: "Waar heb je dit vandaan?", wijst hij naar een boek dat helemaal niet over dat onderwerp gaat, of hij zegt gewoon: "Ik heb het gewoon zo in mijn hoofd."

Dat is het probleem waar dit papier over gaat: Citation Failure (citaatfalen). De AI geeft een goed antwoord, maar vergeet of kan niet de juiste bronnen noemen.

Hier is een uitleg van de kernpunten, vertaald naar alledaags Nederlands met een paar creatieve vergelijkingen.

1. Het Probleem: De "Slimme Leugenaar"

Tot nu toe hebben onderzoekers vaak gedacht dat als een AI een fout antwoord gaf, de bronnen ook wel fout zouden zijn. Maar deze auteurs zeggen: "Nee, wacht even!"

Ze maken een belangrijk onderscheid:

  • Antwoordfout: De AI zegt "De aarde is plat." (Fout antwoord, fout bronnen).
  • Citaatfout: De AI zegt "De aarde is rond" (Goed antwoord!), maar citeert een boek over de maan als bewijs.

Dit is gevaarlijk. Stel je voor dat je een arts raadpleegt die zegt: "Je hebt een koorts, neem deze pil." (Goed advies), maar als je vraagt naar de medische studie die dit bewijst, wijst hij naar een recept voor cake. Je zou het advies misschien nog wel volgen, maar je kunt het niet verifiëren. Dat is wat er gebeurt als AI-systemen geen goede bronnen geven.

2. De Oplossing Deel 1: De "CITECONTROL" Testbaan

De auteurs wilden weten waarom dit gebeurt. Ze bouwden een speciale testbaan, noemden ze CITECONTROL.

Stel je voor dat je een spoorzoeker bent. Je hebt een vraag en een stapel documenten.

  • Simpel spoor: Het antwoord staat letterlijk in één document. (Dit is makkelijk).
  • Complex spoor: Je moet drie documenten samenvoegen om het antwoord te vinden. Document A zegt "De stad is X", Document B zegt "In X gebeurde Y", en Document C zegt "Y gebeurde op datum Z". Je moet deze keten volgen.

De test liet zien dat AI's goed zijn in het simpele spoor, maar vaak vastlopen in het complexe spoor. Ze vinden het antwoord wel (hun "hersenen" werken), maar ze raken de draad kwijt als ze moeten zeggen welke documenten ze precies hebben gebruikt. Het is alsof ze het antwoord uit hun hoofd weten, maar vergeten waar ze het vandaan hebben gehaald.

3. De Oplossing Deel 2: De "CITENTION" Magische Bril

Hoe los je dit op zonder de hele AI opnieuw te trainen (wat duur en moeilijk is)? De auteurs bedachten CITENTION.

Stel je voor dat de AI een bril draagt die we kunnen afnemen. Normaal gesproken kijkt de AI alleen naar wat hij schrijft (generatie). Maar CITENTION kijkt ook naar wat de AI aan het denken is terwijl hij schrijft.

In de techniek van AI's zit er een mechanisme genaamd "Attention" (Aandacht). Dit is als een interne spotlight die aangeeft: "Hey, dit stukje tekst in het document is nu belangrijk voor mijn antwoord!"

CITENTION doet drie dingen tegelijk:

  1. Generatie: Wat de AI zelf zegt (de tekst).
  2. Retrieval: Een simpele zoekmachine die kijkt naar woord-overlapping (zoals Google).
  3. Aandacht (Attention): De interne "spotlight" van de AI die zegt: "Ik heb dit document nodig."

De Metafoor van de Drie Detectives:
Stel je voor dat je een zaak moet oplossen.

  • Detective 1 (Generatie) is slim, maar soms verwaand en vergeet hij zijn notities.
  • Detective 2 (Zoekmachine) is heel grondig, maar een beetje dom en zoekt alleen op exacte woorden.
  • Detective 3 (Aandacht) is de interne stem van de AI die precies weet welke documenten hij "gevoeld" heeft als belangrijk.

Als je deze drie detectives samen laat werken (CITENTION), krijgen ze veel minder fouten. Detective 3 kan Detective 1 corrigeren als hij de verkeerde bron noemt, en Detective 2 kan helpen als Detective 3 de draad kwijtraakt.

4. De Belangrijkste Bevindingen

  • Complexiteit is de vijand: Hoe meer stappen je moet doorlopen om een antwoord te vinden (meer "hops" in de redenering), hoe slechter de AI wordt in het noemen van de juiste bronnen.
  • De "Aandacht" werkt: Door te kijken naar de interne "spotlight" van de AI (zonder de AI zelf te veranderen), kun je de bronnen veel beter vinden. Het is alsof je de AI vraagt: "Waar keek je net naar?" in plaats van alleen "Wat heb je gezegd?".
  • Samenwerking is kracht: De beste resultaten haal je door de interne "spotlight" te combineren met een simpele zoekmachine. Ze vullen elkaar aan.

Conclusie

Dit papier zegt eigenlijk: "Laten we stoppen met AI's alleen te beoordelen op wat ze zeggen, en kijken naar hoe ze denken." Door een slimme combinatie van hun interne gedachten (aandacht) en simpele zoektechnieken, kunnen we AI-systemen maken die niet alleen slim antwoorden geven, maar ook eerlijk kunnen zeggen waar ze die vandaan hebben.

Het is een stap in de richting van AI's die niet alleen slim zijn, maar ook betrouwbaar en verifieerbaar.