Citation Failure: Definition, Analysis and Efficient Mitigation

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat een kunstmatige intelligentie (een AI) als een zeer slimme, maar soms overmoedige bibliothecaris optreedt. Je stelt hem een vraag, en hij geeft je een perfect antwoord. Maar als je vraagt: "Waar heb je dit vandaan?", wijst hij naar een boek dat helemaal niet over dat onderwerp gaat, of hij zegt gewoon: "Ik heb het gewoon zo in mijn hoofd."

Dat is het probleem waar dit papier over gaat: Citation Failure (citaatfalen). De AI geeft een goed antwoord, maar vergeet of kan niet de juiste bronnen noemen.

Hier is een uitleg van de kernpunten, vertaald naar alledaags Nederlands met een paar creatieve vergelijkingen.

1. Het Probleem: De "Slimme Leugenaar"

Tot nu toe hebben onderzoekers vaak gedacht dat als een AI een fout antwoord gaf, de bronnen ook wel fout zouden zijn. Maar deze auteurs zeggen: "Nee, wacht even!"

Ze maken een belangrijk onderscheid:

Antwoordfout: De AI zegt "De aarde is plat." (Fout antwoord, fout bronnen).
Citaatfout: De AI zegt "De aarde is rond" (Goed antwoord!), maar citeert een boek over de maan als bewijs.

Dit is gevaarlijk. Stel je voor dat je een arts raadpleegt die zegt: "Je hebt een koorts, neem deze pil." (Goed advies), maar als je vraagt naar de medische studie die dit bewijst, wijst hij naar een recept voor cake. Je zou het advies misschien nog wel volgen, maar je kunt het niet verifiëren. Dat is wat er gebeurt als AI-systemen geen goede bronnen geven.

2. De Oplossing Deel 1: De "CITECONTROL" Testbaan

De auteurs wilden weten waarom dit gebeurt. Ze bouwden een speciale testbaan, noemden ze CITECONTROL.

Stel je voor dat je een spoorzoeker bent. Je hebt een vraag en een stapel documenten.

Simpel spoor: Het antwoord staat letterlijk in één document. (Dit is makkelijk).
Complex spoor: Je moet drie documenten samenvoegen om het antwoord te vinden. Document A zegt "De stad is X", Document B zegt "In X gebeurde Y", en Document C zegt "Y gebeurde op datum Z". Je moet deze keten volgen.

De test liet zien dat AI's goed zijn in het simpele spoor, maar vaak vastlopen in het complexe spoor. Ze vinden het antwoord wel (hun "hersenen" werken), maar ze raken de draad kwijt als ze moeten zeggen welke documenten ze precies hebben gebruikt. Het is alsof ze het antwoord uit hun hoofd weten, maar vergeten waar ze het vandaan hebben gehaald.

3. De Oplossing Deel 2: De "CITENTION" Magische Bril

Hoe los je dit op zonder de hele AI opnieuw te trainen (wat duur en moeilijk is)? De auteurs bedachten CITENTION.

Stel je voor dat de AI een bril draagt die we kunnen afnemen. Normaal gesproken kijkt de AI alleen naar wat hij schrijft (generatie). Maar CITENTION kijkt ook naar wat de AI aan het denken is terwijl hij schrijft.

In de techniek van AI's zit er een mechanisme genaamd "Attention" (Aandacht). Dit is als een interne spotlight die aangeeft: "Hey, dit stukje tekst in het document is nu belangrijk voor mijn antwoord!"

CITENTION doet drie dingen tegelijk:

Generatie: Wat de AI zelf zegt (de tekst).
Retrieval: Een simpele zoekmachine die kijkt naar woord-overlapping (zoals Google).
Aandacht (Attention): De interne "spotlight" van de AI die zegt: "Ik heb dit document nodig."

De Metafoor van de Drie Detectives:
Stel je voor dat je een zaak moet oplossen.

Detective 1 (Generatie) is slim, maar soms verwaand en vergeet hij zijn notities.
Detective 2 (Zoekmachine) is heel grondig, maar een beetje dom en zoekt alleen op exacte woorden.
Detective 3 (Aandacht) is de interne stem van de AI die precies weet welke documenten hij "gevoeld" heeft als belangrijk.

Als je deze drie detectives samen laat werken (CITENTION), krijgen ze veel minder fouten. Detective 3 kan Detective 1 corrigeren als hij de verkeerde bron noemt, en Detective 2 kan helpen als Detective 3 de draad kwijtraakt.

4. De Belangrijkste Bevindingen

Complexiteit is de vijand: Hoe meer stappen je moet doorlopen om een antwoord te vinden (meer "hops" in de redenering), hoe slechter de AI wordt in het noemen van de juiste bronnen.
De "Aandacht" werkt: Door te kijken naar de interne "spotlight" van de AI (zonder de AI zelf te veranderen), kun je de bronnen veel beter vinden. Het is alsof je de AI vraagt: "Waar keek je net naar?" in plaats van alleen "Wat heb je gezegd?".
Samenwerking is kracht: De beste resultaten haal je door de interne "spotlight" te combineren met een simpele zoekmachine. Ze vullen elkaar aan.

Conclusie

Dit papier zegt eigenlijk: "Laten we stoppen met AI's alleen te beoordelen op wat ze zeggen, en kijken naar hoe ze denken." Door een slimme combinatie van hun interne gedachten (aandacht) en simpele zoektechnieken, kunnen we AI-systemen maken die niet alleen slim antwoorden geven, maar ook eerlijk kunnen zeggen waar ze die vandaan hebben.

Het is een stap in de richting van AI's die niet alleen slim zijn, maar ook betrouwbaar en verifieerbaar.

Each language version is independently generated for its own context, not a direct translation.

Titel: Citation Failure in LLMs: Definition, Analysis and Efficient Mitigation

Auteurs: Jan Buchmann en Iryna Gurevych (UKP Lab, TU Darmstadt)

1. Het Probleem: Citatie- versus Antwoordfalen

Het artikel adresseert een kritiek probleem in Retrieval-Augmented Generation (RAG) systemen: citaatfalen (citation failure).

Definitie: Citaatfalen treedt op wanneer een Large Language Model (LLM) een correct en nuttig antwoord genereert, maar faalt in het leveren van de volledige, onderliggende bewijslast (citaties) uit de brondocumenten.
Onderscheid: De auteurs maken een fundamenteel onderscheid tussen:
1. Antwoordfalen (Response Failure): Het gegenereerde antwoord is onjuist of niet onderbouwd door de bronnen.
2. Citaatfalen (Citation Failure): Het antwoord is correct, maar de gegenereerde citaties zijn onvolledig of incorrect.
Huidige tekortkomingen: Bestaand onderzoek en benchmarks onderscheiden deze twee vaak niet, wat leidt tot een vertekend beeld van de prestaties. Bovendien vertrouwen veel evaluaties op foutgevoelige LLM-evaluators die in complexe gevallen slechts ~50% nauwkeurigheid bereiken.

2. Methodologie

De studie volgt een tweestapsbenadering: analyse van het probleem en ontwikkeling van een efficiënte oplossing.

Stap 1: Analyse met CITECONTROL

Om citaatfalen systematisch te analyseren, introduceren de auteurs CITECONTROL, een nieuw benchmark- en evaluatieframework.

Kenmerken: CITECONTROL bevat verifieerbare antwoorden en bekende grondwaarheid (ground truth) voor bewijs, waardoor het mogelijk is om antwoordfalen strikt te filteren en alleen citaatprestaties te evalueren.
Variabelen: Het framework varieert de relatie tussen antwoord en bewijs op basis van twee kernconcepten:
1. Redenatietype (Reasoning Type): Enkelvoudig (single-hop), multi-hop (keten van feiten), en intersectie (combinatie van feiten).
2. Openheid (Overtness): Expliciet (het antwoord staat letterlijk in de bron) versus impliciet (het antwoord vereist inferentie uit de bron).
Datasets: Het framework combineert bestaande datasets (RepliQA, BoolQ-M, MuSiQue, NeoQA) met specifieke aanpassingen om deze variabelen te controleren.
Evaluatiemetric: Er wordt een gefilterde recall @k ( $R_{kf}$ ) gebruikt. Dit meet de recall alleen voor de subset van instances waarbij het antwoord correct was, waardoor citaatfouten niet worden verward met antwoordfouten.

Stap 2: Mitigatie met CITENTION

Om citaatfalen efficiënt op te lossen zonder zware fine-tuning of extra LLM-aanroepen, stellen de auteurs CITENTION voor.

Concept: Een framework dat drie methoden combineert:
1. Generatie-gebaseerd: De kans dat het model een citaat genereert (standaard LLM-output).
2. Attentie-gebaseerd: Het gebruik van interne attentiewaarden (attention weights) van het LLM om te bepalen welke bronnen het meest invloed hadden op de output. Dit is "gratis" beschikbaar tijdens generatie.
3. Retrieval-gebaseerd: Traditionele zoekmethodes (zoals BM25 en DRAG) die de vraag en het antwoord gebruiken om bronnen te vinden.
Implementatie: De scores van deze methoden worden geaggregeerd (gewogen gemiddelde) en een beslissingsfunctie selecteert de top- $k$ bronnen. Een belangrijke innovatie is het maskeren van redeneertokens tijdens de attentieberekening om afleiding te voorkomen.

3. Belangrijkste Resultaten

Analyse Resultaten (CITECONTROL)

Correlatie: Er is een sterke positieve correlatie tussen de kwaliteit van het antwoord en de kwaliteit van de citaties.
Complexiteit: Citaatprestaties dalen aanzienlijk naarmate de redenering complexer wordt (multi-hop) en de relatie implicieter is.
Modelgrootte: Kleinere modellen (<3B parameters) falen zelfs bij eenvoudige taken, terwijl grotere modellen wel het antwoord vinden maar moeite hebben met het traceren van de volledige bewijsketen.
Foutpatronen: De twee belangrijkste fouten zijn het genereren van te weinig citaties (under-generation) en het genereren van verkeerde citaties.
Retrieval vs. Generatie: Retrieval-methoden presteren beter bij impliciete relaties (omdat ze de vraag gebruiken), terwijl generatiemethoden beter zijn bij expliciete relaties.

Mitigatie Resultaten (CITENTION)

Prestatieverbetering: Het combineren van generatie-, attentie- en retrieval-methoden leidt tot aanzienlijke verbeteringen ten opzichte van alleen generatie.
- Op transfer-datasets (QASPER, GovReport) levert attentie-gebaseerde citatie gemiddeld +10% verbetering op ten opzichte van generatieve citatie.
- De gecombineerde methode (COMB) levert over alle datasets gemiddeld +5% verbetering op, zelfs in complexe redeneringsscenario's.
Rol van Attentie: Attentie-gebaseerde methoden (zoals QR en AT2) zijn effectief voor extractieve en abstractieve antwoorden, maar falen soms bij zeer korte, abstracte antwoorden of complexe redenering zonder masking.
Maskering: Het maskeren van redeneertokens tijdens de attentieberekening verbetert de prestaties van attentie-methoden aanzienlijk.
Complementariteit: De verschillende methoden vullen elkaar aan. Retrieval is sterk bij impliciete bronnen (multi-hop), terwijl attentie sterk is bij expliciete bronnen.

4. Bijdragen

Conceptueel Kader: De eerste duidelijke scheiding tussen "antwoordfalen" en "citaatfalen", wat essentieel is voor een eerlijke evaluatie van RAG-systemen.
CITECONTROL: Een nieuw, rigoureus benchmark dat de relatie tussen antwoord en bewijs systematisch varieert en afhankelijk is van verifieerbare grondwaarheid in plaats van onbetrouwbare LLM-evaluators.
CITENTION: Een efficiënt framework dat interne LLM-attentie gebruikt om citaties te verbeteren, zonder extra training of inferentiekosten. Het toont aan dat het combineren van generatie, attentie en retrieval de meest robuuste oplossing is.
Empirische Inzichten: Gedetailleerde analyse van hoe modelgrootte, redeneringscomplexiteit en de "openheid" van de relatie de citatiekwaliteit beïnvloeden.

5. Betekenis en Toekomstperspectief

Dit werk is van groot belang voor de ontwikkeling van betrouwbare en verantwoorde AI-systemen:

Efficiëntie: Het toont aan dat citatiekwaliteit kan worden verbeterd zonder de dure en risicovolle methode van full-model fine-tuning. Het gebruik van interne attentiewaarden is een kosteneffectieve strategie.
Verantwoordelijkheid: Door citaatfalen te mitigeren, kunnen gebruikers makkelijker de betrouwbaarheid van AI-antwoorden verifiëren, wat cruciaal is voor toepassingen in juridische, medische en nieuwscontexten.
Richting voor Onderzoek: De bevindingen suggereren dat toekomstige systemen hybride benaderingen moeten adopteren die de sterke punten van retrieval (voor impliciete zoekopdrachten) en interne modelmechanismen (voor contextuele relevantie) combineren.

Kortom, het artikel biedt een solide basis voor het begrijpen van waarom LLM's hun bronnen niet altijd correct citeren, en biedt een praktische, schaalbare oplossing om dit probleem op te lossen.