Diagnosing Retrieval Bias Under Multiple In-Context Knowledge Updates in Large Language Models

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een zeer slimme, maar soms wat verwarde assistent hebt. Je vertelt hem een feit, bijvoorbeeld: "De president van Italië is Mario." Vervolgens vertel je hem de volgende dag: "Oh, wacht, ik heb het verkeerd, de president is nu Luigi." En de dag daarna: "Nee, sorry, het is eigenlijk Sofia."

Als je deze assistent nu vraagt: "Wie is de president van Italië?", wat is dan zijn antwoord? Is het de laatste naam (Sofia), of blijft hij vastzitten in de oude herinneringen (Mario)?

Dit is precies waar dit onderzoek over gaat. De auteurs hebben ontdekt dat grote taalmodellen (zoals de AI die je misschien gebruikt) een groot probleem hebben met het bijwerken van informatie in hun "geheugen" als er vele updates achter elkaar komen.

Hier is een simpele uitleg van wat ze hebben gedaan en ontdekt, met behulp van een paar creatieve vergelijkingen:

1. Het Probleem: De "Verkeerde Weg" in het Geheugen

In de psychologie bestaat er een fenomeen dat AB-AC interferentie heet.

Stel: Je leert dat A (een sleutel) opent B (een kast).
Later leer je dat dezelfde sleutel A nu C (een andere kast) opent.
Als je later de sleutel ziet, vechten de twee herinneringen (B en C) om de controle. Vaak wint de oude herinnering (B), zelfs als je de nieuwe (C) juist hebt geleerd.

De onderzoekers hebben dit idee op AI toegepast. Ze gaven de AI een "cue" (een vraag, zoals "Wie is de president?") en gaven diezelfde vraag vele keren met een nieuw antwoord.

Update 1: President is X.
Update 2: President is Y.
Update 3: President is Z.
...
Update 50: President is W.

2. De Ontdekking: "Oude Herinneringen" winnen

Ze ontdekten iets verrassends en een beetje zorgwekkends:

Als je de AI vraagt: "Wie was de eerste president in deze lijst?", is hij perfect. Hij onthoudt het begin heel goed.
Maar als je vraagt: "Wie is de laatste (huidige) president?", gaat het fout. Hoe meer updates er zijn, hoe slechter hij de nieuwste informatie onthoudt.

De Analogie:
Stel je voor dat je een lange rij postbodes hebt die een brief doorgeven.

De eerste postbode (de oudste informatie) is heel sterk en roept zijn naam luid en duidelijk.
De laatste postbode (de nieuwste informatie) staat helemaal achterin de rij. Door de drukte en de geluiden van de eerdere postbodes, wordt zijn stem overstemd. De AI "hoort" de oude namen harder dan de nieuwe.

Ze noemen dit een retrieval bias (een vertekening bij het ophalen van informatie). De AI is beter in het terugroepen van het verleden dan in het vasthouden van het heden als er veel updates zijn.

3. Waarom gebeurt dit? (De "Binnenkant" van de AI)

De onderzoekers keken niet alleen naar wat de AI zei, maar ook naar hoe hij "dacht" (naar zijn interne signalen). Ze zagen drie dingen:

Aandacht: De AI kijkt vaak naar de verkeerde plekken in de tekst. Het is alsof hij naar de eerste pagina van een boek kijkt in plaats van de laatste, terwijl het antwoord daar staat.
Verwarring: Bij fouten zijn de interne signalen van de AI heel "plat". Het is alsof de AI twijfelt en geen sterke keuze kan maken. Hij weet niet zeker welk antwoord het juiste is.
Zekerheid: Soms is de AI te zeker van zijn fout. Hij zegt met 100% zekerheid: "Het is Mario!" terwijl het Sofia is.

4. Probeer het op te lossen (De "Trucs")

De onderzoekers probeerden verschillende manieren om de AI te helpen, geïnspireerd op hoe mensen hun geheugen trainen:

Herhaling: "Zeg het maar een paar keer tegen jezelf."
Vergeten: "Vergeet de oude namen, onthoud alleen de nieuwe."
Verbinding: "Zie de updates als één verhaal, niet als losse stukjes."

Het resultaat?
Deze trucs hielpen een klein beetje, maar niet genoeg. De AI bleef worstelen met de nieuwste informatie. Het is alsof je iemand probeert te helpen die een zware last draagt; je kunt hem een stok geven (een prompt), maar hij kan de last (de vele updates) nog steeds niet goed dragen.

Conclusie: Wat betekent dit voor ons?

De boodschap van dit onderzoek is helder:
Huidige AI-modellen zijn geweldig in het onthouden van feiten, maar ze zijn niet goed in het bijwerken van hun kennis als er veel nieuwe informatie achter elkaar komt. Ze blijven vaak vastzitten in het verleden.

Voor bedrijven die AI gebruiken (bijvoorbeeld voor nieuwsberichten of juridische updates) is dit een waarschuwing: vertrouw niet blindelings op de AI als het gaat om de allerlaatste update. De AI kan je vertellen wat er gisteren was, maar hij vergeet misschien wat er vandaag is gebeurd.

Kort samengevat: De AI heeft een "kortetermijngeheugen" dat te snel volloopt met oude herinneringen, waardoor de nieuwste informatie verdwijnt in de chaos. We hebben nog geen perfecte oplossing gevonden om dit probleem volledig op te lossen.

Each language version is independently generated for its own context, not a direct translation.

Titel: Het diagnosticeren van ophaalbias onder meerdere updates van kennis in de context van Grootte Taalmodellen (LLM's)

1. Het Probleem

Grootte Taalmodellen (LLM's) worden veel gebruikt in kennisintensieve taken waar feiten binnen de context (in-context) meerdere keren kunnen worden herzien. Bestaand onderzoek richt zich voornamelijk op éénmalige updates of enkele conflicten tussen parametrische geheugen en contextuele bewijslast. Echter, in realistische scenario's kunnen dezelfde feiten herhaaldelijk worden bijgewerkt, wat leidt tot een situatie waarin meerdere historische versies van een feit naast elkaar bestaan en concurreren tijdens het ophalen (retrieval).

Dit fenomeen wordt in de cognitieve psychologie vergeleken met het AB-AC-interferentieparadigma: wanneer eenzelfde cue (A) achtereenvolgens wordt geassocieerd met B en vervolgens met C, concurreren de oude en nieuwe associaties tijdens het ophalen, wat leidt tot een systematische bias. Het paper onderzoekt of LLM's deze bias vertonen wanneer ze geconfronteerd worden met een reeks updates voor dezelfde cue, en of ze in staat zijn om de meest recente update te onderscheiden van eerdere historische staten.

2. Methodologie

De auteurs introduceren een gestructureerde aanpak bestaande uit drie hoofdbestanden:

A. Dynamic Knowledge Instance (DKI) Evaluatie Framework

Concept: Een DKI wordt gedefinieerd als een traject van een cue (A) gekoppeld aan een sequentie van waarden ( $V^{(1)} \to V^{(2)} \to \dots \to V^{(T)}$ ).
Endpoint Probing: Om de bias te meten, testen ze twee uiterste punten:
1. Vroegste historische staat: Vraag om de initiële waarde $V^{(1)}$ .
2. Laatste huidige staat: Vraag om de meest recente waarde $V^{(T)}$ .
Metriek: De Earliest-Latest Accuracy Gap (ELAG) wordt gebruikt als maatstaf voor de bias: $ELAG = Acc_{earliest} - Acc_{latest}$ . Een grote kloof duidt op een sterke bias ten gunste van historische informatie ten koste van de nieuwste update.
Datasets: Er worden twee soorten datasets gebruikt:
- Synthetisch: Willekeurige woordparen om semantische priors te minimaliseren.
- Real-world: Evoluerende feiten (bijv. presidenten van Italië) uit bestaande benchmarks, zowel in gestructureerde vorm als in lange, narratieve teksten.

B. Interne Signaal Diagnostics
Om te begrijpen waarom de bias optreedt, analyseren de auteurs interne mechanismen van de LLM's:

Attentie-allocation: Hoeveel aandacht besteedt het model aan de token-sequenties van de verschillende kandidaat-waarden?
Hidden-state similariteit: De cosine-similariteit tussen de hidden state op het antwoordpunt en de representaties van de kandidaat-waarden.
Output logits: De confidentie-scores van het model voor de verschillende kandidaten.

C. Cognitief Geïnspireerde Interventies
De auteurs vertalen strategieën uit de cognitieve psychologie naar prompt-based interventies om de bias te verminderen:

Algemene mnemonische strategieën: Rote herhaling (repetitie) en semantische elaboratie (diepere verwerking).
Geheugen-update strategieën:
- Integratie: Het modelleren van updates als een keten ( $V^{(1)} \to V^{(T)}$ ) in plaats van losse paren.
- Gericht vergeten (Directed Forgetting): Het expliciet markeren van oude waarden als "verouderd" en de nieuwe waarde als "behouden".

3. Belangrijkste Resultaten

A. Existentie en Omvang van Retrieval Bias

Er is een significante retrieval bias waargenomen bij diverse LLM's (waaronder LLaMA 3.1 en Qwen families).
Vroegste staat: De nauwkeurigheid voor het ophalen van de initiële waarde ( $V^{(1)}$ ) blijft consistent hoog, zelfs bij een groot aantal updates ( $T$ ).
Laatste staat: De nauwkeurigheid voor de meest recente waarde ( $V^{(T)}$ ) daalt drastisch naarmate het aantal updates toeneemt.
Kloof: De ELAG (kloof tussen vroegste en laatste nauwkeurigheid) wordt groter naarmate $T$ toeneemt. Bij synthetische data met $T=512$ is de bias extreem groot.
Modelgrootte: Kleinere modellen vertonen een sterkere bias dan grotere modellen, hoewel zelfs de grootste modellen (zoals GPT-5 en LLaMA-405B) niet volledig immuun zijn.

B. Analyse van Interne Signalen
De analyse van interne signalen onthult waarom het model faalt bij het ophalen van de laatste update:

Attentie: Bij fouten is de attentie-distributie "plat" en minder discriminerend. Het model richt zich soms op eerdere kandidaten of verspreidt de aandacht over de hele sequentie zonder een duidelijke focus op de laatste waarde.
Hidden States: Bij correcte antwoorden is er een duidelijke piek in similariteit met de juiste kandidaat. Bij fouten is deze piek afwezig of zeer zwak; de representatie van het antwoordpunt is niet stabiel genoeg om de nieuwste update te onderscheiden.
Logits: De confidentie-scores (logits) tonen bij fouten geen stabiele piek voor de juiste kandidaat. Het model is vaak overtuigend in zijn fout (overconfidence) of toont geen duidelijke voorkeur.
Conclusie: Het falen is niet beperkt tot één laag, maar is het gevolg van een instabiele, cross-layer evidence-keten die niet in staat is om de nieuwste update te "vergrendelen" tegen de interferentie van eerdere versies.

C. Effectiviteit van Interventies

De cognitief geïnspireerde prompts (zoals Memory Integration en Directed Forgetting) en algemene prompting-strategieën (zoals 2-shot en Chain-of-Thought) leveren slechts bescheiden verbeteringen op in de nauwkeurigheid van de laatste staat.
Hoewel sommige methoden de ELAG iets verkleinen, verwijdert geen enkele prompt-strategie de bias volledig. De kloof tussen vroegste en laatste nauwkeurigheid blijft aanzienlijk bestaan.

4. Bijdragen

Framework: Introductie van het DKI-framework dat multi-updates formaliseert en endpoint probing gebruikt om retrieval bias kwantitatief te meten.
Empirische Bevindingen: Het aantonen van een systematische en toenemende bias in LLM's bij het bijhouden van meerdere updates, waarbij de vroegste staat beter wordt onthouden dan de laatste.
Mechanismeanalyse: Het onthullen dat interne signalen (attentie, hidden states, logits) bij fouten "plat" worden en geen stabiele basis bieden voor het identificeren van de nieuwste update.
Beperkingen van Prompting: Het aantonen dat bestaande prompting-technieken en cognitieve heuristieken onvoldoende zijn om dit fundamentele probleem op te lossen.

5. Significatie en Toekomstperspectief

Dit paper benadrukt een fundamentele uitdaging voor de toepassing van LLM's in dynamische omgevingen (zoals zoekmachines, juridische assistenten of nieuwsaggregatoren): het betrouwbaar bijhouden van de meest recente kennis in lange contexten.

De bevindingen suggereren dat:

Het simpelweg toevoegen van meer context of het gebruik van standaard prompting niet voldoende is om "verouderde" informatie te onderdrukken.
Er behoefte is aan nieuwe, doelgerichte mechanismen aan de modelzijde (bijv. architecturale wijzigingen of geavanceerde trainingstechnieken) om de interferentie tussen meerdere versies van hetzelfde feit effectief te beheersen.
De huidige LLM's nog steeds worstelen met het concept van "vergeten" of "updaten" in real-time, wat beperkingen oplegt aan hun inzetbaarheid voor taken waar actuele kennis cruciaal is.

Kortom, het paper levert een cruciale diagnose van een onderbelicht probleem in de LLM-research en stelt dat de oplossing niet ligt in betere prompts, maar in een fundamenteel herontwerp van hoe modellen kennis-updates verwerken en integreren.

Diagnosing Retrieval Bias Under Multiple In-Context Knowledge Updates in Large Language Models

1. Het Probleem: De "Verkeerde Weg" in het Geheugen

2. De Ontdekking: "Oude Herinneringen" winnen

3. Waarom gebeurt dit? (De "Binnenkant" van de AI)

4. Probeer het op te lossen (De "Trucs")

Conclusie: Wat betekent dit voor ons?

Titel: Het diagnosticeren van ophaalbias onder meerdere updates van kennis in de context van Grootte Taalmodellen (LLM's)

1. Het Probleem

2. Methodologie

3. Belangrijkste Resultaten

4. Bijdragen

5. Significatie en Toekomstperspectief

Meer zoals dit

Diffusion Language Models Know the Answer Before Decoding

Contextual Earnings-22: A Speech Recognition Benchmark with Custom Vocabulary in the Wild

Hybrid CNN-Transformer Architecture for Arabic Speech Emotion Recognition

Cross-Tokenizer LLM Distillation through a Byte-Level Interface

Lexical Tone is Hard to Quantize: Probing Discrete Speech Units in Mandarin and Yorùbá