Can Large Language Models Keep Up? Benchmarking Online Adaptation to Continual Knowledge Streams

Each language version is independently generated for its own context, not a direct translation.

Titel: Kunnen slimme computers echt meekomen met de stroom van nieuwe feiten?

Stel je voor dat je een zeer slimme, maar soms wat verstrooide assistent hebt. Deze assistent is getraind op een enorme hoeveelheid boeken en weet van alles. Maar nu moet hij werken in een wereld die niet stilstaat. Feiten veranderen, net als het weer of het nieuws.

Dit onderzoek, genaamd OAKS, is als een strenge test voor deze assistenten. De onderzoekers willen weten: Kunnen deze computers echt meekomen als de feiten continu veranderen, of blijven ze hangen in oude informatie?

Hier is hoe het werkt, uitgelegd met een paar creatieve vergelijkingen:

1. De Test: Een rivier in plaats van een meer

Meestal testen we slimme computers op een "meer" van kennis: een stilstaand meer waar alle informatie al in ligt. Maar in het echte leven is kennis een rivier. Het stroomt voortdurend voorbij.

In deze test krijgen de computers een verhaal dat stukje bij beetje wordt onthuld (zoals een roman die je per hoofdstuk leest).

Het scenario: Stel, er is een vraag: "Hoeveel soldaten staan er op de tafel?"
Het probleem: In het begin van het verhaal zijn er 10 soldaten. Dan zegt iemand: "Nee, er zijn er maar 8." Later weer: "Eigenlijk zijn het er 6." En daarna: "Oh, er is er één gebroken, dus er zijn er 5."
De uitdaging: De computer moet bij elke nieuwe zin het antwoord direct aanpassen. Als hij blijft hangen bij "10", faalt hij. Hij moet de rivier volgen, niet in het verleden blijven staren.

2. De Datasets: Twee soorten verhalen

De onderzoekers hebben twee soorten "rivieren" gecreëerd om de computers te testen:

OAKS-B (De Simpele Test): Dit is een synthetisch verhaal, gemaakt door een computer. Het is als een logische puzzel waar feiten heel snel en vaak veranderen. Het is puur om te zien of de computer de logica kan volgen.
OAKS-N (De Echte Roman): Dit zijn echte boeken (zoals Pride and Prejudice of Around the World in Eighty Days). Hierin veranderen de feiten op een meer natuurlijke, soms verwarrende manier. Het is alsof je een detectiveverhaal leest waar de verdachte elke dag een nieuw alibi heeft.

3. Wat bleek er? De computers worstelen

De onderzoekers hebben 14 van de slimste computers ter wereld (zoals de nieuwste versies van Gemini, Qwen en GPT) op deze test gezet. Het nieuws is niet goed: ze halen het niet.

De gemiddelde score: Zelfs de slimste computers haalden maar ongeveer 39% tot 57% correcte antwoorden. Dat is alsof je een examen doet en halverwege faalt.
Het probleem: De computers zijn erg goed in het onthouden van oude feiten, maar heel slecht in het vergeten van oude feiten als er nieuwe informatie komt. Ze zijn als een hond die blijft blaffen naar een bal die al lang weg is, terwijl er een nieuwe bal wordt gegooid.

4. Waarom lukt het niet?

De onderzoekers zagen twee hoofdproblemen:

Vergeten vs. Verwarren:
- Sommige computers zijn te stijf. Ze denken: "Ik heb eerder gezegd dat er 10 soldaten waren, dus dat blijft zo," zelfs als het verhaal duidelijk zegt dat er 5 zijn. Dit noemen ze "Obstinate" (stug).
- Andere computers zijn te onrustig. Ze veranderen hun antwoord elke seconde, zelfs als er niets is veranderd. Ze denken dat er iets nieuws is, terwijl er niets is. Dit noemen ze "Volatility" (vluchtig).
De "Nieuwslezer"-effect: Hoe langer het verhaal wordt, hoe meer de computer de draad kwijtraakt. Het is alsof je een gesprek voert met iemand die na 100 zinnen vergeet wat er in zin 1 is gezegd.

5. Helpt "nadenken" (Thinking Mode)?

Sommige moderne computers hebben een "nadenk-functie" (zoals een mens die even stil staat om na te denken voordat hij antwoordt).

Het resultaat: Dit helpt zeker! De computers worden iets slimmer en maken minder fouten.
Maar: Het is geen wondermiddel. Zelfs als ze "nadenken", raken ze nog steeds in de war als de feiten te snel veranderen of als het verhaal te lang wordt.

6. Wat betekent dit voor de toekomst?

Dit onderzoek laat zien dat we nog ver weg zijn van een echt slimme assistent die meeleeft in een dynamische wereld.

Huidige systemen zijn geweldig voor statische vragen (zoals "Wie was de eerste president van de VS?").
Maar in een wereld waar nieuws, regels en situaties elke seconde veranderen, haken ze af. Ze hebben moeite om hun "geheugen" continu bij te werken zonder in de war te raken.

Conclusie in één zin:
De slimste computers van vandaag zijn als een uitstekende bibliothecaris die alle boeken kent, maar als je de boeken elke dag herschrijft, raken ze de draad kwijt en blijven ze antwoorden geven die gisteren nog waar waren, maar vandaag niet meer. We moeten ze nog veel leren om echt "live" mee te kunnen.

Each language version is independently generated for its own context, not a direct translation.

Hier is een gedetailleerde technische samenvatting van het paper "Can Large Language Models Keep Up? Benchmarking Online Adaptation to Continual Knowledge Streams" in het Nederlands.

Titel: Can Large Language Models Keep Up? Benchmarking Online Adaptation to Continual Knowledge Streams (OAKS)

Auteurs: Jiyeon Kim et al. (KAIST AI, UNC Chapel Hill, Google, KRAFTON, Adobe Research, NYU)

1. Het Probleem

In real-world scenario's is kennis inherent dynamisch: feiten evolueren continu, worden bijgewerkt of tegenstrijdig door nieuwe informatie. Bestaande Large Language Models (LLM's) zijn echter voornamelijk getraind op statische datasets en presteren vaak slecht wanneer ze moeten omgaan met online adaptatie op stromende kennisstromen.

Huidige benchmarks richten zich op:

Statistische kennis: Waar alle informatie vooraf bekend is.
Offline taken: Waar het model niet hoeft te reageren op nieuwe data in real-time.
Beperkte updates: Waar kennisupdates zeldzaam zijn of divergerende feiten betreffen in plaats van dezelfde onderliggende feiten die herhaaldelijk veranderen.

Dit creëert een gat in de evaluatie van systemen die als conversatie-assistenten of embodied agents moeten werken, waar informatie sequentieel arriveert en modellen hun kennisstaat direct moeten aanpassen zonder hun interne gewichten te hertrainen (inference-time adaptation).

2. Methodologie: De OAKS Benchmark

De auteurs introduceren OAKS (Online Adaptation to Continual Knowledge Streams), een benchmark ontworpen om modellen te evalueren in een setting waar kennis stroomt en continu wordt bijgewerkt.

Datasets

Er zijn twee nieuwe datasets ontwikkeld waarin feiten dynamisch evolueren over tijdintervallen:

OAKS-BABI (OAKS-B): Een synthetische dataset afgeleid van de BABILong-benchmark.
- Opbouw: Context wordt opgedeeld in chunks van 2.000 tokens.
- Inhoud: Feiten over entiteiten (bijv. locaties, bezittingen) veranderen frequent.
- Vraagtypes: Tracking, telling, brug (bridge) en vergelijking.
- Kenmerk: Gemiddeld 4,7 antwoordwijzigingen per vraag.
OAKS-Novel (OAKS-N): Een menselijk gecurateerde dataset gebaseerd op volledige literaire romans.
- Opbouw: Natuurlijke verhalen met complexe plotlijnen en flashbacks.
- Vorm: Multiple-choice vragen met gedetailleerde annotaties voor elk tijdinterval.
- Kenmerk: 870 vragen over 39 boeken, met eveneens gemiddeld 4,7 antwoordwijzigingen per vraag.

Evaluatie-Setup

Online Setting: Op elk tijdstip $t$ krijgt het model een nieuwe context-chunk $c_t$ .
Vraagstelling: Het model wordt op elk interval gevraagd dezelfde set vragen te beantwoorden, gebaseerd op alle tot dan toe geaccumuleerde context ( $c_1$ tot $c_t$ ).
Ground Truth: Voor elke vraag is er een grondwaarheid (ground truth) die specifiek is voor dat tijdstip, gebaseerd op de kennis die op dat moment beschikbaar is.
Metingen:
- Interval-level Accuracy: Het percentage juiste antwoorden op elk moment.
- Finere analyse: Acquisition Latency (hoe snel reageert het model op een verandering?), Distraction Susceptibility (valt het model terug in oude fouten?), en Phase Miss rate (mist het model een hele fase van verandering?).

3. Belangrijkste Bijdragen

Eerste Benchmark voor Online Adaptatie: OAKS is de eerste benchmark die continue kennislearning en online adaptatie unificeert, specifiek gericht op fijnmazige, frequente updates van dezelfde feiten.
Nieuwe Datasets: De introductie van OAKS-B en OAKS-N met dense annotaties om de nauwkeurigheid van het volgen van veranderingen te meten.
Uitgebreide Evaluatie: Evaluatie van 14 state-of-the-art modellen (open-source en proprietary) met verschillende inferentiestrategieën (Base, RAG, Agentic Memory).
Gedetailleerde Foutanalyse: Een nieuwe taxonomie van modelgedrag (bijv. "Over-updating" vs. "Under-updating") om te begrijpen waarom modellen falen.

4. Resultaten

De resultaten tonen aan dat zelfs de krachtigste modellen moeite hebben met OAKS:

Algemene Prestaties:
- De gemiddelde nauwkeurigheid is laag: 39,4% op OAKS-B en 57,5% op OAKS-N.
- Zelfs het beste gesloten model (Gemini 3 Pro) haalt slechts 66,3% (OAKS-B) en 75,5% (OAKS-N).
- Prestaties dalen aanzienlijk bij frequente updates (tot 33,3% op OAKS-B voor frequente vragen).
Invloed van Modelgrootte en Type:
- Prestaties schalen met modelgrootte, maar zelfs grote modellen (Qwen3-235B, Gemini 3) vertonen significante fouten.
- Proprietary modellen presteren over het algemeen beter dan open-source, maar het probleem blijft uitdagend voor iedereen.
Inferentiestrategieën:
- Naive RAG (Retrieval Augmented Generation): Toont beperkte verbetering en presteert soms zelfs slechter dan de basisinstelling, vooral bij frequente updates. Retrieval wordt moeilijk wanneer veel semantisch gerelateerde chunks bestaan.
- Agentic Memory Systemen: Systemen zoals MemAgent presteren beter bij frequente updates dan simpele RAG, maar blijven onder de verwachtingen. Hun training is vaak gebaseerd op statische vragen, niet op continue interval-bewaking.
- Thinking Mode: Het activeren van "thinking mode" (inference-time reasoning) verbetert de prestaties aanzienlijk, vooral bij complexe redeneervragen (bridge-vragen), omdat het helpt bij het tegelijkertijd volgen van meerdere staten.
Gedragsanalyse (Foutmodi):
- Over-updating (Volatility): Modellen veranderen hun antwoord onnodig vaak, zelfs als de feiten niet zijn veranderd (distraction).
- Under-updating (Obstinacy/Stubbornness): Modellen houden vast aan oude antwoorden, zelfs wanneer nieuwe informatie een update vereist.
- Lag: Er is een vertraging tussen het moment dat een feit verandert en het moment dat het model dit correct oppikt.
- Contextlengte: Prestaties verslechteren naarmate de context langer wordt en het tijdstip verder opschuift, wat wijst op accumulatie van fouten.

5. Significatie en Conclusie

Het paper concludeert dat huidige LLM's niet goed kunnen bijbenen in dynamische, real-time kennisstromen.

Kritieke Inzichten:
- Het vermogen om lange contexten te begrijpen (Long Context) is noodzakelijk maar niet voldoende. Modellen missen het vermogen om online en continu hun kennisstaat te actualiseren zonder te vergeten of te worden afgeleid.
- Simpele strategieën zoals RAG of het toevoegen van een "thinking mode" lossen het probleem niet volledig op, vooral niet bij frequente, fijne updates.
- Er is een duidelijke trade-off tussen het vasthouden van een stabiel antwoord en het snel aanpassen aan nieuwe feiten.
Toekomstperspectief:
- OAKS dient als een cruciale testomgeving voor het ontwikkelen van nieuwe methoden voor parametrisch online leren (het bijwerken van interne gewichten) en geavanceerde inference-time adaptatie.
- Het benadrukt de noodzaak van systemen die niet alleen feiten kunnen opslaan, maar ook de temporele consistentie van die feiten kunnen bewaken in een stromende omgeving.

Samenvattend biedt OAKS een rigoureuze maatstaf voor de volgende generatie AI-systemen die echt dynamisch en adaptief moeten opereren in de echte wereld.