Can Large Language Models Keep Up? Benchmarking Online Adaptation to Continual Knowledge Streams

Each language version is independently generated for its own context, not a direct translation.

Titel: Können KI-Sprachmodelle mit der Zeit mithalten? – Eine einfache Erklärung

Stellen Sie sich vor, Sie haben einen sehr klugen, aber etwas stur wirkenden Assistenten. Dieser Assistent liest gerne Bücher und kann fantastische Fragen beantworten. Aber es gibt ein Problem: Die Welt verändert sich ständig, und dieser Assistent hinkt hinterher.

Dieses Papier stellt ein neues Experiment vor, das genau dieses Problem untersucht. Hier ist die Geschichte dahinter, einfach erklärt:

1. Das Problem: Der "veraltete" Assistent

In der echten Welt ändern sich Dinge ständig. Ein Freund zieht um, ein Sportteam wechselt den Trainer, oder ein Charakter in einem Roman ändert seine Meinung.

Das alte Problem: Wenn Sie einem KI-Modell heute eine Frage stellen, nutzt es sein "Gedächtnis" (das, was es beim Training gelernt hat). Aber wenn sich die Fakten gerade jetzt ändern, weiß die KI das oft nicht. Sie antwortet immer noch mit dem, was sie vor einem Jahr wusste.
Die Herausforderung: Wie kann eine KI lernen, sich live zu aktualisieren, während sie liest, ohne dabei den Faden zu verlieren?

2. Der Test: OAKS (Das "Live-Update"-Spiel)

Die Forscher haben ein neues Spiel entwickelt, das sie OAKS nennen. Stellen Sie sich OAKS wie einen Live-Ticker an der Börse oder eine fortlaufende Serie vor.

Das Szenario: Die KI bekommt die Geschichte nicht auf einmal geschenkt. Stattdessen werden ihr die Informationen wie ein Wasserfall stückweise (Chunk für Chunk) ins Gehirn gegossen.
Die Aufgabe: Die KI muss die ganze Zeit über dieselbe Frage beantworten (z. B. "Wo wohnt Herr Müller?").
Der Twist: In der Geschichte zieht Herr Müller plötzlich um!
- Früher: "Er wohnt in Berlin."
- Jetzt (nach 10 Seiten): "Er wohnt in München."
- Später (nach 20 Seiten): "Er wohnt in Hamburg."

Die KI muss also live merken: "Aha, die Information hat sich geändert! Ich muss meine Antwort ändern." Wenn sie das nicht tut, ist sie falsch. Wenn sie es zu oft tut (z. B. bei jeder kleinen Erwähnung), ist sie auch falsch.

3. Die zwei Spielbretter (Die Datensätze)

Um den Test fair zu gestalten, haben die Forscher zwei verschiedene Welten geschaffen:

OAKS-BABI (Der künstliche Test): Das ist wie ein Logik-Rätsel. Hier sind die Regeln sehr streng. Es geht darum, Objekte zu zählen oder zu verfolgen, wer wohin gegangen ist. Es ist sauber, aber künstlich.
OAKS-Novel (Der echte Roman): Das ist wie ein echtes Buch. Hier gibt es komplexe Handlungen, Rückblenden und viele Charaktere. Es ist viel chaotischer und schwieriger, weil die Informationen oft versteckt sind.

4. Was haben sie herausgefunden? (Die Ergebnisse)

Die Forscher haben 14 der klügsten KI-Modelle der Welt (wie Gemini, Qwen, GPT-OSS) gegen diesen Test antreten lassen. Das Ergebnis war ernüchternd:

Die KI ist oft verwirrt: Selbst die besten Modelle haben nur etwa 40 % bis 60 % richtig gelegen. Das ist wie bei einem Schüler, der bei einer wichtigen Prüfung durchfällt.
Das "Vergessens"-Problem: Wenn sich eine Information ändert, vergessen die KIs oft, dass sie sich geändert hat. Sie bleiben bei der alten Antwort hängen (wie ein Auto, das auf der Bremse steht, obwohl das Gaspedal gedrückt wird).
Das "Überreagieren"-Problem: Manche KIs werden zu nervös. Sie ändern ihre Antwort, obwohl sich gar nichts geändert hat. Sie glauben, eine neue Information sei wichtig, obwohl es nur ein unwichtiger Nebensatz war.
Gedächtnis-Systeme helfen nur bedingt: Die Forscher haben versucht, den KIs "externe Notizblöcke" (RAG-Systeme) zu geben, damit sie nachschlagen können. Das half ein bisschen, aber bei schnellen Änderungen war das Nachschlagen oft zu langsam oder verwirrend.
Nachdenken hilft: Modelle, die einen "Denkmodus" haben (sie denken kurz nach, bevor sie antworten), waren besser. Es ist, als würde man bei einer schwierigen Matheaufgabe erst den Stift ansetzen und überlegen, statt sofort zu raten.

5. Die Metapher: Der Dirigent im Orchester

Stellen Sie sich die KI als einen Dirigenten vor, der ein Orchester leitet.

Die Musiknoten sind die neuen Informationen, die ständig hereinkommen.
Der Dirigent muss das Orchester (die Antwort) genau auf die aktuelle Note abstimmen.
Das Problem: Viele Dirigenten (KI-Modelle) hören die neue Note, aber spielen weiter die alte Melodie. Oder sie panikartig die Musik wechseln, obwohl die Note gar nicht so wichtig war.
OAKS ist einfach ein Test, um zu sehen, welcher Dirigent wirklich im Takt bleibt, wenn die Musik sich ständig ändert.

Fazit

Die Nachricht ist klar: Künstliche Intelligenz ist noch nicht bereit für die echte, sich ständig verändernde Welt. Sie ist gut darin, statisches Wissen abzurufen (wie ein Lexikon), aber schlecht darin, sich live zu aktualisieren, während sie liest.

Die Forscher sagen: Wir müssen noch viel arbeiten, damit KIs nicht nur "wissen", sondern auch "mithalten" können. Bis dahin sollten wir vorsichtig sein, wenn wir KI-Assistenten Aufgaben geben, bei denen sich die Fakten schnell ändern.

Each language version is independently generated for its own context, not a direct translation.

Hier ist eine detaillierte technische Zusammenfassung des Papers „Can Large Language Models Keep Up? Benchmarking Online Adaptation to Continual Knowledge Streams" (OAKS) auf Deutsch:

1. Problemstellung

Große Sprachmodelle (LLMs) operieren oft in dynamischen Realwelt-Szenarien, in denen Wissen nicht statisch ist, sondern sich kontinuierlich entwickelt oder inkrementell entsteht (z. B. in Dialog-Assistenten oder robotischen Agenten).

Die Herausforderung: Bestehende Benchmarks testen meist statisches Wissen oder Offline-Aufgaben. Es fehlt jedoch an Evaluierungen für Online-Adaptation, bei der Modelle neue Informationen in Echtzeit verarbeiten und ihre Wissenszustände dynamisch anpassen müssen, ohne dass sie neu trainiert werden.
Das spezifische Defizit: Modelle müssen in der Lage sein, feingranulare Faktenänderungen in einem Streaming-Kontext zu verfolgen, inkonsistente Informationen zu erkennen und ihre Antworten entsprechend zu aktualisieren, ohne dabei durch irrelevante Kontextinformationen abgelenkt zu werden oder alte Informationen fälschlicherweise zu behalten.

2. Methodik und OAKS-Benchmark

Die Autoren stellen OAKS (Online Adaptation to Continual Knowledge Streams) vor, einen Benchmark, der genau diese Fähigkeit testet.

Datensätze

OAKS besteht aus zwei neuen Datensätzen, die aus Kontext-Blöcken (Chunks) bestehen, die sequenziell über die Zeit bereitgestellt werden:

OAKS-BABI (OAKS-B): Ein synthetischer Datensatz, der auf dem BABILong-Benchmark basiert. Er wurde so umgestaltet, dass er sich von der statischen Faktenabruf-Aufgabe hin zu dynamischem Wissens-Tracking und -Reasoning bewegt. Er enthält 1.200 Fragen mit durchschnittlich 4,7 Antwortänderungen pro Frage über 65 Kontext-Blöcke (ca. 128k Token).
OAKS-Novel (OAKS-N): Ein menschlich kuratierter Datensatz aus 39 literarischen Romanen. Er nutzt natürliche Narrative mit komplexen Handlungssträngen und Charakterentwicklungen. Er enthält 870 Multiple-Choice-Fragen mit durchschnittlich 4,7 Antwortänderungen über bis zu 286 Blöcke.

Besonderheit der Annotation: Für jede Frage wird zu jedem Zeitintervall (bei jedem neuen Kontext-Chunk) eine Ground-Truth-Antwort annotiert. Dies ermöglicht die Bewertung, ob das Modell den exakten Moment einer Wissensänderung erkennt und die Antwort entsprechend aktualisiert.

Evaluierungs-Setup

Online-Setting: Das Modell erhält zu jedem Zeitpunkt $t$ alle bisher gesammelten Kontext-Blöcke ( $c_1$ bis $c_t$ ) und eine Frage $q$ .
Metrik: Die Leistung wird als Intervall-Genauigkeit gemessen. Das Modell muss zu jedem Schritt die korrekte Antwort basierend auf dem aktuellen Wissensstand liefern. Die finale Punktzahl ist der Durchschnitt über alle Intervalle und Fragen.
Stratifizierung: Die Datensätze werden in drei Teilmengen unterteilt, basierend auf der Häufigkeit der Antwortänderungen: Sparse (selten), Moderate (mittel) und Frequent (häufig).

3. Experimentelles Setup

Modelle: Es wurden 14 verschiedene LLMs evaluiert, darunter Open-Source-Modelle (Qwen3-Familie, GPT-OSS, Gemma 3) und proprietäre Modelle (Gemini 2.5 Flash/Pro, Gemini 3).
Inferenz-Strategien:
- Base: Konkatination aller vorherigen Blöcke (mit Truncating bei Limits).
- RAG (Retrieval-Augmented Generation): Abruf relevanter Blöcke aus der Vergangenheit.
- Agentic Memory Systems: Nutzung von Systemen wie HippoRAG-V2, MemAgent und A-Mem, die inkrementell Gedächtnis aktualisieren.
- Thinking Mode: Vergleich von Modellen mit und ohne explizite „Denk"-Phase (Chain-of-Thought).

4. Wichtige Ergebnisse

Allgemeine Leistung

Hohe Schwierigkeit: OAKS stellt selbst für State-of-the-Art-Modelle eine enorme Herausforderung dar. Die durchschnittliche Genauigkeit liegt bei ca. 39,4 % für OAKS-B und 57,5 % für OAKS-N. Selbst das beste Modell (Gemini 3 Pro) erreicht nur 66,3 % (OAKS-B) bzw. 75,5 % (OAKS-N).
Skalierung: Größere Modelle und proprietäre Modelle (wie Gemini) schneiden tendenziell besser ab, aber die Verbesserungen sind begrenzt, insbesondere bei häufigen Updates.
Häufigkeit der Updates: Die Leistung verschlechtert sich signifikant bei Fragen mit häufigen Zustandsänderungen (Frequent Subset). Bei OAKS-B fällt die Genauigkeit von 42,2 % (Sparse) auf 33,3 % (Frequent).

Verhalten und Fehlermodi

Die Analyse der Modellreaktionen offenbarte zwei Hauptfehlermuster:

Over-Update (Volatility): Das Modell ändert die Antwort unnötig oft, auch wenn sich der zugrundeliegende Fakt nicht geändert hat. Dies wird durch Ablenkung durch den umgebenden Kontext verursacht.
Under-Update (Stubbornness/Obstinacy): Das Modell aktualisiert die Antwort nicht, obwohl sich der Fakt geändert hat. Es zeigt Trägheit und behält veraltete Informationen bei.

Thinking Mode: Die Aktivierung des „Thinking Mode" verbessert die Gesamtgenauigkeit, insbesondere bei komplexen Reasoning-Aufgaben (z. B. „Bridge"-Fragen), da es die Modellierung mehrerer Zustände verbessert. Es reduziert jedoch nicht vollständig die Anfälligkeit für Ablenkung.

Vergleich der Strategien

Naive RAG: Einfaches RAG zeigt nur begrenzte Verbesserungen und kann die Leistung sogar verschlechtern, wenn viele semantisch ähnliche Blöcke existieren und das Reasoning über mehrere Blöcke hinweg nötig ist.
Agentic Memory: Systeme wie MemAgent schneiden bei häufigen Updates besser ab als einfaches RAG, da sie auf inkrementellem Tracking trainiert sind. Dennoch bleiben ihre Leistungen hinter den Erwartungen zurück, da ihr Training oft auf statischen Fragen basiert und nicht auf der Echtzeit-Intervall-Bewertung.

5. Schlüsselerkenntnisse und Bedeutung

Lücken im aktuellen Forschungsstand: OAKS ist der erste Benchmark, der feingranulare, kontinuierliche Wissensupdates in einem Online-Setting evaluiert. Er zeigt, dass aktuelle LLMs nicht in der Lage sind, dynamische Wissensströme robust zu verfolgen.
Limitierung von Long-Context-Fähigkeiten: Gute Leistung bei langen Kontexten (gemessen an Benchmarks wie LongBench) korreliert nur schwach mit der Fähigkeit, sich an kontinuierliche Updates anzupassen. OAKS erfordert spezifische Fähigkeiten zur Zustandsverfolgung, die über reines Abrufen von Informationen hinausgehen.
Fehlerakkumulation: Fehler neigen dazu, sich über die Zeit zu akkumulieren. Wenn ein Modell einen Zustandswechsel verpasst, bleiben die folgenden Antworten falsch, was die Gesamtleistung drastisch senkt.
Zukunftsperspektive: Die Ergebnisse deuten darauf hin, dass zukünftige Architekturen nicht nur längere Kontexte verarbeiten müssen, sondern Mechanismen benötigen, die explizit auf temporale Konsistenz, Zustands-Tracking und Robustheit gegen Ablenkung in Streaming-Szenarien ausgelegt sind.

Fazit

Das Paper demonstriert, dass aktuelle Large Language Models in dynamischen, sich ständig ändernden Umgebungen noch weit davon entfernt sind, menschliches Niveau zu erreichen. Sie scheitern oft daran, genau zu bestimmen, wann sie ihr Wissen aktualisieren müssen und wie sie dabei alte Informationen verwerfen, ohne neue zu verlieren. OAKS bietet einen rigorosen Rahmen, um Fortschritte in diesem kritischen Bereich der Online-Adaptation zu messen.

Can Large Language Models Keep Up? Benchmarking Online Adaptation to Continual Knowledge Streams

1. Das Problem: Der "veraltete" Assistent

2. Der Test: OAKS (Das "Live-Update"-Spiel)

3. Die zwei Spielbretter (Die Datensätze)

4. Was haben sie herausgefunden? (Die Ergebnisse)

5. Die Metapher: Der Dirigent im Orchester

Fazit

1. Problemstellung

2. Methodik und OAKS-Benchmark

Datensätze

Evaluierungs-Setup

3. Experimentelles Setup

4. Wichtige Ergebnisse

Allgemeine Leistung

Verhalten und Fehlermodi

Vergleich der Strategien

5. Schlüsselerkenntnisse und Bedeutung

Fazit

Mehr davon

Speculative Decoding Scaling Laws (SDSL): Throughput Optimization Made Simple

Summarize Before You Speak with ARACH: A Training-Free Inference-Time Plug-In for Enhancing LLMs via Global Attention Reallocation

DeReason: A Difficulty-Aware Curriculum Improves Decoupled SFT-then-RL Training for General Reasoning

MDER-DR: Multi-Hop Question Answering with Entity-Centric Summaries

Markovian Generation Chains in Large Language Models