Human-like Working Memory Interference in Large Language Models

Hua-Dong Xiong (School of Psychological and Brain Sciences, Georgia Tech), Li Ji-An (Department of Psychology, New York University), Jiaqi Huang (Department of Cognitive Science, Indiana University Bloomington, Honda Research Institute), Robert C. Wilson (School of Psychological and Brain Sciences, Georgia Tech, Center of Excellence for Computational Cognition, Georgia Tech), Kwonjoon Lee (Honda Research Institute), Xue-Xin Wei (Departments of Neuroscience and Psychology, The University of Texas at Austin)

Veröffentlicht 2026-04-14

📖 5 Min. Lesezeit🧠 Tiefgang

Ansehen auf arXiv ↗PDF ↗

Each language version is independently generated for its own context, not a direct translation.

Das große Rätsel: Warum haben super-intelligente KI-Modelle ein schlechtes Kurzzeitgedächtnis?

Stell dir vor, du hast einen Bibliothekar, der 100 Milliarden Bücher in seinem Kopf hat und Zugriff auf jedes Buch, das jemals geschrieben wurde. Wenn du ihm sagst: „Erinnere dich an das Buch, das wir vor 3 Seiten gelesen haben", sollte er das sofort finden können, oder?

Das ist genau das Problem, das die Forscher untersucht haben. Große Sprachmodelle (LLMs) wie ChatGPT oder Gemini haben Zugriff auf den gesamten vorherigen Text (den „Kontext"). Theoretisch könnten sie also alles perfekt merken. Aber in der Praxis scheitern sie an einem einfachen Gedächtnistest, der im Englischen N-back heißt.

Der Test:
Stell dir ein Spiel vor: Jemand nennt dir Buchstaben in einer Reihe: A, B, C, D, E...
Deine Aufgabe ist es, immer den Buchstaben zu nennen, der vor zwei Schritten kam.

Bei A, B, C sagst du: „A" (weil A vor C lag).
Bei D sagst du: „B".
Bei E sagst du: „C".

Das klingt einfach. Aber wenn die Liste länger wird oder man sich an drei oder vier Schritte zurück erinnern muss, machen die KI-Modelle immer mehr Fehler. Und das ist seltsam, denn sie haben ja den ganzen Text vor sich!

Die Entdeckung: Es ist nicht das „Speichern", sondern das „Hören"

Die Forscher haben herausgefunden, dass das Problem nicht darin liegt, dass die KI die Information vergisst (wie ein Mensch, der etwas nicht behalten kann). Das Problem ist eher wie ein lautes Konzert in einer vollen Bar.

Stell dir vor, du bist in einer lauten Bar (dem Gedächtnis der KI). Du musst dich auf ein Gespräch mit einem Freund konzentrieren (die richtige Antwort finden). Aber um dich herum reden 50 andere Leute (die anderen Buchstaben und Informationen).

Das menschliche Problem: Auch Menschen haben Schwierigkeiten, wenn es zu laut ist. Wir können uns nicht auf alles gleichzeitig konzentrieren.
Das KI-Problem: Die KI macht genau dasselbe! Sie hört nicht nur den Freund, sondern alle anderen Stimmen gleichzeitig. Die Buchstaben, die sie gerade nicht braucht, „schreien" in ihrem Gedächtnis mit.

Die Studie zeigt, dass die KI die Buchstaben nicht sauber in separate Schubladen sortiert. Stattdessen sind alle Buchstaben wie ein verwobenes, knäuelartiges Netz miteinander verbunden. Wenn die KI den Buchstaben „C" holen will, wird sie von den lauten Stimmen von „A", „B" und „D" abgelenkt.

Die Beweise: Wie die KI „hört"

Die Forscher haben sich die Fehler der KI genauer angesehen und drei Dinge gefunden, die genau wie beim Menschen aussehen:

Der „Neuigkeits-Effekt": Wenn die KI einen Fehler macht, erinnert sie sich oft an den Buchstaben, der gerade eben gesagt wurde, statt an den, der vor ein paar Sekunden kam. Sie wird von den „frischen" Stimmen abgelenkt.
Verwirrung durch Ähnlichkeit: Wenn viele Buchstaben ähnlich klingen oder oft vorkommen, wird die KI noch verwirrter.
Der Zusammenhang mit Intelligenz: Interessanterweise sind die Modelle, die dieses Gedächtnisspiel gut spielen, auch die, die in anderen Tests (wie Mathe oder Logik) besser sind. Das bedeutet: Die Fähigkeit, sich gegen Ablenkung zu wehren, ist ein Zeichen für allgemeine Intelligenz – sowohl bei Menschen als auch bei Maschinen.

Die Lösung im Inneren der Maschine

Was passiert im Gehirn der KI, wenn sie versucht, die Aufgabe zu lösen? Die Forscher haben gesehen, dass die KI einen cleveren, aber mühsamen Weg geht:

Zuerst ist alles laut: Am Anfang des Denkprozesses sind alle Buchstaben im Kopf der KI gleich laut.
Das Filtern: In den mittleren Schichten des neuronalen Netzwerks versucht die KI, die „stören" Buchstaben leiser zu machen. Sie unterdrückt aktiv die Informationen, die gerade nicht wichtig sind.
Das Zielen: Erst ganz am Ende des Prozesses, kurz bevor sie die Antwort gibt, fokussiert sie sich scharf auf den richtigen Buchstaben.

Es ist, als würde die KI erst den ganzen Lärm im Raum ignorieren lernen, bevor sie sich traut, zu sprechen.

Der Beweis: Ein chirurgischer Eingriff

Um sicherzugehen, dass es wirklich an diesem „Lärm" liegt, haben die Forscher einen kleinen Eingriff vorgenommen. Sie haben der KI quasi die Ohren verstopft, aber nur für die Buchstaben-Identität. Sie haben die KI gezwungen, die genauen Buchstabenformen zu vergessen, aber die Reihenfolge beizubehalten.

Das Ergebnis: Die KI wurde plötzlich besser!
Das beweist: Die KI scheiterte nicht, weil sie den Buchstaben nicht kannte, sondern weil die Information, welcher Buchstabe es ist, sie von der richtigen Antwort abgelenkt hat. Wenn man diesen Ablenkungsfaktor entfernt, funktioniert das Gedächtnis besser.

Fazit: Was lernen wir daraus?

Diese Studie sagt uns etwas Wichtiges über künstliche Intelligenz:

Selbst wenn eine KI Zugriff auf unendlich viel Information hat, ist sie nicht unendlich schlau. Ihr größtes Problem ist nicht das Speichern, sondern das Auswählen.

Genau wie wir Menschen müssen auch KI-Modelle lernen, sich gegen Ablenkung zu wehren. Sie müssen lernen, das „Rauschen" im Kopf auszuschalten, um das Wichtige zu hören. Das ist eine gemeinsame Herausforderung für Biologie und Technik: Wie finden wir die Nadel im Heuhaufen, wenn der ganze Heuhaufen zu schreien beginnt?

Die Hoffnung ist, dass wir in Zukunft KI-Modelle bauen können, die nicht nur mehr Daten speichern, sondern besser darin sind, sich auf das zu konzentrieren, was gerade wirklich wichtig ist.

Each language version is independently generated for its own context, not a direct translation.

Titel: Menschliche Arbeitsgedächtnis-Interferenzen in Large Language Models (LLMs)

1. Problemstellung

Intelligente Systeme müssen relevante Informationen online speichern und manipulieren, um sich an dynamische Umgebungen anzupassen. Diese Fähigkeit, bekannt als Arbeitsgedächtnis (Working Memory), ist fundamental für menschliches Denken und Intelligenz. Obwohl sowohl biologische Systeme (ca. 100 Milliarden Neuronen) als auch künstliche Systeme (LLMs mit ca. 100 Milliarden Parametern) über enorme Kapazitäten verfügen, zeigen beide signifikante Grenzen im Arbeitsgedächtnis.

Die zentrale Frage lautet: Warum zeigen LLMs solche Einschränkungen, obwohl Transformer-Architekturen vollen Zugriff auf den gesamten vorherigen Kontext haben und relevante Informationen über den Attention-Mechanismus abrufen können? Die gängige Annahme ist, dass LLMs Informationen einfach durch Positionen abrufen (z. B. "Token an Position $t-N$ kopieren"). Die Autoren hinterfragen jedoch, ob die Limitierung nicht vielmehr auf Interferenz zwischen überlappenden Repräsentationen zurückzuführen ist.

2. Methodik

Die Studie verwendet das N-back-Paradigma, einen kanonischen Test für das Arbeitsgedächtnis, angepasst für LLMs als Multi-Turn-Dialog.

Aufgabe: Der Benutzer liefert in jedem Turn einen Buchstaben. Das Modell muss den Buchstaben ausgeben, der $N$ Turns zuvor präsentiert wurde.
Modelle: Es wurden 10 verschiedene, instruct-feinabgestimmte Modelle aus vier Familien getestet (Gemma 3, Qwen 3.5, Llama-3.1, Ministral 3), die eine Skalierung von 1B bis 27B Parametern abdecken.
Evaluierte Modi:
- Autoregressiv: Das Modell generiert Antworten basierend auf seinen eigenen vorherigen Outputs.
- Teacher-Forcing: Das Modell wird mit den korrekten Ground-Truth-Antworten aus vorherigen Turns konditioniert, um Fehlerfortpflanzung zu eliminieren und den reinen Abrufmechanismus zu isolieren.
Experimentelle Manipulationen:
- Variation der Last ( $N = 1, 2, 3, 4$ ).
- Einführung von "Lure"-Stimuli (ähnliche, aber falsche Items im Gedächtnis).
- Reduktion der Stimulus-Größe (von 26 auf 10 Buchstaben).
- Einführung von Übergangswahrscheinlichkeiten (strukturelle Vorhersagbarkeit).
Mechanistische Analyse:
- Untersuchung der Residual-Stream-Repräsentationen ( $h_t^\ell$ ) über die Schichten hinweg.
- Messung von:
  1. Buchstaben-Alignment: Wie stark bleibt die Identität des aktuellen Stimulus erhalten?
  2. Decodierbarkeit: Kann der aktuelle Buchstabe aus der Repräsentation entschlüsselt werden?
  3. Subspace-Ähnlichkeit: Wie stark überlappen Repräsentationen verschiedener Items?
  4. Target-Alignment: Wie gut ist das Ziel-Item mit den Ausgabegewichten (Readout) ausgerichtet?
Kausale Intervention: Durch Singular Value Decomposition (SVD) wurden die Richtungen der Buchstaben-Identität im Residual-Stream gezielt unterdrückt, um zu testen, ob dies die Leistung verbessert.

3. Wichtige Beiträge und Ergebnisse

A. Verhaltenssignale menschlicher Interferenz

Leistungsabfall: Die Leistung aller getesteten LLMs nimmt mit steigender Last ( $N$ ) ab, ähnlich wie beim Menschen. Selbst große Modelle (z. B. Qwen 3.5 27B) zeigen einen qualitativen Kapazitätsabfall, der nicht durch einen reinen Positionsabruf erklärbar ist.
Rekurrenz-Interferenz (Recency Interference): Fehler sind systematisch zu neueren, nicht-zielgerichteten Items hin verzerrt. Je höher die Last, desto stärker ist dieser Bias. Dies deutet darauf hin, dass mehrere Items gleichzeitig aktiv sind und konkurrieren.
Inhaltliche Interferenz: Die Leistung wird durch die Ähnlichkeit der Inhalte (Lure-Effekte), die Größe des Stimulus-Sets und Übergangswahrscheinlichkeiten beeinflusst. Modelle, die stärker auf diese Inhalte reagieren, schneiden schlechter ab.
Korrelation mit allgemeiner Intelligenz: Die Arbeitsgedächtniskapazität (N-back-Leistung) korreliert signifikant mit Benchmarks für allgemeine Fähigkeiten (MMLU Pro, GPQA Diamond, IFEval). Dies spiegelt den bekannten menschlichen Zusammenhang zwischen Arbeitsgedächtnis und Intelligenz wider.

B. Gemeinsamer mechanistischer Pfad
Trotz unterschiedlicher Architekturen und Leistungsstufen durchlaufen alle Modelle einen ähnlichen Repräsentationspfad:

Unterdrückung irrelevanter Inhalte: Die Information über die Identität der Buchstaben (Stimulus-Content) bleibt in den frühen Schichten erhalten und wird über die Schichten hinweg progressiv unterdrückt.
Trennung der Repräsentationen: In den mittleren Schichten werden die Repräsentationen verschiedener Items in weniger überlappende Unterräume (Subspaces) getrennt, um Interferenz zu minimieren.
Späte Ausrichtung: Die Ziel-Repräsentation wird erst in den späten Schichten stark mit den Ausgabegewichten (Readout) ausgerichtet.

Ergebnis: Der Abruf hängt nicht vom direkten Kopieren eines Tokens ab, sondern von der aktiven Kontrolle der Interferenz, um das Ziel aus einem "verwickelten" (entangled) Zustand zu isolieren.

C. Kausale Bestätigung
Die gezielte Unterdrückung von Buchstaben-Identitätsinformationen im Residual-Stream führte zu einer messbaren Verbesserung der N-back-Leistung. Dies beweist kausal, dass verbleibende, irrelevante Inhaltsinformationen eine Quelle der Interferenz sind, die den Abruf behindert.

4. Bedeutung und Schlussfolgerung

Die Studie widerlegt die Hypothese, dass die Arbeitsgedächtnis-Limitierung von LLMs auf einen Mangel an Zugriff auf den Kontext oder eine unzureichende Architektur zurückzuführen ist. Stattdessen identifiziert sie repräsentationale Interferenz als den Kernmechanismus der Einschränkung.

Gemeinsame Herausforderung: Sowohl biologische als auch künstliche Systeme stehen vor demselben rechnerischen Problem: Sie nutzen verteilte, überlappende Repräsentationen, die zwar effizientes Lernen und Generalisierung ermöglichen, aber bei der Abrufphase zu Interferenz führen.
Interferenzkontrolle: Die Fähigkeit, irrelevante Informationen zu unterdrücken und das Ziel aus dem Gedächtnis zu isolieren, ist der limitierende Faktor für die Leistung, nicht die reine Speicherkapazität.
Implikationen für die Zukunft: Um die Leistung von LLMs zu verbessern, reicht es möglicherweise nicht aus, den Kontextfenster zu vergrößern. Stattdessen müssen Mechanismen entwickelt werden, die die selektive Abrufbarkeit innerhalb geteilter Repräsentationen verbessern und die Interferenzkontrolle stärken.

Zusammenfassend zeigt das Paper, dass LLMs menschliche kognitive Grenzen nicht nur nachahmen, sondern dass diese Grenzen auf tiefgreifende, gemeinsame rechnerische Prinzipien der Informationsverarbeitung in neuronalen Netzen zurückzuführen sind.

Human-like Working Memory Interference in Large Language Models

Das große Rätsel: Warum haben super-intelligente KI-Modelle ein schlechtes Kurzzeitgedächtnis?

Die Entdeckung: Es ist nicht das „Speichern", sondern das „Hören"

Die Beweise: Wie die KI „hört"

Die Lösung im Inneren der Maschine

Der Beweis: Ein chirurgischer Eingriff

Fazit: Was lernen wir daraus?

Titel: Menschliche Arbeitsgedächtnis-Interferenzen in Large Language Models (LLMs)

1. Problemstellung

2. Methodik

3. Wichtige Beiträge und Ergebnisse

4. Bedeutung und Schlussfolgerung

Mehr davon

The Diffusion-Attention Connection

Fairboard: a quantitative framework for equity assessment of healthcare models

Deliberative Alignment is Deep, but Uncertainty Remains: Inference time safety improvement in reasoning via attribution of unsafe behavior to base model

Belief-State RWKV for Reinforcement Learning under Partial Observability

Active Inference with a Self-Prior in the Mirror-Mark Task