Ursprüngliche Autoren: Santiago Acevedo, Alessandro Laio, Marco Baroni

Veröffentlicht 2026-05-28

📖 4 Min. Lesezeit☕ Kaffeepausen-Lektüre

Ursprüngliche Autoren: Santiago Acevedo, Alessandro Laio, Marco Baroni

Originalarbeit lizenziert unter CC BY 4.0 (http://creativecommons.org/licenses/by/4.0/). ✨ Dies ist eine KI-generierte Erklärung des untenstehenden Papers. Sie wurde nicht von den Autoren verfasst oder gebilligt. Für technische Genauigkeit konsultieren Sie das Originalpaper. Vollständigen Haftungsausschluss lesen

Stellen Sie sich ein Large Language Model (LLM) wie DeepSeek-V3 als eine riesige, mehrstöckige Bibliothek vor. In dieser Bibliothek wird jeder Satz, den Sie tippen, beim Durchlaufen der verschiedenen Etagen (Schichten) des Gebäudes in einen einzigartigen, hochdimensionalen „Fingerabdruck" (einen Vektor) umgewandelt.

Die große Frage, die diese Arbeit stellt, lautet: Wie organisiert die Bibliothek diese Fingerabdrücke? Speichert sie insbesondere die „Struktur" des Satzes (Syntax) getrennt von der „Bedeutung" des Satzes (Semantik), oder sind sie alle in einem großen Smoothie miteinander vermischt?

Hier ist das, was die Forscher herausfanden, einfach erklärt:

1. Der „Durchschnitt"-Trick (Den Kern finden)

Die Forscher erkannten, dass Sätze, die grammatikalisch gleich aussehen (z. B. „Die Katze saß", „Der Hund rannte", „Der Vogel flog"), ein gemeinsames „Skelett" teilen.

Die Analogie: Stellen Sie sich vor, Sie fotografieren 100 verschiedene Personen, die exakt denselben Huttyp tragen. Wenn Sie alle diese Fotos mitteln, verschwimmen die Gesichter, aber der Hut wird superscharf und klar.
Die Methode: Sie führten dies mathematisch durch. Sie nahmen Sätze mit derselben Grammatikstruktur und mittelten ihre Fingerabdrücke, um einen „Syntax-Schwerpunkt" (den reinen Grammatikhut) zu erstellen. Dasselbe taten sie mit Sätzen mit derselben Bedeutung, aber unterschiedlichen Wörtern, um einen „Semantik-Schwerpunkt" (den reinen Bedeutungshut) zu erstellen.

2. Der „Subtraktion"-Test (Den Hut entfernen)

Sobald sie diese „reinen" Grammatik- und Bedeutungsvektoren hatten, versuchten sie, sie von den ursprünglichen Satz-Fingerabdrücken zu subtrahieren.

Die Analogie: Stellen Sie sich vor, Sie haben ein Foto einer Person mit einem Hut. Wenn Sie den „Hut"-Vektor digital vom Foto subtrahieren, verschwindet der Hut. Wenn das Foto immer noch wie die Person aussieht, wissen Sie, dass der Hut eine separate Ebene war. Wenn auch das Gesicht der Person verschwindet, waren Hut und Gesicht miteinander vermischt.
Das Ergebnis: Als sie den „Grammatik-Hut" von einem Satz subtrahierten, verlor der Satz seine Fähigkeit, mit anderen Sätzen mit derselben Grammatik übereinzustimmen. Als sie den „Bedeutungs-Hut" subtrahierten, verlor er seine Fähigkeit, mit Sätzen übereinzustimmen, die dasselbe bedeuteten.
Die Schlussfolgerung: Dies beweist, dass das Modell Grammatik und Bedeutung auf lineare Weise kodiert. Sie sind wie distincte Zutaten in einem Rezept, die mathematisch getrennt werden können, und nicht wie eine chemische Reaktion, bei der sie zu einer neuen Substanz werden.

3. Die „Grundriss"-Entdeckung (Wo Dinge wohnen)

Die Bibliothek hat viele Etagen. Die Forscher fanden heraus, dass Grammatik und Bedeutung auf verschiedenen Etagen wohnen.

Grammatik (Syntax): Dies ist wie das Fundament und die unteren Etagen. Sie ist von Anfang an vorhanden und bleibt bis ganz nach oben konsistent. Das Modell kennt die Struktur eines Satzes fast sofort.
Bedeutung (Semantik): Dies ist wie die mittleren Etagen. Wenn ein Satz die Bibliothek betritt, betrachtet das Modell zunächst die Wörter und die Struktur (untere Etagen). Dann, wenn der Satz in die Mitte wandert, ermittelt das Modell, was er tatsächlich bedeutet. Bis er die oberste Etage erreicht (wo das Modell seine Antwort schreibt), ist die Bedeutung noch da, aber der Fokus verschiebt sich auf die Generierung der Ausgabe.
Die Analogie: Denken Sie an das Lesen eines Buches. Zuerst erkennen Sie die Buchstaben und Wörter (Grammatik). Dann, in der Mitte des Absatzes, verstehen Sie die Geschichte (Bedeutung). Sie müssen die Buchstaben nicht wiedererkennen, um die Geschichte zu verstehen, aber Sie brauchen die Buchstaben, um zu beginnen.

4. Die Einbahnstraße (Asymmetrie)

Hier ist der interessanteste Teil: Die Trennung ist nicht perfekt gleich.

Grammatik ist unabhängig: Wenn Sie die „Bedeutung" aus einem Satz entfernen, bleibt die „Grammatik" perfekt intakt. Das Skelett steht noch, selbst wenn Sie das Fleisch entfernen.
Bedeutung ist abhängig: Wenn Sie die „Grammatik" aus einem Satz entfernen, wird die „Bedeutung" etwas wackelig. Sie verschwindet nicht vollständig, aber sie wird schwerer zu erkennen.
Die Analogie: Stellen Sie sich ein Haus vor. Wenn Sie die Möbel (Bedeutung) entfernen, ist die Hausstruktur (Grammatik) immer noch eindeutig ein Haus. Aber wenn Sie die Wände und das Dach entfernen (Grammatik), sind die Möbel (Bedeutung) nur noch ein Haufen Zeug auf dem Boden; es ist schwer zu sagen, was sie eigentlich sein sollten.

Zusammenfassung

Die Arbeit zeigt, dass in diesen riesigen KI-Modellen:

Grammatik und Bedeutung sind getrennt: Sie werden separat kodiert, nicht hoffnungslos vermischt.
Sie sind linear: Man kann das eine mathematisch vom anderen „subtrahieren".
Sie wohnen an verschiedenen Orten: Grammatik ist überall (besonders am Anfang), während Bedeutung in der Mitte der Verarbeitung des Modells ihren Höhepunkt erreicht.
Grammatik ist das stabile Fundament: Man kann die Bedeutung entfernen, ohne die Grammatik zu brechen, aber das Entfernen der Grammatik macht es schwieriger, die Bedeutung zu halten.

Dies deutet darauf hin, dass diese Modelle, obwohl sie nur durch Vorhersage des nächsten Wortes trainiert werden, von Natur aus eine Struktur entwickeln, die stark dem ähnelt, wie menschliche Linguisten denken, dass Sprache funktioniert: ein struktureller Rahmen, der eine Bedeutungsebene trägt.

Technische Zusammenfassung: Differentielle syntaktische und semantische Kodierung in LLMs

Problemstellung

Diese Studie untersucht, wie Large Language Models (LLMs) syntaktische (strukturelle) und semantische (bedeutungsbezogene) Informationen innerhalb ihrer hochdimensionalen internen Repräsentationen kodieren. Während der Erfolg von LLMs das Interesse an der Entschlüsselung geweckt hat, wo und wie sprachliche Kompetenz gespeichert ist, besteht weiterhin erhebliche Uneinigkeit bezüglich des Zusammenhangs zwischen Syntax und Semantik. Generative Traditionen gehen oft von einer strikten Autonomie der Syntax aus, während funktionalistische Ansätze sie als tief miteinander verflochten betrachten. Das Ziel des Papers ist es, dies zu klären, indem ermittelt wird, ob diese beiden Komponenten linear kodiert sind, wie sie über die Netzwerkschichten verteilt sind und in welchem Umfang sie in Modellen entkoppelt werden können, die ohne explizite sprachliche Vorannahmen trainiert wurden.

Methodik

Die Autoren nutzen einen geometrischen Ansatz auf Basis linearer Operationen, um die Repräsentationen des DeepSeek-V3-Modells (671 Milliarden Parameter) zu untersuchen, mit einer qualitativen Replikation an kleineren Modellen (Qwen2-7b, Gemma3-12b, Pythia-6.9b).

1. Datensatzkonstruktion

Die Studie stützt sich auf abgestimmte Satzpaare, die mit anderen LLMs (Gemini, ChatGPT, DeepSeek) generiert wurden:

Syntaktisches Matching: Paare von Sätzen, die dasselbe Part-of-Speech (POS)-Template teilen, aber unzusammenhängende Bedeutungen ausdrücken („Syntax-Zwillinge").
Semantisches Matching: Paare von Sätzen, bestehend aus einem Originalsatz und seiner englischen Paraphrase sowie Übersetzungen des Originalsatzes in sechs Sprachen (Arabisch, Chinesisch, Deutsch, Italienisch, Spanisch, Türkisch).

2. Zentroidkonstruktion und Ablation

Um spezifische Informationstypen zu isolieren, konstruieren die Autoren „Zentroiden" durch Mittelung der versteckten Repräsentationen:

Syntaktischer Zentroid ( $S_i$ ): Der Durchschnitt der Repräsentationen aller „Syntax-Zwillinge", die dasselbe spezifische POS-Template teilen. Dies mittelt semantische Varianz heraus, während die syntaktische Struktur erhalten bleibt.
Semantischer Zentroid ( $T_i$ ): Der Durchschnitt der Repräsentationen aller Übersetzungen eines Satzes $X_i$ (unter Ausschluss des Originals und seiner englischen Paraphrase). Dies mittelt syntaktische und lexikalische Varianz heraus, während der semantische Inhalt erhalten bleibt.

Ablationsverfahren: Die Autoren entfernen spezifische Informationen aus einem Satzvektor $X_i$ , indem sie seine Projektion auf den jeweiligen Zentroid subtrahieren.

Syntax-Ablation: $X_i \perp S_i = X_i - \frac{X_i \cdot S_i}{|S_i|^2} S_i$
Semantik-Ablation: $X_i \perp T_i = X_i - \frac{X_i \cdot T_i}{|T_i|^2} T_i$

3. Ähnlichkeitsmessung

Anstelle linearer Metriken wie Centered Kernel Alignment (CKA), die laut den Autoren in hohen Dimensionen schwache Signale liefern, verwenden sie ein auf Rang basierendes Ähnlichkeitsmaß, das aus dem Informationsungleichgewicht (Information Imbalance) abgeleitet ist. Diese Metrik quantifiziert, wie gut die nächsten Nachbarn in einem Repräsentationsraum die nächsten Nachbarn in einem anderen vorhersagen.

4. Repräsentationsaggregation

Zwei Methoden werden verwendet, um Token-level-Versteckte Zustände zu Satzvektoren auf Aggregatsebene zusammenzufassen:

Konkatenation: Aneinanderreihung der letzten $N$ Tokens (bewahrt Positionsinformation).
Mittelung: Mittelung der Repräsentationen der letzten $N$ Tokens (entfernt Positionsinformation).

Hauptergebnisse

1. Lineare Kodierung von Syntax und Semantik

Die Studie stellt fest, dass sowohl Syntax als auch Semantik zumindest teilweise linear kodiert sind. Das Subtrahieren der syntaktischen oder semantischen Zentroiden von Satzvektoren reduziert die Ähnlichkeit zwischen abgestimmten Paaren (Syntax-Zwillinge bzw. Paraphrasen) erheblich. Dies legt nahe, dass ein signifikanter Anteil der relevanten Informationen durch diese linearen Richtungen erfasst wird.

2. Differentielle Schichtprofile

Die schichtübergreifenden Kodierungsprofile von Syntax und Semantik unterscheiden sich:

Syntax: Die syntaktische Ähnlichkeit ist in frühen Schichten hoch und bleibt über das gesamte Netzwerk hinweg relativ konstant. Sie ist in konkatenierten Repräsentationen ausgeprägter, was auf eine Abhängigkeit von Positionsinformation hindeutet.
Semantik: Die semantische Ähnlichkeit ist in frühen Schichten niedrig, steigt in den zentralen Schichten zu einem Peak an und nimmt in den finalen Ausgabeschichten leicht ab. Die semantische Ähnlichkeit ist in gemittelten Repräsentationen stärker.

3. Asymmetrische Entkopplung

Ein entscheidendes Ergebnis ist die Asymmetrie darin, wie Syntax und Semantik sich gegenseitig beeinflussen:

Entfernung der Semantik: Das Ablieren des semantischen Zentroids von Syntax-Zwillingen reduziert ihre syntaktische Ähnlichkeit nicht signifikant. Die Syntax bleibt robust, selbst wenn semantische Informationen entfernt werden.
Entfernung der Syntax: Das Ablieren des syntaktischen Zentroids von Paraphrasen reduziert ihre semantische Ähnlichkeit erheblich, insbesondere in den zentralen Schichten.
Interpretation: Dies legt nahe, dass Semantik zwar teilweise von der Syntax getrennt werden kann, die Syntax jedoch autonomer ist. Das Entfernen der syntaktischen Struktur (z. B. der Wortstellung) verschlechtert die Fähigkeit, Bedeutung wiederherzustellen, während das Entfernen der Bedeutung das syntaktische Gerüst nicht zerstört.

4. Normzerlegung

Die Zerlegung des quadrierten Betrags (Norm) von Satzvektoren zeigt:

Die syntaktische Komponente dominiert in frühen Schichten.
Die semantische Komponente dominiert in zentralen Schichten.
Zusammen machen diese Zentroiden einen signifikanten, aber nicht vollständigen Anteil (ca. 40 % in zentralen Schichten) der Vektornorm aus, wobei eine erhebliche „Residual"-Komponente verbleibt.

5. Downstream-Probe-Effekte

Die Ablationsmethoden wirken sich wie erwartet auf nachgelagerte Probing-Aufgaben aus:

POS-Klassifikation: Das Ablieren syntaktischer Zentroiden reduziert die Genauigkeit drastisch; das Ablieren semantischer Zentroiden hat nur einen minimalen Effekt.
Paraphrase-Erinnerung (Recall): Das Ablieren semantischer Zentroiden reduziert den Recall drastisch; das Ablieren syntaktischer Zentroiden hat einen geringeren (aber vorhandenen) negativen Effekt.

Bedeutung und Behauptungen

Das Paper beansprucht drei primäre Beiträge zu den Bereichen der LLM-Interpretierbarkeit und der Computerlinguistik:

Identifikation eines semantischen Kerns: Die Ergebnisse bestätigen, dass ein „semantischer Kern" in der LLM-Verarbeitung existiert, der spezifisch in den inneren Schichten des Netzwerks konzentriert ist und sich vom stabileren, schichtenübergreifenden syntaktischen Prozess unterscheidet.
Evidenz für lineare Superposition: Die Studie liefert weitere Belege dafür, dass einfache lineare Superposition ein fundamentaler Mechanismus zur Kodierung abstrakter linguistischer Merkmale (Syntax und Bedeutung) in tiefen Netzwerken ist.
Emergente Autonomie der Syntax: Die Beobachtung einer unvollkommenen, aber klaren Trennung zwischen Syntax und Semantik in Modellen, die ohne explizite sprachliche Vorannahmen trainiert wurden, legt nahe, dass die Autonomie der Syntax eine inhärente, optimale Eigenschaft linguistischer Repräsentationen sein könnte. Dieser Befund schließt die Lücke zwischen generativen linguistischen Theorien (autonome Syntax) und funktionalistischen Ansichten und impliziert, dass diese Unterscheidung universell in kognitiven Systemen entstehen könnte, vom menschlichen Gehirn bis hin zu LLMs.

Die Autoren nehmen eine bescheidene Haltung ein und erkennen an, dass ihr linearer Ansatz nur partielle Aspekte dieser komplexen Merkmale erfasst und dass ein erheblicher Teil der Repräsentationsnorm durch diese Zentroiden unerklärt bleibt. Sie schlagen vor, dass zukünftige Arbeiten nichtlineare Merkmalsextraktion und die zeitlichen Dynamiken dieser Kodierungen untersuchen sollten.

Differential syntactic and semantic encoding in LLMs