Differential syntactic and semantic encoding in LLMs

Dieser Artikel zeigt, dass syntaktische und semantische Informationen im DeepSeek-V3-LLM teilweise linear kodiert und über die Schichten hinweg unterschiedlich verteilt sind, wie die Möglichkeit belegt, diese Signale durch die Subtraktion durchschnittlicher Repräsentationszentroide zu entkoppeln.

Ursprüngliche Autoren: Santiago Acevedo, Alessandro Laio, Marco Baroni

Veröffentlicht 2026-05-28
📖 4 Min. Lesezeit☕ Kaffeepausen-Lektüre

Ursprüngliche Autoren: Santiago Acevedo, Alessandro Laio, Marco Baroni

Originalarbeit lizenziert unter CC BY 4.0 (http://creativecommons.org/licenses/by/4.0/). Dies ist eine KI-generierte Erklärung des untenstehenden Papers. Sie wurde nicht von den Autoren verfasst oder gebilligt. Für technische Genauigkeit konsultieren Sie das Originalpaper. Vollständigen Haftungsausschluss lesen

Stellen Sie sich ein Large Language Model (LLM) wie DeepSeek-V3 als eine riesige, mehrstöckige Bibliothek vor. In dieser Bibliothek wird jeder Satz, den Sie tippen, beim Durchlaufen der verschiedenen Etagen (Schichten) des Gebäudes in einen einzigartigen, hochdimensionalen „Fingerabdruck" (einen Vektor) umgewandelt.

Die große Frage, die diese Arbeit stellt, lautet: Wie organisiert die Bibliothek diese Fingerabdrücke? Speichert sie insbesondere die „Struktur" des Satzes (Syntax) getrennt von der „Bedeutung" des Satzes (Semantik), oder sind sie alle in einem großen Smoothie miteinander vermischt?

Hier ist das, was die Forscher herausfanden, einfach erklärt:

1. Der „Durchschnitt"-Trick (Den Kern finden)

Die Forscher erkannten, dass Sätze, die grammatikalisch gleich aussehen (z. B. „Die Katze saß", „Der Hund rannte", „Der Vogel flog"), ein gemeinsames „Skelett" teilen.

  • Die Analogie: Stellen Sie sich vor, Sie fotografieren 100 verschiedene Personen, die exakt denselben Huttyp tragen. Wenn Sie alle diese Fotos mitteln, verschwimmen die Gesichter, aber der Hut wird superscharf und klar.
  • Die Methode: Sie führten dies mathematisch durch. Sie nahmen Sätze mit derselben Grammatikstruktur und mittelten ihre Fingerabdrücke, um einen „Syntax-Schwerpunkt" (den reinen Grammatikhut) zu erstellen. Dasselbe taten sie mit Sätzen mit derselben Bedeutung, aber unterschiedlichen Wörtern, um einen „Semantik-Schwerpunkt" (den reinen Bedeutungshut) zu erstellen.

2. Der „Subtraktion"-Test (Den Hut entfernen)

Sobald sie diese „reinen" Grammatik- und Bedeutungsvektoren hatten, versuchten sie, sie von den ursprünglichen Satz-Fingerabdrücken zu subtrahieren.

  • Die Analogie: Stellen Sie sich vor, Sie haben ein Foto einer Person mit einem Hut. Wenn Sie den „Hut"-Vektor digital vom Foto subtrahieren, verschwindet der Hut. Wenn das Foto immer noch wie die Person aussieht, wissen Sie, dass der Hut eine separate Ebene war. Wenn auch das Gesicht der Person verschwindet, waren Hut und Gesicht miteinander vermischt.
  • Das Ergebnis: Als sie den „Grammatik-Hut" von einem Satz subtrahierten, verlor der Satz seine Fähigkeit, mit anderen Sätzen mit derselben Grammatik übereinzustimmen. Als sie den „Bedeutungs-Hut" subtrahierten, verlor er seine Fähigkeit, mit Sätzen übereinzustimmen, die dasselbe bedeuteten.
  • Die Schlussfolgerung: Dies beweist, dass das Modell Grammatik und Bedeutung auf lineare Weise kodiert. Sie sind wie distincte Zutaten in einem Rezept, die mathematisch getrennt werden können, und nicht wie eine chemische Reaktion, bei der sie zu einer neuen Substanz werden.

3. Die „Grundriss"-Entdeckung (Wo Dinge wohnen)

Die Bibliothek hat viele Etagen. Die Forscher fanden heraus, dass Grammatik und Bedeutung auf verschiedenen Etagen wohnen.

  • Grammatik (Syntax): Dies ist wie das Fundament und die unteren Etagen. Sie ist von Anfang an vorhanden und bleibt bis ganz nach oben konsistent. Das Modell kennt die Struktur eines Satzes fast sofort.
  • Bedeutung (Semantik): Dies ist wie die mittleren Etagen. Wenn ein Satz die Bibliothek betritt, betrachtet das Modell zunächst die Wörter und die Struktur (untere Etagen). Dann, wenn der Satz in die Mitte wandert, ermittelt das Modell, was er tatsächlich bedeutet. Bis er die oberste Etage erreicht (wo das Modell seine Antwort schreibt), ist die Bedeutung noch da, aber der Fokus verschiebt sich auf die Generierung der Ausgabe.
  • Die Analogie: Denken Sie an das Lesen eines Buches. Zuerst erkennen Sie die Buchstaben und Wörter (Grammatik). Dann, in der Mitte des Absatzes, verstehen Sie die Geschichte (Bedeutung). Sie müssen die Buchstaben nicht wiedererkennen, um die Geschichte zu verstehen, aber Sie brauchen die Buchstaben, um zu beginnen.

4. Die Einbahnstraße (Asymmetrie)

Hier ist der interessanteste Teil: Die Trennung ist nicht perfekt gleich.

  • Grammatik ist unabhängig: Wenn Sie die „Bedeutung" aus einem Satz entfernen, bleibt die „Grammatik" perfekt intakt. Das Skelett steht noch, selbst wenn Sie das Fleisch entfernen.
  • Bedeutung ist abhängig: Wenn Sie die „Grammatik" aus einem Satz entfernen, wird die „Bedeutung" etwas wackelig. Sie verschwindet nicht vollständig, aber sie wird schwerer zu erkennen.
  • Die Analogie: Stellen Sie sich ein Haus vor. Wenn Sie die Möbel (Bedeutung) entfernen, ist die Hausstruktur (Grammatik) immer noch eindeutig ein Haus. Aber wenn Sie die Wände und das Dach entfernen (Grammatik), sind die Möbel (Bedeutung) nur noch ein Haufen Zeug auf dem Boden; es ist schwer zu sagen, was sie eigentlich sein sollten.

Zusammenfassung

Die Arbeit zeigt, dass in diesen riesigen KI-Modellen:

  1. Grammatik und Bedeutung sind getrennt: Sie werden separat kodiert, nicht hoffnungslos vermischt.
  2. Sie sind linear: Man kann das eine mathematisch vom anderen „subtrahieren".
  3. Sie wohnen an verschiedenen Orten: Grammatik ist überall (besonders am Anfang), während Bedeutung in der Mitte der Verarbeitung des Modells ihren Höhepunkt erreicht.
  4. Grammatik ist das stabile Fundament: Man kann die Bedeutung entfernen, ohne die Grammatik zu brechen, aber das Entfernen der Grammatik macht es schwieriger, die Bedeutung zu halten.

Dies deutet darauf hin, dass diese Modelle, obwohl sie nur durch Vorhersage des nächsten Wortes trainiert werden, von Natur aus eine Struktur entwickeln, die stark dem ähnelt, wie menschliche Linguisten denken, dass Sprache funktioniert: ein struktureller Rahmen, der eine Bedeutungsebene trägt.

Ertrinken Sie in Arbeiten in Ihrem Fachgebiet?

Erhalten Sie tägliche Digests der neuesten Arbeiten passend zu Ihren Forschungsbegriffen — mit technischen Zusammenfassungen, in Ihrer Sprache.

Digest testen →