Unraveling Syntax: How Language Models Learn Context-Free Grammars

Each language version is independently generated for its own context, not a direct translation.

Das große Rätsel: Wie lernen KI-Sprachmodelle wirklich?

Stell dir vor, du hast einen riesigen, super-intelligenten Roboter (ein "Large Language Model" oder LLM), der alles reden kann. Er schreibt Gedichte, löst Mathe-Aufgaben und programmiert Code. Wir wissen, dass er das kann, aber wir verstehen nicht genau, wie er es lernt.

Die Forscher Laura, Daniel und Tomaso haben sich gefragt: Lernt dieser Roboter Sprache wie ein kleines Kind?
Ein Kind lernt erst einfache Wörter, dann Sätze, dann komplizierte Geschichten. Lernt die KI das auch Schritt für Schritt? Oder lernt sie alles auf einmal?

Um das herauszufinden, haben sie nicht mit echtem Deutsch oder Englisch experimentiert (das ist zu chaotisch), sondern mit einer Art "Sprach-Labor": Regelbasierte Grammatiken. Stell dir das wie ein Baukasten vor, bei dem man nur bestimmte Steine in bestimmten Mustern stapeln darf.

1. Der Baukasten-Ansatz: "Sub-Grammatiken"

Die Forscher haben eine neue Idee eingeführt: Sub-Grammatiken.

Stell dir eine komplexe Grammatik wie ein riesiges, mehrstöckiges Haus vor.

Das ganze Haus ist die Sprache.
Die Sub-Grammatiken sind die einzelnen Zimmer oder sogar die einzelnen Wände in diesem Haus.

Die Frage war: Wenn die KI lernt, wie das ganze Haus zu bauen ist, lernt sie dann erst das Badezimmer, dann die Küche und dann das Wohnzimmer? Oder baut sie alle Zimmer gleichzeitig?

2. Die große Entdeckung: Alles passiert gleichzeitig!

Das Ergebnis war überraschend: Die kleinen KI-Modelle lernen alle "Zimmer" (Sub-Grammatiken) gleichzeitig.

Wie ein Kind: Ein Kind lernt erst "Mama", dann "Ball", dann "Ball werfen". Es baut Wissen schrittweise auf.
Wie die KI: Die KI schaut sich das ganze Haus an und lernt die Regeln für das Badezimmer, die Küche und das Wohnzimmer gleichzeitig. Sie macht keine Pause, um erst ein Zimmer fertigzustellen, bevor sie zum nächsten geht.

Die Forscher haben mathematisch bewiesen, dass der "Fehler" der KI (wie falsch sie liegt) sich einfach in die Fehler für jedes einzelne Zimmer aufteilt. Wenn die KI das Badezimmer besser lernt, verbessert sich automatisch auch ihr Gesamtscore. Es ist, als würde man einen Kuchen backen: Wenn man den Teig für den Boden und die Füllung gleichzeitig rührt, wird der Kuchen am Ende gut, auch wenn man nicht erst den Boden fertig backt, bevor man die Füllung macht.

3. Der "Vorschul"-Effekt: Hilft es, erst das Einfache zu üben?

Da Kinder erst das Einfache lernen, dachten die Forscher: "Vielleicht hilft es der KI, wenn wir sie erst auf einem kleinen Teil der Grammatik (einem Sub-Grammatik) trainieren, bevor wir das Ganze zeigen?" Das nennt man Curriculum Learning (Lehrplan-Lernen).

Bei winzigen Modellen: Ja! Wenn die KI sehr klein und dumm ist, hilft es ihr, erst die einfachen Teile zu üben. Es ist wie ein Schüler, der erst die Addition lernt, bevor er die Multiplikation macht.
Bei großen Modellen: Nein, das bringt nichts. Große Modelle sind so schlau, dass sie das Ganze sofort verstehen. Einem Genie den Weg zu zeigen, ist unnötig.

Interessanterweise haben die Forscher aber gesehen, dass die KI durch dieses "Vorschul-Training" eine bessere innere Landkarte bekommt. Sie versteht die Struktur der Sprache tiefer, auch wenn sie am Ende nicht unbedingt schneller oder genauer ist. Es ist, als würde man einem Schüler eine Landkarte geben, bevor er die Stadt erkundet – er weiß, wo die Straßen sind, auch wenn er sie schon gekannt hätte.

4. Das große Problem: Die Tiefe ist der Feind

Das ist der vielleicht wichtigste Teil der Studie. Die Forscher haben herausgefunden, dass KI-Modelle (selbst die großen) ein riesiges Problem haben: Tiefe.

Stell dir vor, du hast eine Kette von Klammern: ( ( ( ( ) ) ) ).

Wenn die Kette kurz ist (3 Klammern), kann die KI das perfekt.
Wenn die Kette sehr tief ist (100 Klammern), wird die KI verrückt. Sie verliert den Faden.

Das ist besonders lustig, weil die KI oft Länge nicht so sehr stört. Sie kann einen langen Text lesen, aber wenn dieser Text tief verschachtelt ist (wie eine Matroschka-Puppe, die in sich selbst steckt), scheitert sie.

Die Forscher haben sogar getestet, ob das bei den allerneuesten, super-smarten Modellen (wie GPT-5.1) anders ist. Bei einfachen Rechenaufgaben ging es noch, aber bei tief verschachtelten Aufgaben versagten auch die großen Modelle. Es scheint, als hätten sie Schwierigkeiten, sich an den Anfang einer sehr langen, verschachtelten Regel zu erinnern, während sie das Ende bearbeiten.

Zusammenfassung in einem Satz

Die KI lernt Sprache nicht wie ein Kind (Schritt für Schritt), sondern wie ein Architekt, der alle Zimmer eines Hauses gleichzeitig plant; sie ist sehr gut darin, einfache Regeln zu verstehen, aber sie verliert den Überblick, wenn die Regeln zu tief ineinander verschachtelt sind.

Was bedeutet das für uns?
Es zeigt uns, dass diese KI-Modelle zwar beeindruckend sind, aber sie verstehen Sprache nicht wirklich "intelligent" wie ein Mensch. Sie sind extrem gute Muster-Erkennungs-Maschinen, die aber bei komplexen, tiefen Strukturen an ihre Grenzen stoßen. Und das ist eine wichtige Erkenntnis, um sie in Zukunft besser zu machen.

Each language version is independently generated for its own context, not a direct translation.

1. Problemstellung

Trotz der beeindruckenden Fähigkeiten großer Sprachmodelle (LLMs) bleibt deren Lernprozess und die Art und Weise, wie sie syntaktische Strukturen erfassen, weitgehend unverstanden. Ein zentrales Forschungsgebiet ist das Lernen von kontextfreien Grammatiken (CFGs), da diese natürliche Sprachen, Programmiersprachen und mathematische Ausdrücke abdecken.

Bisherige Arbeiten haben sich entweder auf die statischen Repräsentationen trainierter Modelle oder auf die Lernfähigkeit von Modellen für spezifische CFGs konzentriert. Es fehlen jedoch zwei wesentliche Aspekte:

Die Dynamik des Spracherwerbs: Lernen Modelle einfachere Substrukturen vor komplexeren (ähnlich wie Kinder), oder lernen sie alles parallel?
Die Substruktur von Grammatiken: CFGs als mathematische Objekte besitzen eine innere Hierarchie („Subgrammatiken"), die bisher nicht systematisch in Bezug auf das Language Modeling untersucht wurde.

Das Paper zielt darauf ab, diese Lücke zu schließen, indem es die Dynamik des Language Modeling durch die Linse der Subgrammatiken analysiert.

2. Methodik und Definitionen

Theoretische Grundlagen

Die Autoren definieren zwei Arten von Subgrammatiken für eine probabilistische kontextfreie Grammatik (PCFG):

Innere Subgrammatiken (Inner Subgrammars): Entsprechen den Teilbäumen der Ableitungsbäume einer CFG. Sie werden durch eine Teilmenge der Nicht-Terminal-Symbole und die zugehörigen Produktionsregeln definiert.
Äußere Subgrammatiken (Outer Subgrammars): Stellen eine vereinfachte Version der gesamten Grammatik dar, indem eine Teilmenge der Regeln (einschließlich der Startregel) ausgewählt wird.

Theoretische Herleitung

Das Kernstück der Arbeit sind fundamentale Theoreme, die den Zusammenhang zwischen dem Verlust des Language Modeling (bzw. der Kullback-Leibler-Divergenz, KL-Divergenz) und der Subgrammatik-Struktur beschreiben:

Rekursive Zerlegung des Verlusts (Theorem 4.3): Der KL-Verlust einer Grammatik $G$ lässt sich als Summe der konditionierten KL-Divergenzen ihrer top-level Subgrammatiken zerlegen.
$D_{KL}(P_G \parallel Q_\theta) = \sum D_{KL}(P_G \parallel Q_\theta)_{A_i} + \text{Konstante Terme}$
Dies bedeutet, dass der Gesamtverlust linear über die Subgrammatiken rekursiert.
Erwartete Rekursion (Theorem 4.6): Unter der Annahme, dass das Modell „kontextunempfindlich" für Subgrammatiken ist (d.h. die Vorhersage für eine Subgrammatik hängt nicht stark vom umgebenden Kontext ab), lässt sich der Verlust durch die erwartete Rekursion ( $E[R]$ ) ausdrücken:
$D_{KL}(P_G \parallel Q_\theta) = \frac{\sum p_i D_{KL}(P_{A_i} \parallel Q_\theta(A_i))}{1 - E[R]}$
Dies zeigt, dass der Verlust unbeschränkt wächst, wenn die erwartete Rekursion 1 erreicht oder überschreitet (was einem nicht-terminierenden Ableitungsprozess entspricht).
Paralleles Lernen (Corollary 4.7): Wenn die Gradienten-Updates für eine Subgrammatik die Leistung auf anderen Subgrammatiken nicht beeinträchtigen (eine „Unabhängigkeits"-Bedingung), lernt das Modell alle Subgrammatiken parallel.

Experimentelle Validierung

Die Autoren trainieren kleine Transformer-Modelle auf synthetischen PCFGs mit variierenden Subgrammatik-Strukturen. Sie analysieren:

Die Dekomposition des KL-Verlusts während des Trainings.
Den Einfluss von Curriculum Learning (Vor-Training auf einer Subgrammatik vor dem Training auf der gesamten Grammatik).
Alignment-Analysen (Centered Kernel Alignment, CKA) der internen Repräsentationen.
Generalisierungstests bei zunehmender Rekursionstiefe.

3. Wichtige Beiträge

Fundamentale Theoreme: Der Nachweis, dass der Language-Modeling-Verlust eine rekursive Struktur über Subgrammatiken aufweist und durch die erwartete Rekursionstiefe skaliert.
Paralleles Lernen: Die empirische und theoretische Feststellung, dass kleine Transformer-Modelle Subgrammatiken parallel lernen, im Gegensatz zum sequenziellen Lernen bei Kindern.
Vor-Training und Repräsentation: Die Erkenntnis, dass Vor-Training auf Subgrammatiken die interne Repräsentation (Alignment) verbessert, auch wenn es bei großen Modellen nicht zwingend den finalen Verlust senkt.
Tiefe vs. Länge: Die Identifizierung, dass die Hauptschwierigkeit für Modelle die Tiefe der Rekursion ist, nicht die Länge der Sequenz.

4. Ergebnisse

Verlustzerlegung: Die Experimente bestätigen die theoretische Vorhersage, dass der Gesamtverlust exakt der Summe der Verluste der einzelnen Subgrammatiken entspricht.
Paralleler Lernprozess: Im Gegensatz zu menschlichen Kindern, die zuerst einfache Strukturen meistern, lernen kleine Transformer alle Subgrammatiken gleichzeitig. Dies wird auf die Architektur und die Gradientenabstiegsdynamik zurückgeführt.
Effekt des Vor-Trainings (Curriculum Learning):
- Bei sehr kleinen Modellen kann das Vor-Training auf einer Subgrammatik den finalen Verlust senken.
- Bei größeren Modellen (z.B. 4-Schichten) bringt Vor-Training keinen signifikanten Verlustvorteil mehr.
- Repräsentationsanalyse (CKA): Vor-Training führt jedoch konsistent zu internen Repräsentationen, die die Substruktur der Grammatik besser widerspiegeln. Die Modelle unterscheiden besser zwischen Sequenzen mit und ohne Subgrammatik-Subsequenzen.
Grenzen der Rekursion: Modelle (sogar kleine, die einen niedrigen Trainingsverlust erreichen) scheitern bei der Generalisierung auf tiefe Rekursionen.
- Bei Tests mit verschachtelten Klammern oder arithmetischen Ausdrücken steigt der Fehler bei zunehmender Rekursionstiefe stark an (ähnlich einer inversen Log-Kurve), während er bei langen, aber flachen Sequenzen niedrig bleibt.
- Dies gilt auch für fortschrittliche Modelle (anekdotische Tests mit GPT-5.1), was darauf hindeutet, dass dies ein grundlegendes Problem statischer Sprachmodelle ist.

5. Bedeutung und Fazit

Das Paper liefert einen theoretischen Rahmen, um zu verstehen, wie Sprachmodelle mit der hierarchischen Struktur von Grammatiken interagieren.

Theoretische Einsicht: Es etabliert, dass der Lernverlust nicht monolithisch ist, sondern sich in lokale Beiträge der Subgrammatiken zerlegen lässt. Dies erklärt, warum Modelle parallel lernen können.
Praktische Implikation: Obwohl Vor-Training auf Substrukturen die internen Repräsentationen verbessert (besseres Alignment), löst es nicht das fundamentale Problem der tiefen Rekursion.
Limitierung der aktuellen Modelle: Die Arbeit unterstreicht, dass die Schwierigkeit von LLMs nicht in der Verarbeitung langer Kontexte liegt, sondern in der Bewältigung tiefer verschachtelter Abhängigkeiten. Dies deutet darauf hin, dass die Optimierung (Gradient Descent) Schwierigkeiten hat, die idealen Gewichte für tiefe Rekursion zu finden, selbst wenn die Modellkapazität theoretisch ausreicht.

Zusammenfassend bietet das Paper eine neue Perspektive auf das Lernen von Syntax, indem es die Grammatik in ihre atomaren Bausteine (Subgrammatiken) zerlegt und zeigt, dass die Herausforderung für KI-Modelle weniger in der Komplexität der Regeln als vielmehr in der Tiefe ihrer Verschachtelung liegt.