StructLens: A Structural Lens for Language Models via Maximum Spanning Trees

Each language version is independently generated for its own context, not a direct translation.

StructLens: Een nieuwe manier om te kijken hoe taalmodellen "denken"

Stel je voor dat een taalmodel (zoals de AI die je nu gebruikt) een enorme, complexe stad is. In deze stad wonen miljarden woorden en zinnen. Traditioneel kijken onderzoekers naar deze stad alsof ze door een klein raampje in één huis kijken: ze zien wel hoe twee buren met elkaar praten (twee woorden in één laag), maar ze zien niet hoe de hele stad samenwerkt.

De auteurs van dit paper, StructLens, zeggen: "Wacht even, we missen het grote plaatje!" Ze hebben een nieuwe bril ontwikkeld om te zien hoe de hele structuur van de stad eruitziet, laag voor laag.

Hier is de uitleg in simpele taal, met een paar creatieve vergelijkingen:

1. Het Probleem: De "Buren" vs. De "Stad"

Tot nu toe keken onderzoekers naar taalmodellen alsof ze een foto van twee buren naast elkaar bekijken. Ze keken of woord A op positie 1 lijkt op woord B op positie 1 in de volgende laag. Dit heet cosine similarity.

Het nadeel: Dit is als kijken of twee mensen dezelfde trui aan hebben. Het zegt je niets over of ze samen een feestje bouwen, of dat ze ruzie hebben, of hoe de hele straat eruitziet. Je mist de relatie tussen alle woorden in een zin.

2. De Oplossing: De "Meest Logische Boom" (StructLens)

StructLens doet iets heel anders. Het kijkt naar alle woorden in een zin en vraagt zich af: "Welke woorden horen het beste bij elkaar?"

De Analogie: Stel je een groep mensen voor die een grote boom moeten bouwen. Iedereen heeft een touw in zijn hand. StructLens pakt alle touwtjes en knoopt ze zo aan elkaar dat je één grote, stevige boom krijgt, waarbij de sterkste verbindingen (de "meest logische" relaties) het dikste touw krijgen.
In de techniek noemen ze dit een Maximum Spanning Tree (een boom met de zwaarste verbindingen). Het is alsof je een boomdiagram tekent van een zin, maar dan gebaseerd op hoe de AI de woorden voelt, niet op wat een taalkundige zegt.

3. Het Grote Ontdekking: De "Eilanden"

Toen de auteurs deze "bomen" van laag tot laag vergeleken, zagen ze iets verrassends.

De Vergelijking: Stel je voor dat je door een tunnel loopt. Normaal denk je dat de wanden van de tunnel steeds een beetje veranderen. Maar met StructLens zagen ze dat de wanden soms in groepen veranderen.
Er zijn "eilanden" in de tunnel. Binnen één eiland lijken de lagen op elkaar (ze doen hetzelfde werk). Maar als je van het ene eiland naar het andere springt, verandert de structuur drastisch.
Wat betekent dit? Het betekent dat de AI in bepaalde lagen vooral bezig is met het "in elkaar zetten" van de zin (de structuur bouwen), en in andere lagen met het "begrijpen" of het "antwoorden geven". Het is alsof de AI eerst de fundering legt, dan de muren bouwt, en pas op het dak de verf aanbrengt.

4. Waarom is dit handig? (Het "Snoeien")

Het allerbelangrijkste praktische nut is het snoeien van het model.

De Analogie: Stel je hebt een enorme, onkruidachtige boom die veel water en energie kost. Je wilt de boom kleiner maken zonder dat hij doodgaat.
Normaal gesproken kijken mensen: "Welke takken lijken het meest op elkaar? Die kunnen we wegknippen." Maar omdat ze alleen naar de bladeren keken (niet naar de structuur), knipten ze soms per ongeluk de takken weg die het belangrijkst waren voor de vruchten.
Met StructLens kijken ze naar de structuur van de boom. Ze zien precies welke takken overbodig zijn omdat ze geen nieuwe "boomvorm" toevoegen.
Het resultaat: Ze konden ongeveer 10% van de lagen (de "takken") van de AI weghalen. Het model werd sneller en lichter, maar bleef net zo slim als voorheen! Zelfs beter dan wanneer ze de "oude manier" van snoeien gebruikten.

Samenvatting

StructLens is als een nieuwe soort bril voor onderzoekers. In plaats van alleen te kijken of twee woorden op elkaar lijken, kijken ze naar het skelet van de zin.

Het laat zien dat taalmodellen in duidelijke "fases" werken (de eilanden).
Het helpt ons om onnodige delen van de AI weg te halen, waardoor ze sneller en efficiënter worden, zonder dat ze hun intelligentie verliezen.

Kortom: Het is de eerste keer dat we echt zien hoe de "bouwplaat" van een AI eruitziet, in plaats van alleen naar de losse stukjes te kijken.

Each language version is independently generated for its own context, not a direct translation.

1. Het Probleem

Taal vertoont inherente structuren, wat essentieel is voor taalverwerving en taalverandering. Hoewel men verwacht dat Taalmodellen (LM's) deze structurele eigenschappen ook intern manifesteren, hebben bestaande interpretatie- en optimalisatiemethoden deze vaak genegeerd.

Beperkingen van huidige methoden: Bestaande interpretatietools (zoals Logit Lens of Sparse Autoencoders) focussen voornamelijk op individuele tokens of lokale relaties binnen een laag. Methoden voor het analyseren van gelijkenis tussen lagen (inter-layer similarity), zoals Cosine Similarity, meten alleen de overeenkomst tussen tokens op corresponderende posities.
Het gemis: Deze lokale benaderingen missen het globale perspectief van de interactie tussen tokens binnen een laag en de holistische structurele patronen die zich over de lagen heen ontwikkelen. Er is een behoefte aan een methode die de interne structuur van een LM vanuit een bottom-up, structureel oogpunt analyseert.

2. Methodologie: StructLens

De auteurs introduceren StructLens, een analytisch raamwerk dat de interne representaties van een taalmodel visualiseert en kwantificeert door gebruik te maken van Maximum Spanning Trees (MST's).

Constructie van MST's:
- Voor elke laag $\ell$ van het Transformer-model wordt de residual stream (de cumulatieve representatie na die laag) gebruikt.
- Er wordt een volledig verbonden gerichte graaf $G$ gemaakt waarbij elke knoop een token vertegenwoordigt.
- De gewichten van de randen worden bepaald door de semantische gelijkenis tussen token-representaties. De auteurs gebruiken de omgekeerde L2-afstand (reciproque) om afstand om te zetten in een gelijkenis-maatstaf, waarbij alleen voorwaartse randen ( $i < j$ ) worden toegestaan om de autoregressieve aard van het model te respecteren.
- Op basis van deze gewichten wordt een Maximum Spanning Tree (MST) geconstrueerd die alle tokens verbindt met de maximale totale randgewichten. Dit is analoog aan dependency parsing in de traditionele NLP.
Metrieken voor Inter-Laag Vergelijking:
Om de gelijkenis tussen verschillende lagen te meten, vergelijken de auteurs de MST's met behulp van vier metrieken:
1. CKA (Centered Kernel Alignment): Een standaard metriek voor globale vergelijking van representaties.
2. Cos-Base: Traditionele Cosine Similarity tussen corresponderende tokens.
3. Cos-Struct: Cosine Similarity berekend op geaggregeerde representaties van de MST (waarbij subbomen recursief worden samengevoegd tot een enkele root-representatie).
4. Tree-Edit & Edge-Edit: Afstandsmetrieken die de verschillen in de boomstructuur zelf meten (bijv. het aantal randen dat moet worden gewijzigd om de ene boom in de andere om te zetten).

3. Belangrijkste Bijdragen en Resultaten

A. Ontdekking van "Islands" (Lagenclusters)

De analyse met Edge-Edit (een structuur-bewuste metriek) onthult een opvallend patroon dat niet zichtbaar is met Cosine Similarity:

De lagen van het model vormen discrete groepen of "eilanden" met hoge onderlinge gelijkenis.
Deze eilanden blijven consistent over verschillende modelgroottes (bijv. Llama3.1 8B vs 70B) en modellen (Qwen2.5).
Dit suggereert dat het model informatie in specifieke fasen verwerkt, waarbij lagen binnen een "eiland" vergelijkbare structurele rollen vervullen.

B. Evolutie van Subbomen en Tokens

Contiguïteit: In de middenlagen (ongeveer 0% tot 50% van de diepte) worden tokens die opeenvolgend zijn in de input (contiguous tokens) dichter bij elkaar in de embedding-ruimte geplaatst, wat leidt tot een toename van "contiguous subtrees". In hogere lagen worden deze structuren weer ontmanteld.
Frequent Subtree Mining: Het paper toont aan dat modellen specifieke boomstructuren (bijv. zinsdelen of syntactische patronen) bouwen in bepaalde lagen. Deze structuren kunnen worden hergebruikt in niet-aangrenzende lagen, wat wijst op samenwerking tussen lagen die verder uit elkaar liggen dan alleen directe opvolgers.

C. Relatie met Modelgedrag

Door de "eilanden" te vergelijken met Logit Lens-visualisaties, vinden de auteurs dat de overgang tussen deze structurele clusters correleert met veranderingen in het gedrag van het model.

Bijvoorbeeld: De overgang naar het laatste "eiland" in Llama3.1 8B komt overeen met het moment waarop het model begint met het selecteren van antwoordopties (A, B, C, D) in MMLU-taken.

D. Praktische Toepassing: Layer Pruning

De meest significante praktische toepassing is laag-pruning (het verwijderen van redundante lagen om het model te versnellen).

Resultaat: Wanneer lagen worden verwijderd op basis van structuur-bewuste metrieken (TreeBI, EdgeBI) in plaats van traditionele Cosine Similarity (CosBaseBI), behoudt het model een aanzienlijk hogere nauwkeurigheid.
Voorbeeld: Bij het verwijderen van ~10% van de lagen van Llama3.1 8B, resulteerde TreeBI in een nauwkeurigheid van 66.2% op MMLU, terwijl CosBaseBI slechts 63.0% haalde.
Dit bewijst dat structurele analyse een betere indicator is voor de "belangrijkheid" van een laag dan lokaal token-overeenkomst.

4. Betekenis en Conclusie

StructLens biedt een fundamenteel nieuw perspectief op het begrijpen van Large Language Models:

Van Lokaal naar Globaal: Het verschuift de focus van token-voor-token vergelijking naar de globale structuur van token-interacties binnen een laag.
Dynamische Structuur: Het bevestigt dat LM's dynamische, bottom-up structuren opbouwen die niet statisch zijn, maar evolueren door de lagen heen.
Optimalisatie: Het biedt een robuuste methode om redundante lagen te identificeren zonder de prestaties van het model te schaden, wat essentieel is voor het efficiënter maken van grote modellen.

Kortom, StructLens demonstreert dat het analyseren van de boomstructuur van interne representaties cruciaal is voor het ontrafelen van hoe taalmodellen werken en hoe ze het beste kunnen worden geoptimaliseerd.