Stel je een Transformer-taalmodel (zoals de AI achter deze tekst) niet voor als een statisch brein, maar als een productielijn in een fabriek.

Lange tijd dachten onderzoekers dat wanneer de AI een concept leerde – zoals "geloofwaardigheid" of "weigeren" – dit gebeurde op één specifiek station op die lijn. Ze zochten naar de ene "beste laag" waar het idee het duidelijkst was, net als het vinden van het ene moment in een film waarop het gezicht van een personage het duidelijkst zichtbaar is.

Dit artikel betoogt dat dit beeld te simpel is. In plaats van een enkele momentopname zijn concepten processen. Ze worden geleidelijk opgebouwd, terwijl ze door een specifiek gebied van de productielijn bewegen. De auteur noemt dit het Concept Allocation Zone (CAZ) of Concept-toewijzingsgebied.

Hier is de uitleg van hoe dit werkt, met gebruikmaking van alledaagse analogieën:

1. De Productielijn versus de Momentopname

Stel je de "residuele stream" van de AI (de data die door het model stroomt) voor als een transportband.

De Oude Manier: Onderzoekers hielden de band vroeger op één specifiek punt stil, maakten een foto en zeiden: "Hier woont het concept."
De Nieuwe Manier (CAZ): Het artikel zegt: "Nee, het concept wordt gebouwd terwijl het beweegt." Het begint als een vaag idee, wordt verfijnd, wordt misschien doorgegeven aan een ander deel van de band, en vestigt zich uiteindelijk. Het CAZ is het hele stuk van de transportband waar het model actief zijn interne geometrie organiseert om dat concept onderscheidend te maken.

2. Drie Hulpmiddelen om de Opbouw te Bewaken

Om dit proces te volgen, bedacht de auteur drie "sensoren" die meten wat er op elk station van de lijn gebeurt:

Scheiding (De Afstand): Stel je twee groepen mensen voor (bijvoorbeeld "Geloofwaardig" versus "Niet Geloofwaardig"). Aan het begin van de lijn zitten ze allemaal door elkaar in een menigte. Naarmate ze de lijn aflopen, begint de "Geloofwaardige" groep naar links te lopen en de "Niet Geloofwaardige" groep naar rechts. Scheiding meet hoe ver ze uit elkaar staan.
Coherentie (De Orde): Soms staan de groepen ver uit elkaar, maar zijn ze ook rommelig en verspreid. Coherentie meet of de groep in een nette, strakke rij loopt of in een chaotische menigte. Een hoge score betekent dat het concept is "gekrystalliseerd" tot een duidelijke vorm.
Snelheid (De Snelheid van Verandering): Dit meet hoe snel de groepen uit elkaar bewegen. Als de afstand snel toeneemt, wordt het concept nu gebouwd. Als de afstand stopt met veranderen, is het concept klaar. Als de groepen weer naar elkaar toe beginnen te bewegen, wordt het concept losgelaten of veranderd.

3. De "Zachte" Gebieden

Het artikel ontdekte iets verrassends: concepten hebben niet alleen één grote piek. Ze hebben vaak meerdere gebieden.

Hoofd-CAZ: De grote, duidelijke piek waar het concept het sterkst is.
Zachte CAZ: Kleinere, subtielere gebieden die standaardtools missen. Het artikel vond dat zelfs deze "zachte" gebieden echt en actief zijn. Als je ze uitschakelt, verandert het gedrag van de AI. Het is als het vinden van kleine, verborgen tandwielen in een klok die je niet wist dat draaiden, maar als je ze stopt, stopt de klok met werken.

4. Concepten Hebben "Sub-Representaties"

Soms verschijnt een concept zoals "geloofwaardigheid" twee keer op de productielijn:

Ondiep Gebied: Aan het begin herkent de AI geloofwaardigheid misschien alleen vanwege specifieke woorden (zoals "betrouwbaar" of "vertrouwen").
Diep Gebied: Verderop op de lijn evalueert de AI het opnieuw op basis van het hele verhaal en de context.
Het artikel toont aan dat dit eigenlijk verschillende geometrische vormen zijn in het brein van de AI. Het zijn twee verschillende manieren om hetzelfde woord te begrijpen, die op verschillende dieptes voorkomen.

5. De "Overdracht"

Omdat concepten bewegen en van vorm veranderen, suggereert het artikel dat als je wilt ingrijpen (het gedrag van de AI veranderen), je niet gewoon de "beste" laag moet kiezen. Je moet wachten tot het concept zijn reis heeft voltooid en is "gevestigd" in een stabiele vorm. Dit wordt de handoff-laag (overdrachtslaag) genoemd.

Analogie: Als je probeert een bal te vangen, probeer je hem niet te grijpen terwijl hij nog wordt gegooid (de productiefase); je wacht tot hij in de lucht is en stabiel (de overdracht).

6. Het "Universele" Patroon

Het artikel testte dit op 34 verschillende AI-modellen. Ze ontdekten dat hoewel verschillende modellen een verschillend aantal lagen hebben, ze allemaal concepten organiseren in een vergelijkbare relatieve volgorde.

Analogie: Stel je twee verschillende fabrieken voor. De ene heeft 10 stations, de andere 100. Beide bouwen een auto. In beide fabrieken wordt de motor gebouwd in de eerste 20% van de lijn, en gebeurt het lakken in de laatste 20%. Het percentage van de lijn is hetzelfde, zelfs als de totale lengte verschilt. Het artikel bevestigt dat AI-modellen ditzelfde "diepte-gelaagde" blauwdruk volgen.

Samenvatting van Wat Getest Is

De auteur deed 7 specifieke voorspellingen om deze theorie te testen. Hier is het oordeel in gewone taal:

Voorspelling 1 (Waar te snijden): Ze dachten dat het snijden in het midden van het gebied het beste was. Onwaar. Het hangt af van het model; soms is het snijden aan het einde beter.
Voorspelling 2 (Volgorde): Ze dachten dat de volgorde van concepten hetzelfde is in alle modellen. Grotendeels Waar. De volgorde is consistent, maar niet perfect star.
Voorspelling 3 (Breedte): Ze dachten dat complexe ideeën meer ruimte innemen op de lijn. Misschien. De data suggereert dit, maar er is meer testen nodig.
Voorspelling 4 (Het Einde): Ze dachten dat concepten helemaal aan het einde rommelig worden. Niet Testbaar. De theorie van "één rommelig einde" was onjuist omdat concepten vaak meerdere pieken hebben, dus er is niet zomaar één "einde" om te meten.
Voorspelling 5 (Uitlijning): Ze dachten dat het matchen van de diepte (percentage van de lijn) tussen modellen de sleutel is. Waar. Dit is de sterkste bevinding: als je het "midden" van het ene model vergelijkt met het "midden" van het andere, sluiten ze perfect aan.
Voorspelling 6 (Woorden versus Context): Ze dachten dat vroege gebieden alleen over woorden gaan en diepe gebieden over context. Onwaar. De vroege gebieden gaan niet alleen over rauwe woorden; ze zijn al verwerkt.
Voorspelling 7 (Architectuur): Ze dachten dat het aantal "pieken" afhangt van het modeltype, niet van de grootte. Onbekend. De test was niet groot genoeg om het met zekerheid te zeggen.

De Conclusie

Dit artikel verschuift het beeld van AI van een statische kaart (waar zit het concept?) naar een dynamische film (hoe vormt het concept zich?). Het introduceert een manier om de "bouwzone" van ideeën te meten, en onthult dat AI-modellen complexe gedachten in fasen opbouwen, vaak met behulp van meerdere verborgen stappen die eerdere methoden misten.

Technische Samenvatting: Het Concept Allocatie Zone (CAZ)-concept

Probleemstelling

Huidige methoden voor mechanistische interpreteerbaarheid vertrouwen voornamelijk op een "beste laag"-heuristiek, waarbij één optimale laag in de residustroom van een Transformer wordt geïdentificeerd waarin de representatie van een concept de maximale klassescheiding bereikt (bijvoorbeeld via lineaire probing of het verschil van gemiddelden). Hoewel deze aanpak computatie-efficiënt is, behandelt hij conceptvorming als een statisch momentopname in plaats van een dynamisch proces. Hij faalt in het vastleggen van het iteratieve, diepte-uitgebreide karakter van hoe concepten worden samengesteld, georganiseerd en potentieel hertoewijzen over de lagen van het model heen. Bijgevolg kunnen methoden die zich op één laag richten, transitie-representaties, subtiele toewijzingsgebieden en de geometrische dynamiek van conceptconstructie missen.

Methodologie

Het artikel introduceert het Concept Allocatie Zone (CAZ)-kader, dat conceptrepresentatie herdefinieert als een aaneengesloten regio van modeldiepte in plaats van een enkel punt. Het kader steunt op drie laag-specifieke metrieken die worden berekend uit de activaties van de residustroom:

Scheiding ( $S(l)$ ): Een Fisher-genormaliseerde centroid-afstand tussen contrastieve klassen in laag $l$ . Dit meet hoe gemakkelijk het model twee klassen onderscheidt (bijvoorbeeld geloofwaardige versus niet-geloofwaardige tekst) op een specifieke diepte.
Conceptcoherentie ( $C(l)$ ): De verhouding van de verklaarde variantie van de eerste hoofdcomponent van de gepoolde activatiematrix. Dit kwantificeert of het concept wordt gecodeerd als één schone geometrische richting of verspreid is over meerdere dimensies.
Conceptsnelheid ( $v(l)$ ): De gesmoothde veranderingssnelheid van de scheidingsmetriek over de lagen. Een positieve snelheid duidt op actieve constructie van het concept, terwijl een negatieve snelheid degradatie of hertoewijzing aangeeft.

Detectie en Extractie

Het kader maakt gebruik van een gescoorde detectiemethode om CAZ-grenzen te identificeren zonder handmatige laag-sweeps. In tegenstelling tot piekdetectie met vaste drempels, gebruikt deze methode een samengestelde score die prominentie, coherentie en regio-breedte combineert. Dit maakt de identificatie mogelijk van:

Grote/Sterke CAZ'en: Hoog-prominente, geconcentreerde toewijzingsregio's.
Zachte CAZ'en: Subtiele toewijzingsregio's (score < 0,05) die vaak onzichtbaar zijn voor standaard piekdetectie, maar empirisch zijn aangetoond causaal actief te zijn.

Het kader onderscheidt tussen embedding CAZ'en (gedreven door token-niveau kenmerken bij de inputgrens) en actieve CAZ'en (gedreven door attention- en MLP-berekeningen binnen de transformer-lagen).

Voor conceptextractie valideert het artikel Geometrische Evolutiekaarten (GEM), die de directionele trajectorie van een concept volgen. Het blijkt dat conceptrichtingen vaak aanzienlijke rotatie ondergaan binnen een CAZ en pas stabiliseren op een "overdrachtlaag" na de CAZ. Probing op deze overdrachtlaag is vaak preciezer dan probing op het scheidingspiek, vooral in Multi-Head Attention (MHA)-architecturen.

Belangrijkste Bijdragen

Het CAZ-kader: Een formele definitie van concepttoewijzing als een diepte-gelocaliseerd interval waarin het model geometrie organiseert om een concept te dienen, onderscheiden van het concept zelf.
Drie Laag-specifieke Metrieken: De formalisering van Scheiding, Coherentie en Snelheid om conceptvorming te karakteriseren als een proces.
Gescoorde Detectie: Een principiële methode voor het identificeren van een spectrum van toewijzingsregio's, waarbij "zachte CAZ'en" worden onthuld die standaardmethoden missen.
Ontdekking van Sub-representaties: Empirisch bewijs dat menselijke conceptlabels (bijvoorbeeld "geloofwaardigheid") corresponderen met meerdere, geometrisch onderscheiden sub-representaties op verschillende verwerkingsdieptes (ondiep versus diep), gescheiden door abrupte fase-overgangen.
Diepte-gelaagde Alignering: Een verfijnd perspectief op de Platonische Representatiehypothese, dat aantoont dat cross-architectuur alignering het sterkst is wanneer concepten worden afgestemd op verwerkingsdiepte (proportioneel laagindex) in plaats van absolute laagindex of architectuurfamilie.

Empirische Resultaten

Het kader is gevalideerd over 34 modellen uit 8 architectuurfamilies (waaronder Pythia, GPT-2, OPT, Qwen 2.5, Gemma 2, Llama 3.2, Mistral en Phi) en 7 concepten.

Multimodaliteit: De scheidingscurve $S(l)$ is vaak multimodaal. Een enkel concept neemt doorgaans deel aan meerdere CAZ'en (gemiddeld 3,4 per concept per model).
Causale Activiteit van Zachte CAZ'en: Ablatiestudies op 16 van de 34 modellen (uitgebreid tot 26 basismodellen in begeleidend werk) tonen aan dat het onderdrukken van "zachte CAZ'en" (score < 0,05) de geometrische scheiding in 93–100% van de gevallen vermindert, wat hun causale rol bevestigt ondanks dat ze onzichtbaar zijn voor standaarddetectie.
Voorspellende Uitspraken:
- Ondersteund (P5): Cross-architectuur alignering is diepte-afgestemd. Sub-representaties op overeenkomende verwerkingsdieptes aligneren sterker dan niet-overeenkomende dieptes.
- Gedeeltelijk Ondersteund (P2): CAZ-grenzen tonen een consistente relatieve ordening over architecturen heen (van ondiep naar diep), hoewel dit een statistische neiging is in plaats van een strikt invariant.
- Niet Ondersteund (P1, P6): De optimale ablatiediepte is niet universeel het midden van de CAZ (het hangt af van coderingsredundantie), en ondiepe pieken correleren niet direct met ruwe token-embeddings.
- Niet Testbaar zoals Gesteld (P4): De premisse van één enkele degradatieregio na de CAZ werd ongeldig verklaard door de ontdekking van multimodale toewijzing.
- Exploratief/Onduidelijk (P3, P7): Correlaties tussen CAZ-breedte en abstractie, en de prevalentie van multimodaliteit en architectuur, vereisen verdere data.

Betekenis en Claims

Het artikel beweert dat het CAZ-kader het interpreteerbaarheidsparadigma verschuift van anatomie (het lokaliseren waar een concept het meest zichtbaar is) naar dynamische stroming (het volgen hoe een concept vormt).

Verfijning van Interpreteerbaarheid: Het biedt een geometrische basis voor het selecteren van interventiedieptes, wat suggereert dat ablatie op verschillende punten in de CAZ-keten kwalitatief verschillende effecten produceert.
Verbinding met "Donkere Materie": Het kader hypothesiseert dat de gestructureerde residu die niet wordt verklaard door Sparse Autoencoders (SAE's), kan corresponderen met conceptconstructie in uitvoering binnen CAZ'en—transitie-representaties die lineaire decompositie op elke enkele laag weerstaan.
Inzichten in Aligneringstraining: CAZ-profielen bieden een metriek om te kwantificeren hoe instructietuning concepttoewijzing vervormt, waarbij wordt onthuld dat tuning concepten niet uniform naar ondiepere dieptes verschuift, maar toewijzing verandert op basis van de bestaande geometrie van het basismodel.
Diepte-gelaagde Convergentie: Het sterkste empirische resultaat is de bevestiging dat cross-architectuur alignering een diepte-gelaagd fenomeen is, wat een verfijnde versie van de Platonische Representatiehypothese ondersteunt waarbij convergentie optreedt op proportionele verwerkingsstadia in plaats van globaal.

De auteurs benadrukken dat de CAZ niet het concept zelf is, maar de diepteregio waar het computationele evenement van geometrische organisatie plaatsvindt. Meerdere concepten kunnen een CAZ delen, en een enkel concept neemt doorgaans deel aan meerdere CAZ'en over de diepte. De referentie-implementatie wordt geleverd in de open-source rosetta_tools-bibliotheek.

The Concept Allocation Zone: Tracking How Concepts Form Across Transformer Depth