Each language version is independently generated for its own context, not a direct translation.

Het Grote Idee: De "Verborgen Schakelaars" in AI Vinden

Stel je een gigantische, complexe machine voor (zoals een neurale netwerken) die een taak heeft geleerd, zoals getallen optellen of verhalen schrijven. Je kunt zien dat de machine werkt, maar je kunt niet zien hoe het denkt. Het is alsof je naar een zwarte doos kijkt: je voert een getal in en er komt een ander getal uit, maar de tandwielen erin zijn verborgen.

Wetenschappers willen de doos openen en de specifieke "schakelaars" of "knoppen" erin vinden die de machine gebruikt om concepten als "grammatica", "optellen" of "sentiment" te begrijpen. Dit heet mechanistische interpreteerbaarheid.

Het probleem is dat de machine miljoenen knoppen heeft en ze allemaal met elkaar verstrikt zijn. Eentje willekeurig kiezen is als proberen een specifieke naald te vinden in een hooiberg door te raden.

Het artikel van Jennifer Lin stelt een nieuwe, slimme manier voor om deze naalden te vinden. In plaats van te raden, gebruikt de auteur een wiskundig hulpmiddel genaamd de Empirical Neural Tangent Kernel (eNTK).

De Analogie: De "Echo-kamer" Test

Stel je het neurale netwerk voor als een enorme echo-kamer. Als je een specifiek woord schreeuwt (een kenmerk, zoals "zelfstandig naamwoord" of "tel 5 op"), kaatst het geluid door de kamer en raakt het de muren (de parameters van het model) in een zeer specifiek patroon.

De eNTK is als een super-gevoelige microfoon die opneemt hoe de hele kamer trilt wanneer je schreeuwt.

Als je "zelfstandig naamwoord" schreeuwt, trilt de kamer in een specifiek ritme.
Als je "werkwoord" schreeuwt, trilt het in een ander ritme.

De hypothese van de auteur is: Als we de sterkste trillingen (de "top-eigendirections") in deze echo-kamer analyseren, kunnen we precies uitzoeken welke woorden er geschreeuwd zijn.

In technische termen beweert het artikel dat we, door naar de "sterkste patronen" te kijken van hoe de interne tandwielen van het model bewegen tijdens het leren, de exacte richtingen kunnen identificeren die het model gebruikt om kenmerken te detecteren.

De Drie Experimenten: Van Eenvoudige Wiskunde tot Grote Taalmodellen

De auteur testte dit "echo-kamer" idee op drie verschillende soorten machines, die steeds complexer werden.

1. De Eenvoudige Wiskunde Machine (MLP)

De Taak: Een eenvoudige machine leerde getallen optellen modulo een priemgetal (een specifiek type wiskundepuzzel).
De "Waarheid": We wisten al het geheime recept dat de machine gebruikte: het veranderde de getallen in golven (Fourier-kenmerken), zoals het omzetten van een getal in een sinusgolf.
Het Resultaat: De auteur gebruikte de eNTK om naar de machine te luisteren. De sterkste trillingen die de eNTK vond, kwamen perfect overeen met het "sinusgolf"-recept.
Het "Grokking" Moment: Er is een fenomeen genaamd "grokking", waarbij een model plotseling overgaat van falen in een test naar het perfect halen ervan na lange tijd alleen maar te hebben gememoriseerd. Het artikel vond dat op het moment dat de machine "grokte" (de wiskunde begreep), de uitlijning tussen de eNTK-trillingen en de wiskundige kenmerken piekte. Het is alsof op het moment dat de machine het eindelijk "begreep", de echo-kamer plotseling het juiste liedje begon te zingen.

2. De Iets Slimmere Wiskunde Machine (Transformer)

De Taak: Een iets complexere machine (een Transformer) leerde dezelfde wiskundepuzzel.
Het Verschil: Deze machine gebruikte niet elke mogelijke golf; het koos een paar willekeurige, specifieke frequenties om het probleem op te lossen.
Het Resultaat: Hoewel de machine willekeurige frequenties koos, vond de eNTK ze toch. Het slaagde erin de specifieke "noten" te identificeren die de machine gebruikte om de wiskunde te doen.

3. Het Grote Taalmodel (Gemma-3-270M)

De Taak: Dit is een echt, vooraf getraind taalmodel (zoals een miniversie van de AI waarmee je chat) dat verhalen leest.
De Uitdaging: We kennen hier het "geheime recept" niet. We willen gewoon zien of de machine grammatica kan detecteren (zoals zelfstandig naamwoorden, werkwoorden of verleden tijd).
De Test: De auteur nam een kleine set verhalen en vroeg: "Kunnen de eNTK-trillingen ons vertellen welke woorden zelfstandig naamwoorden zijn?"
De Vergelijking: Ze vergeleken de eNTK-methode met PCA (een standaard, oudere methode die gewoon kijkt naar de meest actieve delen van de machine).
Het Resultaat: De eNTK-methode was beter. Het vond de "grammatica-schakelaars" nauwkeuriger dan de standaardmethode. Bijvoorbeeld, het was beter in het opsporen van "werkwoorden" of "verleden tijd" dan de oude methode.

De Belangrijkste Conclusie

Het artikel beweert dat het analyseren van de "trillingen" van het leerproces van het model (via de eNTK) een krachtige nieuwe zaklamp is.

Het werkt op eenvoudige wiskundemodellen waar we het antwoord kennen.
Het werkt op complexe taalmodellen waar we het antwoord niet kennen, en het vindt grammatica-kenmerken beter dan huidige standaardtools.
Het lijkt precies op te lichten op het moment dat een model plotseling een concept begrijpt (het "grokking" moment).

Wat het Artikel Niet Beweert

Het is belangrijk om te blijven bij wat het artikel daadwerkelijk zegt:

Het is geen wondermiddel: Het artikel geeft toe dat dit "correlatieve" resultaten zijn. Alleen omdat de eNTK een richting vindt die eruitziet als "grammatica", bewijst dit niet dat het veranderen van die richting het model zal fixen. Het is een ontdekkingsinstrument, nog niet per se een bedieningspaneel.
Het gaat niet over toekomstige AI-veiligheid: Het artikel vermeldt dat dit in de toekomst nuttig zou kunnen zijn voor veiligheid, maar het presenteert geen veiligheidsapplicaties of klinisch gebruik. Het is puur een methode om te begrijpen hoe modellen nu werken.
Het is niet perfect: Het taalmodel-experiment gebruikte een relatief kleine dataset en een specifiek model. De auteur suggereert dat we dit op grotere modellen en datasets moeten testen om zeker te zijn.

Samenvatting in Eén Zin

Dit artikel suggereert dat we door te luisteren naar de "echo's" van hoe een neurale netwerken leert (met behulp van een hulpmiddel genaamd de eNTK), de verborgen "schakelaars" die het model gebruikt om wiskunde en grammatica te begrijpen, succesvol kunnen identificeren, en ze vaak duidelijker vinden dan eerdere methoden.

Each language version is independently generated for its own context, not a direct translation.

Technische Samenvatting: Kenmerkidentificatie via de Empirische NTK

Probleemstelling

Mechanistische interpretabiliteit streeft er naar om te achterhalen hoe neurale netwerken informatie verwerken, met name met als doel te identificeren hoe modellen geleerde kenmerken representeren. Waar eerdere benaderingen er vaak van uitgaan dat individuele neuronactivaties of spaarzame lineaire combinaties daarvan interpreteerbare kenmerken vormen, suggereert recente literatuur dat deze methoden onvolledige of niet-canonieke dictionaries kunnen opleveren. Bijgevolg is er behoefte aan fundamenteel verschillende benaderingen om kenmerkringen in getrainde modellen te identificeren, zonder te vertrouwen op aannames over de specifieke aard van die kenmerken.

Dit artikel onderzoekt of de top-eigenrichtingen van de Empirische Neuronale Tangent Kernel (eNTK) kunnen dienen als een mechanisme om deze geleerde kenmerken aan het licht te brengen. De eNTK wordt gedefinieerd als de kernel die ontstaat door twee kopieën van de Jacobiaan van het model te contracteren langs de richting van de parameterruimte:
$K_{ij}(x_1, x_2) = \sum_{\mu} \frac{df_i(x_1)}{dW_\mu} \frac{df_j(x_2)}{dW_\mu}$
waarbij $f$ het neurale netwerk is, $W_\mu$ de gewichten zijn, en $i, j$ de outputklassen indexeren. De auteurs veronderstellen dat de top-eigenruimten van deze kernel, geëvalueerd op een dataset, overeenkomen met waarheidsgetrouwe of interpreteerbare kenmerkringen, zelfs in modellen die buiten het "luie" trainingsregime opereren waar de standaard NTK-theorie van toepassing is.

Methodologie

De auteurs stellen een algoritme voor om de top-eigenrichtingen van de eNTK te berekenen en te analyseren in drie verschillende settings: een 1-laags MLP, een 1-laags Transformer en een voorgetraind groot taalmodel (Gemma-3-270M).

1. Kernelconstructie en Reductie

De eNTK, geëvalueerd over een dataset van grootte $N$ met $C$ outputklassen, heeft een vorm van $(N, N, C, C)$ . Om een eigenontbinding uit te voeren, hanteren de auteurs twee reductiestrategieën:

Per-klasse eNTK: Analyse van de kernel $K_{cc}(x_1, x_2)$ voor specifieke klassen.
Gegladde eNTK: Het stapelen van per-klasse blokken in een enkele $NC \times NC$ matrix.
Laagsgewijze eNTK: Het sommeren van Jacobiaan-producten alleen over parameters die tot een specifieke laag behoren, om kenmerken toe te schrijven aan specifieke netwerkkomponenten.

2. Schaalbaarheid via Lanczos-iteratie

Voor grote modellen waarbij het realiseren van de volledige Jacobiaan of eNTK onuitvoerbaar is (bijvoorbeeld taalmodellen met grote vocabulaires), maken de auteurs gebruik van Lanczos-iteratie. Ze benaderen de top $k$ eigenrichtingen door $2k$ stappen van matrix-vectorproducten uit te voeren. Cruciaal is dat ze $Kv = J(J^T v)$ berekenen met behulp van vector-Jacobian- en Jacobiaan-vectorproducten via automatische differentiatie, waardoor de expliciete constructie van de Jacobiaan of de eNTK wordt vermeden.

3. Efficiënte Herwinning voor Taalmodellen

Voor het Gemma-3-270M-experiment maakt de vocabulairegrootte ( $d_{vocab}$ ) de gegladde eNTK op de outputlaag computationeel onhaalbaar. De auteurs maken gebruik van het lineaire verband tussen de Jacobiaan van de outputlaag en de Jacobiaan van de laatste verborgen laag (via de unembedding-matrix $U$ ). Ze leiden een getransformeerde operator af $\tilde{K} = S^{1/2} K_r S^{1/2}$ (waarbij $K_r$ de eNTK op de residual stream is) die dezelfde eigenwaarden deelt als de volledige output-eNTK, maar werkt in de kleinere $d_{model}$ -ruimte. Dit maakt het mogelijk om de top-eigenrichtingen van de eNTK te herwinnen zonder grote objecten ter grootte van de vocabulaire te realiseren.

4. Evaluatiemaatstaf

Om de hypothese te valideren, meten de auteurs de alignatie tussen eNTK-eigenruimten en onafhankelijk gespecificeerde "waarheidsgetrouwe" kenmerkvectoren.

Alignatiescore: Berekend als de gekwadrateerde Frobenius-norm tussen de deelruimte opgespannen door de top $k$ eNTK-eigenvectoren en de deelruimte opgespannen door de waarheidsgetrouwe kenmerken.
Baseline-vergelijking: In de setting van het taalmodel wordt de eNTK-benadering vergeleken met een Principal Component Analysis (PCA)-baseline uitgevoerd op modelactivaties, met gebruik van hetzelfde computatiebudget (top 25 richtingen).

Belangrijkste Resultaten

1. MLP op Modulaire Aritmetica

In een 1-laags MLP getraind op modulaire optelling ( $mod\ p$ ) met "grokking" vertoonnd (een fase-overgang van memorisatie naar generalisatie):

Spectrale Structuur: Het eNTK-spectrum vertoont twee distincte "kliffen" (aaneengesloten blokken van hoge eigenwaarden).
Kenmerkalignatie: De eerste klif (grootte $4\lfloor p/2 \rfloor$ ) aligneert perfect met de Fourier-kenmerken van de invoervariabelen ( $a$ en $b$ ). De tweede klif aligneert met de "som" en "verschil" Fourier-kenmerken ( $a+b$ en $a-b$ ) die door de tweede laag van het model worden gebruikt om het waarheidsgetrouwe algoritme te implementeren.
Trainingsdynamiek: De alignatie van de tweede klif met som/verschil-modi is laag bij initialisatie maar stijgt glad, waarbij de eerste afgeleide van de overlap piekt nabij het begin van de grokking-fase-overgang.

2. Transformer op Modulaire Aritmetica

In een 1-laags Transformer getraind op dezelfde taak:

Spaarzame Frequenties: In tegenstelling tot de MLP leert de Transformer Fourier-modi op een spaarzame set willekeurige, zaad-afhankelijke frequenties.
Laagsgewijze Alignatie: Top laagsgewijze eNTK-eigenruimten aligneren met de Fourier-kenmerken op deze specifieke sleutelfrequenties.
- De attentieblok- en MLP-invoergewichten aligneren met de som van invoer-Fourier-kenmerken ( $\cos(\omega_k a) + \cos(\omega_k b)$ ).
- De MLP-uitvoer en unembedding-gewichten aligneren met de "som" Fourier-kenmerken ( $\cos(\omega_k(a+b))$ ).
Dynamiek: Net als bij de MLP stijgt de alignatie met som-modi tijdens het trainen, met een piek in de afgeleide nabij de grokking-overgang.

3. Gemma-3-270M op Natuurlijke Taal

In het voorgetrainde Gemma-3-270M-model, geëvalueerd op een dataset van TinyStories-contextvensters:

Grammaticaherwinning: Top-eigenrichtingen van de eNTK werden getest tegen automatisch gegenereerde grammaticale kenmerken (Woordsoorten en morfologische tags zoals tijd en getal).
Prestaties: De eNTK-eigenrichtingen presteerden beter dan de PCA-baseline op modelactivaties voor alle Woordsoort-kenmerken en alle maar één morfologisch kenmerk, gemeten aan de hand van AUROC.
Interpreteerbaarheid: Kwalitatieve analyse van de top-activerende voorbeelden voor specifieke eigenrichtingen (bijvoorbeeld "Infinitief werkwoord" of "Verleden tijd werkwoord") onthulde coherente semantische interpretaties die consistent waren met de doel-grammaticale kenmerken.

Betekenis en Beweringen

Het artikel beweert dat eNTK-eigenanalyse een nieuwe, theoretisch gemotiveerde en empirisch gevalideerde handvat biedt voor het identificeren van kenmerken in getrainde modellen.

Buiten het Luie Regime: Het werk toont aan dat eNTK-spectrale structuren informatief blijven en aligneren met waarheidsgetrouwe mechanismen, zelfs in modellen die niet in het "luie" trainingsregime opereren (waar parameterdrift verwaarloosbaar is), een regime waar de standaard NTK-theorie strikt niet van toepassing is.
Superioriteit ten opzichte van Activatie-PCA: In de context van het taalmodel herwint de eNTK-benadering grammaticale kenmerken succesvoller dan PCA op activaties, wat suggereert dat de structuur van de kernel kenmerkinformatie vastlegt die ruwe activaties (zelfs wanneer gereduceerd via PCA) kunnen verbergen.
Dynamisch Monitoring: De observatie dat de alignatie van eNTK-deelruimten met kenmerken evolueert tijdens het trainen – specifiek met een piek in veranderingssnelheid nabij grokking – suggereert dat eNTK-eigenanalyse kan dienen als een diagnostisch hulpmiddel om te monitoren wanneer specifieke kenmerken tijdens het trainen worden verworven.

De auteurs behouden een bescheiden houding, waarbij ze noteren dat hun resultaten momenteel correlatief zijn. Ze hebben nog niet aangetoond dat door eNTK geïnspireerde interventies causaal het modelgedrag veranderen, en ze erkennen beperkingen met betrekking tot de schaal van het taalmodel-experiment (Gemma-3-270M is kleiner dan state-of-the-art modellen) en de eenvoud van de dataset (TinyStories). De consistentie van resultaten over synthetische algoritmische taken en natuurlijke taal suggereert echter een robuust potentieel voor eNTK-gebaseerde mechanistische interpretabiliteit.

Feature Identification via the Empirical NTK