Het Grote Plaatje: Een Nieuwe Kamer in een Oud Huis

Stel je een enorme, hoogintelligente bibliotheek voor (het Basismodel) die al weet hoe te schrijven, te coderen en te redeneren. Deze bibliotheek heeft een specifieke manier om zijn boeken en gedachten te organiseren, wat onderzoekers zijn "interne geometrie" noemen.

Nu stel je je voor dat je deze bibliotheek een nieuwe vaardigheid wilt leren, zoals schrijven in een specifieke stijl of het volgen van nieuwe veiligheidsregels. In plaats van de hele bibliotheek opnieuw te bouwen, voeg je een kleine, tijdelijke bijbouw toe. Dit is LoRA (Low-Rank Adaptation). Het is een lichtgewicht "adapter" die bovenop de oorspronkelijke bibliotheek zit om zijn gedrag aan te passen zonder de originele boeken te veranderen.

Het Probleem: We weten dat de bijbouw verandert wat de bibliotheek zegt, maar we weten niet echt hoe het de interne denkprocessen van de bibliotheek verandert. Zet de bijbouw alleen de bestaande boeken op een andere manier neer, of bouwt het een volledig nieuwe, onzichtbare vleugel die niet op de kaart van de oorspronkelijke bibliotheek staat?

Het Experiment: De "Delta"-Detective

De onderzoekers wilden precies zien wat deze bijbouw (de LoRA-adapter) binnenin het brein van de bibliotheek deed.

De "Voor en Na"-Foto: Ze namen een momentopname van de gedachten van de bibliotheek voordat de bijbouw werd toegevoegd ( $h_{base}$ ) en een andere momentopname nadat deze was toegevoegd ( $h_{adapted}$ ).
Het "Verschil" ( $h_\Delta$ ): Ze trokken de "voor"-foto af van de "na"-foto. Het resultaat, de Delta, is de pure "geest" van de adapter. Het toont alleen wat de nieuwe bijbouw toevoegde, en haalt alles weg wat de oorspronkelijke bibliotheek al wist.
De Vertaler (Sparse Autoencoder): Om deze "geest" te begrijpen, gebruikten ze een speciaal hulpmiddel genaamd een Sparse Autoencoder (SAE). Denk aan een SAE als een vertaler die probeert complexe gedachten te beschrijven met een specifiek woordenboek van eenvoudige, duidelijke concepten (zoals "geluk", "wiskunde" of "gevaar").

De Ontdekking: Twee Verschillende Talen

De onderzoekers trainden hun vertaler op twee verschillende dingen:

Woordenboek A: De bestaande concepten van de oorspronkelijke bibliotheek (Pre-trained SAE).
Woordenboek B: Een nieuw woordenboek dat specifiek was getraind op de "geest" van de bijbouw (Delta SAE).

Hier is wat ze vonden:

1. De Vertaler Faalde met het Oude Woordenboek

Toen ze probeerden de gedachten van de bijbouw te beschrijven met behulp van het oorspronkelijke woordenboek van de bibliotheek, faalde de vertaler op erbarmelijke wijze.

De Analogie: Stel je voor dat je probeert een nieuw type buitenaards fruit te beschrijven met alleen woorden voor appels en sinaasappels. Dat kun je niet. De "fout" was zo groot dat de vertaler niet eens de vorm van het fruit kon vastleggen.
Het Resultaat: Het oorspronkelijke woordenboek was blind voor de nieuwe eigenschappen die de adapter creëerde.

2. Het Nieuwe Woordenboek Werkte Perfect

Toen ze het nieuwe woordenboek gebruikten (specifiek getraind op de bijbouw), beschreef het de gedachten perfect.

De Analogie: Ze realiseerden zich dat de bijbouw een iets ander dialect sprak. Zodra ze dat specifieke dialect hadden geleerd, had alles zin.
Het Resultaat: De adapter creëert zijn eigen unieke "eigenschapsruimte" die geometrisch onderscheiden is van het oorspronkelijke model.

3. De "Geest" Woont in een Andere Kamer

De onderzoekers maten de hoek tussen de gedachten van de oorspronkelijke bibliotheek en de gedachten van de adapter.

De Analogie: Als de gedachten van de oorspronkelijke bibliotheek naar het Noorden wezen, wezen de gedachten van de adapter bijna rechtstreeks naar het Westen (ongeveer 74 graden uit elkaar). Ze zijn niet slechts iets anders; ze opereren in een volledig andere richting.
Het Resultaat: Ongeacht hoe groot of klein de adapter was (door het veranderen van de "rang" of grootte van de bijbouw), bouwde het altijd deze aparte, onderscheiden kamer.

Waarom Dit Belangrijk Is (Volgens het Paper)

Het paper benadrukt een specifiek "monitoringgat" met betrekking tot veiligheid:

Het Blinde Vlekje: Als je een veiligheidsfilter traint op de oorspronkelijke bibliotheek (het basismodel) en vervolgens een veiligheidsadapter (LoRA) toevoegt, kijken de veiligheidstools misschien naar de verkeerde kaart. Ze controleren het "Noorden" van de oorspronkelijke bibliotheek, terwijl de adapter opereert in het "Westen".
Het Risico: Omdat de interne veranderingen van de adapter zo verschillend zijn van het basismodel, kunnen standaard veiligheidscontroles gevaarlijk gedrag missen dat de adapter introduceert. De adapter verbergt zich effectief in een kamer die de veiligheidsinspecteurs niet kunnen zien.

Samenvatting van Belangrijkste Bevindingen

LoRA is niet slechts een aanpassing; het is een nieuwe structuur. Het creëert eigenschappen die het woordenboek van het oorspronkelijke model niet kan zien.
Grootte verandert de richting niet. Of de adapter nu klein of groot is, het bouwt altijd deze aparte, onderscheiden "kamer".
We hebben nieuwe kaarten nodig. Om deze aangepaste modellen te begrijpen of te auditeren, kunnen we niet gewoon de tools gebruiken die zijn gebouwd voor het oorspronkelijke model. We moeten nieuwe tools bouwen (zoals de "Delta SAE") die specifiek kijken naar wat de adapter toevoegt.

Kortom: De adapter verlegt niet alleen de meubels in het oorspronkelijke huis; het bouwt een nieuwe, onzichtbare vleugel die een eigen unieke blauwdruk vereist om te begrijpen.

Technische Samenvatting: Feature-geometrie van LoRA-adapters

Probleemstelling

Hoewel Low-Rank Adaptation (LoRA) de dominante methode is voor het fijnafstemmen van Large Language Models (LLM's), blijven de interne representatieve veranderingen die het teweegbrengt slecht begrepen. Bestaande mechanistische interpretabiliteitsinstrumenten, met name Sparse Autoencoders (SAE's), zijn met succes toegepast op basismodellen en RLHF-gefine-tuneerde varianten om residual stream-activaties te ontleden in schaarse, monosemantische features. Deze instrumenten worden echter doorgaans toegepast op de volledige aangepaste modeloutput, waardoor basismodelrepresentaties worden verward met adapter-specifieke bijdragen.

Dit gebrek aan granulariteit creëert een kritieke kloof: als LoRA-adapters opereren in representatieve deelruimten die interpretabiliteitsinstrumenten van het basismodel niet kunnen "zien", kunnen veiligheidsaudits en uitlijningsanalyses van fijnafgestemde modellen systematisch onvolledig zijn. Bovendien blijven de mechanistische redenen waarom veiligheidsfijnafstemming eenvoudig kan worden ongedaan gemaakt door daaropvolgende adaptatie, op het feature-niveau onverkend.

Methodologie: Het Delta SAE-kader

Om de specifieke bijdrage van LoRA-adapters te isoleren, introduceren de auteurs een Delta-activatiekader. In plaats van de volledige aangepaste activatie ( $h_{adapted}$ ) te analyseren, richt de studie zich op de activatiedelta:
$h_\Delta = h_{adapted} - h_{base} = \frac{\alpha}{\sqrt{r}} BAx$
Deze delta vertegenwoordigt de exacte, mechanistisch schone bijdrage van de adapter, vrij van het signaal van het basismodel.

De experimentele pijplijn omvat:

Modelopstelling: Gebruik van Gemma-2-9B als basismodel. Vier LoRA-adapters werden getraind met rangen $r \in \{4, 8, 16, 32\}$ op het Alpaca-dataset (10.000 samples), waarbij alle andere hyperparameters vast werden gehouden om rang als variabele te isoleren.
Delta-extractie: Forward hooks vingen residual stream-activaties op zes doel-lagen (5, 10, 18, 22, 32, 38) voor zowel basis- als aangepaste modellen om $h_\Delta$ te berekenen.
Delta SAE-training: Toegewijde SAE's werden uitsluitend getraind op de genormaliseerde $h_\Delta$ -vectoren voor elk (rang, laag)-paar. Deze werden vergeleken met vooringestelde Gemma Scope SAE's (getraind op de residual stream van het basismodel).
Geometrische analyse: Drie complementaire maatstaven werden gebruikt om de uitlijning te evalueren tussen de door de adapter geïnduceerde features en de basismodelfeatures:
- Cosinus-similariteit: Maximale similariteit tussen delta SAE-decoderrichtingen en Gemma Scope-featuredirections.
- Primaire hoekanalyse: Hoeken tussen de 256-dimensionale deelruimten van de delta SAE en de Gemma Scope-decodermatrijzen.
- Gecentreerde Kernel-uitlijning (CKA): Het meten van representatieve similariteit tussen $h_{base}$ en $h_\Delta$ -activatiesets.

Belangrijkste resultaten

1. Falen van basis SAE's om adaptersignalen te reconstrueren

Wanneer Gemma Scope (basismodel) SAE's werden gebruikt om $h_\Delta$ te reconstrueren, overschreed de relatieve reconstructiefout 1,0 over alle lagen en rangen heen. Dit geeft aan dat de benaderingsfout van het basiswoordenboek groter is dan de signaalgrootte van de adapter zelf. De fout was het ernstigst in vroege lagen (Laag 5, $\epsilon \approx 2,3$ ) en verbeterde licht met diepte, maar bleef hoog.

2. Superieure prestaties van adapter-specifieke SAE's

SAE's die specifiek op $h_\Delta$ waren getraind, presteerden aanzienlijk beter dan de basis SAE's op data die niet in de training was gebruikt. Reconstructieverbeteringen varieerden van 46,3% tot 86,2%, wat aantoont dat LoRA-adapters echte, generaliseerbare structuren leren die niet worden vastgelegd door het feature-woordenboek van het basismodel.

3. Geometrische divergentie

Drie onafhankelijke analyses bevestigden dat LoRA-features een geometrisch onderscheiden deelruimte bezetten:

Cosinus-similariteit: De gemiddelde maximale cosinus-similariteit tussen delta-features en basisfeatures was ~0,071, nauwelijks boven de verwachte waarde voor willekeurige vectoren in 3.584 dimensies (~0). Slechts 0,01–0,02% van de delta-features toonde sterke uitlijning (>0,7) met basisfeatures.
Primaire hoeken: De gemiddelde primaire hoek tussen de deelruimten was ~74°, met 0% van de richtingen die uitlijning toonden (<20°). Ongeveer 66% van de deelruimte was bijna orthogonaal (>70°).
CKA: De CKA tussen $h_{base}$ en $h_\Delta$ was het laagst bij Laag 18 (de semantische verwerkingslaag), dalend tot ~0,05–0,08, wat maximale representatieve divergentie aangeeft waar semantische verwerking geconcentreerd is.

4. Rang- en diepteeffecten

Feature-dichtheid: Het aantal actieve features per token nam monotoon toe met zowel laagdiepte als LoRA-rang. Bijvoorbeeld, bij Laag 38 activeerde rang 4 ongeveer 30 features/token, terwijl rang 32 ongeveer 41 activeerde.
Geometrische stabiliteit: Ondanks veranderingen in dichtheid en capaciteit, bleef de fundamentele geometrische nieuwheid (gemeten door primaire hoeken en cosinus-similariteit) rang-invariant. Alle rangen produceerden representaties die geometrisch gescheiden waren van het basismodel.
Slecht uitgelijnde features: Meer dan 93% van de features die door $h_\Delta$ werden geactiveerd, waren "zwak uitgelijnd" (alleen actief op de delta, niet op de basis), een fractie die consistent bleef over alle rangen en lagen.

Betekenis en claims

Het artikel claimt de eerste systematische mechanistische analyse van LoRA-feature-geometrie te bieden. De primaire bijdrage is de identificatie van een "monitoringskloof": interpretabiliteitsinstrumenten die uitsluitend zijn getraind op basismodelactivaties zijn systematisch blind voor de representatieve bijdragen van LoRA-adapters.

De auteurs betogen dat:

Veiligheidsaudits onvolledig zijn: Als een organisatie een veiligheidsfijnafgestemd LoRA-model implementeert, kunnen standaard SAE-gebaseerde audits adapter-gecodeerde representaties missen omdat het basiswoordenboek het deltasignaal niet kan reconstrueren.
Mechanistische verklaring voor fragiliteit: De geometrische scheiding biedt een mechanistisch account voor waarom veiligheidsfijnafstemming eenvoudig kan worden ongedaan gemaakt; daaropvolgende fijnafstemming kan het model simpelweg verschuiven naar een onderscheiden deelruimte die de oorspronkelijke veiligheidsbeperkingen (gecodeerd in de basisgeometrie) niet effectief monitoren.
Methodologische oplossing: Het Delta SAE-kader wordt voorgesteld als een noodzakelijk hulpmiddel voor feature-niveau auditing van fijnafgestemde modellen, waardoor isolatie en analyse van adapter-specifieke bijdragen mogelijk worden.

De studie concludeert dat LoRA-adapters, hoewel ze de representatieve capaciteit (dichtheid) verhogen met hogere rangen, fundamenteel opereren in een onderscheiden geometrische deelruimte, wat nieuwe interpretabiliteitsbenaderingen vereist voor fijnafgestemde modellen.

Feature Geometry of LoRA Adapters: A Sparse Autoencoder Analysis of Representational Divergence in Fine-Tuned Language Models