Das große Ganze: Ein neuer Raum in einem alten Haus

Stellen Sie sich eine riesige, hochintelligente Bibliothek (das Basis-Modell) vor, die bereits weiß, wie man schreibt, programmiert und logisch denkt. Diese Bibliothek hat eine bestimmte Art, ihre Bücher und Gedanken zu organisieren, die Forscher als ihre „innere Geometrie" bezeichnen.

Stellen Sie sich nun vor, Sie möchten dieser Bibliothek eine neue Fähigkeit beibringen, wie zum Beispiel das Schreiben in einem bestimmten Stil oder das Befolgen neuer Sicherheitsregeln. Anstatt die gesamte Bibliothek neu zu bauen, fügen Sie einen kleinen, temporären Anbau hinzu. Dies ist LoRA (Low-Rank Adaptation). Es ist ein leichtgewichtiges „Adapter"-Modul, das auf der ursprünglichen Bibliothek sitzt, um ihr Verhalten anzupassen, ohne die ursprünglichen Bücher zu verändern.

Das Problem: Wir wissen, dass der Anbau verändert, was die Bibliothek sagt, aber wir wissen nicht wirklich, wie er das innere Denken der Bibliothek verändert. Ordnet der Anbau einfach nur die bestehenden Bücher neu an, oder baut er einen völlig neuen, unsichtbaren Flügel, den die Karte der ursprünglichen Bibliothek nicht zeigt?

Das Experiment: Der „Delta"-Detektiv

Die Forscher wollten genau herausfinden, was dieser Anbau (der LoRA-Adapter) im Gehirn der Bibliothek tut.

Das „Vorher-Nachher"-Foto: Sie machten einen Schnappschuss der Gedanken der Bibliothek vor dem Hinzufügen des Anbaus ( $h_{base}$ ) und einen weiteren Schnappschuss nach dem Hinzufügen ( $h_{adapted}$ ).
Der „Unterschied" ( $h_\Delta$ ): Sie subtrahierten das „Vorher"-Foto vom „Nachher"-Foto. Das Ergebnis, genannt Delta, ist der reine „Geist" des Adapters. Es zeigt nur, was der neue Anbau hinzugefügt hat, und entfernt alles, was die ursprüngliche Bibliothek bereits wusste.
Der Übersetzer (Sparse Autoencoder): Um diesen „Geist" zu verstehen, verwendeten sie ein spezielles Werkzeug namens Sparse Autoencoder (SAE). Stellen Sie sich einen SAE als Übersetzer vor, der versucht, komplexe Gedanken mit einem spezifischen Wörterbuch einfacher, klarer Konzepte zu beschreiben (wie „Glück", „Mathematik" oder „Gefahr").

Die Entdeckung: Zwei verschiedene Sprachen

Die Forscher trainierten ihren Übersetzer auf zwei verschiedenen Dingen:

Wörterbuch A: Die bestehenden Konzepte der ursprünglichen Bibliothek (Pre-trained SAE).
Wörterbuch B: Ein neues Wörterbuch, das speziell auf den „Geist" des Anbaus trainiert wurde (Delta SAE).

Hier ist, was sie herausfanden:

1. Der Übersetzer scheiterte mit dem alten Wörterbuch

Als sie versuchten, die Gedanken des Anbaus mit dem Wörterbuch der ursprünglichen Bibliothek zu beschreiben, scheiterte der Übersetzer kläglich.

Die Analogie: Stellen Sie sich vor, Sie versuchen, eine neue Art von Alien-Frucht nur mit Wörtern für Äpfel und Orangen zu beschreiben. Das geht nicht. Der „Fehler" war so groß, dass der Übersetzer nicht einmal die Form der Frucht erfassen konnte.
Das Ergebnis: Das ursprüngliche Wörterbuch war blind für die neuen Merkmale, die der Adapter schuf.

2. Das neue Wörterbuch funktionierte perfekt

Als sie das neue Wörterbuch verwendeten (das speziell auf den Anbau trainiert wurde), beschrieb es die Gedanken perfekt.

Die Analogie: Sie erkannten, dass der Anbau einen leicht anderen Dialekt sprach. Sobald sie diesen spezifischen Dialekt gelernt hatten, ergab alles Sinn.
Das Ergebnis: Der Adapter erstellt seinen eigenen einzigartigen „Merkmalsraum", der geometrisch vom ursprünglichen Modell unterscheidbar ist.

3. Der „Geist" lebt in einem anderen Raum

Die Forscher maßen den Winkel zwischen den Gedanken der ursprünglichen Bibliothek und den Gedanken des Adapters.

Die Analogie: Wenn die Gedanken der ursprünglichen Bibliothek nach Norden zeigten, zeigten die Gedanken des Adapters fast direkt nach Westen (etwa 74 Grad auseinander). Sie sind nicht nur leicht unterschiedlich; sie operieren in eine völlig andere Richtung.
Das Ergebnis: Egal wie groß oder klein der Adapter war (durch Änderung des „Rangs" oder der Größe des Anbaus), er baute immer diesen separaten, distincten Raum.

Warum das wichtig ist (laut dem Papier)

Das Papier hebt eine spezifische „Überwachungslücke" in Bezug auf Sicherheit hervor:

Der blinde Fleck: Wenn Sie einen Sicherheitsfilter auf der ursprünglichen Bibliothek (dem Basis-Modell) trainieren und dann einen Sicherheits-Adapter (LoRA) anhängen, schauen die Sicherheitstools möglicherweise auf die falsche Karte. Sie überprüfen den „Norden" der ursprünglichen Bibliothek, während der Adapter im „Westen" operiert.
Das Risiko: Da die internen Änderungen des Adapters so unterschiedlich vom Basis-Modell sind, könnten Standard-Sicherheitsprüfungen gefährliche Verhaltensweisen übersehen, die der Adapter einführt. Der Adapter versteckt sich effektiv in einem Raum, den Sicherheitsinspektoren nicht sehen können.

Zusammenfassung der wichtigsten Erkenntnisse

LoRA ist nicht nur eine Anpassung; es ist eine neue Struktur. Es erstellt Merkmale, die das Wörterbuch des ursprünglichen Modells nicht sehen kann.
Die Größe ändert nicht die Richtung. Egal ob der Adapter klein oder groß ist, er baut immer diesen separaten, distincten „Raum".
Wir brauchen neue Karten. Um diese angepassten Modelle zu verstehen oder zu prüfen, können wir nicht einfach die Werkzeuge verwenden, die für das ursprüngliche Modell gebaut wurden. Wir müssen neue Werkzeuge (wie den „Delta SAE") bauen, die speziell darauf achten, was der Adapter hinzufügt.

Kurz gesagt: Der Adapter stellt nicht nur die Möbel im ursprünglichen Haus neu auf; er baut einen neuen, unsichtbaren Flügel, der einen eigenen, einzigartigen Bauplan erfordert, um verstanden zu werden.

Technische Zusammenfassung: Merkmalsgeometrie von LoRA-Adaptern

Problemstellung

Während die Low-Rank Adaptation (LoRA) die vorherrschende Methode zum Feinabstimmen von Large Language Models (LLMs) ist, bleiben die von ihr verursachten internen repräsentationalen Veränderungen schlecht verstanden. Bestehende Werkzeuge zur mechanistischen Interpretierbarkeit, insbesondere Sparse Autoencoder (SAEs), wurden erfolgreich auf Basismodelle und RLHF-feinabgestimmte Varianten angewendet, um Aktivierungen des Residualstroms in sparse, monosemantische Merkmale zu zerlegen. Diese Werkzeuge werden jedoch typischerweise auf die vollständige Ausgabe des adaptierten Modells angewendet, wodurch Basismodell-Repräsentationen mit adapter-spezifischen Beiträgen vermischt werden.

Dieser Mangel an Granularität schafft eine kritische Lücke: Wenn LoRA-Adapter in repräsentationalen Unterräumen operieren, die Interpretierbarkeitswerkzeuge des Basismodells nicht „sehen" können, sind Sicherheitsaudits und Ausrichtungsanalysen feinabgestimmter Modelle systematisch unvollständig. Darüber hinaus bleiben die mechanistischen Gründe, warum Sicherheitsfeinabstimmung durch nachfolgende Anpassung leicht rückgängig gemacht werden kann, auf Merkmalsebene unerforscht.

Methodik: Das Delta-SAE-Framework

Um den spezifischen Beitrag von LoRA-Adaptern zu isolieren, führen die Autoren ein Delta-Aktivierungs-Framework ein. Anstatt die vollständige adaptierte Aktivierung ( $h_{adapted}$ ) zu analysieren, konzentriert sich die Studie auf die Aktivierungsdifferenz:
$h_\Delta = h_{adapted} - h_{base} = \frac{\alpha}{\sqrt{r}} BAx$
Diese Differenz stellt den exakten, mechanistisch sauberen Beitrag des Adapters dar, frei vom Signal des Basismodells.

Die experimentelle Pipeline umfasst:

Modell-Setup: Verwendung von Gemma-2-9B als Basismodell. Vier LoRA-Adapter wurden mit Rängen $r \in \{4, 8, 16, 32\}$ auf dem Alpaca-Datensatz (10.000 Stichproben) trainiert, wobei alle anderen Hyperparameter fixiert wurden, um den Rang als Variable zu isolieren.
Delta-Extraktion: Forward-Hooks fingen Aktivierungen des Residualstroms an sechs Ziel-Schichten (5, 10, 18, 22, 32, 38) sowohl für das Basis- als auch für das adaptierte Modell ein, um $h_\Delta$ zu berechnen.
Delta-SAE-Training: Dedizierte SAEs wurden ausschließlich auf den normalisierten $h_\Delta$ -Vektoren für jedes (Rang, Schicht)-Paar trainiert. Diese wurden mit vortrainierten Gemma Scope-SAEs verglichen (trainiert auf dem Residualstrom des Basismodells).
Geometrische Analyse: Drei komplementäre Maße wurden verwendet, um die Ausrichtung zwischen den durch den Adapter induzierten Merkmalen und den Basismodell-Merkmalen zu bewerten:
- Kosinus-Ähnlichkeit: Maximale Ähnlichkeit zwischen Delta-SAE-Decoderrichtungen und Gemma Scope-Merkmalsrichtungen.
- Hauptwinkel-Analyse: Winkel zwischen den top-256-dimensionalen Unterräumen der Delta-SAE- und Gemma Scope-Decodermatrizen.
- Centered Kernel Alignment (CKA): Messung der repräsentationalen Ähnlichkeit zwischen den Aktivierungssätzen $h_{base}$ und $h_\Delta$ .

Wichtige Ergebnisse

1. Versagen von Basis-SAEs bei der Rekonstruktion von Adapter-Signalen

Wenn Gemma Scope (Basismodell)-SAEs zur Rekonstruktion von $h_\Delta$ verwendet wurden, überstieg der relative Rekonstruktionsfehler 1,0 über alle Schichten und Ränge hinweg. Dies zeigt, dass der Approximationsfehler des Basiswörterbuchs größer ist als die Signalstärke des Adapters selbst. Der Fehler war in frühen Schichten am schwerwiegendsten (Schicht 5, $\epsilon \approx 2,3$ ) und verbesserte sich mit der Tiefe leicht, blieb jedoch hoch.

2. Überlegenheit adapter-spezifischer SAEs

SAEs, die speziell auf $h_\Delta$ trainiert wurden, schnitten auf zurückgehaltenen Daten deutlich besser ab als die Basis-SAEs. Die Verbesserungen der Rekonstruktion reichten von 46,3 % bis 86,2 %, was zeigt, dass LoRA-Adapter genuine, generalisierbare Strukturen lernen, die vom Merkmalswörterbuch des Basismodells nicht erfasst werden.

3. Geometrische Divergenz

Drei unabhängige Analysen bestätigten, dass LoRA-Merkmale einen geometrisch distinkten Unterraum besetzen:

Kosinus-Ähnlichkeit: Die mittlere maximale Kosinus-Ähnlichkeit zwischen Delta-Merkmalen und Basismerkmalen betrug ~0,071, kaum über dem erwarteten Wert für zufällige Vektoren in 3.584 Dimensionen (~0). Nur 0,01–0,02 % der Delta-Merkmale zeigten eine starke Ausrichtung (>0,7) mit Basismerkmalen.
Hauptwinkel: Der mittlere Hauptwinkel zwischen den Unterräumen betrug ~74°, wobei 0 % der Richtungen eine Ausrichtung (<20°) zeigten. Ungefähr 66 % des Unterraums waren nahezu orthogonal (>70°).
CKA: Das CKA zwischen $h_{base}$ und $h_\Delta$ war in Schicht 18 (der semantischen Verarbeitungsschicht) am niedrigsten und sank auf ~0,05–0,08, was eine maximale repräsentationale Divergenz anzeigt, wo die semantische Verarbeitung konzentriert ist.

4. Rang- und Tiefeneffekte

Merkmalsdichte: Die Anzahl der aktiven Merkmale pro Token nahm sowohl mit der Schichttiefe als auch mit dem LoRA-Rang monoton zu. Beispielsweise aktivierte Rang 4 in Schicht 38 etwa 30 Merkmale/Token, während Rang 32 etwa 41 aktivierte.
Geometrische Stabilität: Trotz Änderungen in Dichte und Kapazität blieb die fundamentale geometrische Neuheit (gemessen durch Hauptwinkel und Kosinus-Ähnlichkeit) ranginvariant. Alle Ränge erzeugten Repräsentationen, die geometrisch vom Basismodell getrennt waren.
Schwach ausgerichtete Merkmale: Über 93 % der durch $h_\Delta$ aktivierten Merkmale waren „schwach ausgerichtet" (nur auf der Differenz aktiv, nicht auf dem Basismodell), ein Anteil, der über alle Ränge und Schichten hinweg konsistent blieb.

Bedeutung und Behauptungen

Die Arbeit behauptet, die erste systematische mechanistische Analyse der LoRA-Merkmalsgeometrie zu liefern. Der Hauptbeitrag ist die Identifizierung einer „Überwachungslücke": Interpretierbarkeitswerkzeuge, die ausschließlich auf Basismodell-Aktivierungen trainiert wurden, sind für die repräsentationalen Beiträge von LoRA-Adaptern systematisch blind.

Die Autoren argumentieren, dass:

Sicherheitsaudits unvollständig sind: Wenn eine Organisation ein sicherheitsfeinabgestimmtes LoRA-Modell bereitstellt, können standardmäßige SAE-basierte Audits adapter-kodierte Repräsentationen nicht erkennen, da das Basiswörterbuch das Differenzsignal nicht rekonstruieren kann.
Mechanistische Erklärung für Fragilität: Die geometrische Trennung bietet eine mechanistische Erklärung dafür, warum Sicherheitsfeinabstimmung leicht rückgängig gemacht werden kann; nachfolgende Feinabstimmung kann das Modell einfach in einen distinkten Unterraum verschieben, den die ursprünglichen Sicherheitsbeschränkungen (kodiert in der Basisgeometrie) nicht effektiv überwachen.
Methodische Lösung: Das Delta-SAE-Framework wird als notwendiges Werkzeug für das Feature-Level-Auditing feinabgestimmter Modelle vorgeschlagen, das die Isolierung und Analyse adapter-spezifischer Beiträge ermöglicht.

Die Studie kommt zu dem Schluss, dass LoRA-Adapter zwar mit höheren Rängen die repräsentationale Kapazität (Dichte) erhöhen, aber fundamental in einem distinkten geometrischen Unterraum operieren, was neue Interpretierbarkeitsansätze für feinabgestimmte Modelle erforderlich macht.

Feature Geometry of LoRA Adapters: A Sparse Autoencoder Analysis of Representational Divergence in Fine-Tuned Language Models