El Panorama General: Una Nueva Habitación en una Casa Vieja

Imagina una biblioteca masiva e altamente inteligente (el Modelo Base) que ya sabe escribir, programar y razonar. Esta biblioteca tiene una forma específica de organizar sus libros y pensamientos, lo que los investigadores llaman su "geometría interna".

Ahora, imagina que quieres enseñar a esta biblioteca una nueva habilidad, como escribir en un estilo específico o seguir nuevas reglas de seguridad. En lugar de reconstruir toda la biblioteca, añades un pequeño anexo temporal a ella. Esto es LoRA (Adaptación de Bajo Rango). Es un "adaptador" ligero que se sitúa encima de la biblioteca original para ajustar su comportamiento sin cambiar los libros originales.

El Problema: Sabemos que el anexo cambia lo que la biblioteca dice, pero no sabemos realmente cómo cambia el pensamiento interno de la biblioteca. ¿El anexo simplemente reorganiza los libros existentes, o construye un ala completamente nueva e invisible que el mapa de la biblioteca original no muestra?

El Experimento: El Detective "Delta"

Los investigadores querían ver exactamente qué estaba haciendo este anexo (el adaptador LoRA) dentro del cerebro de la biblioteca.

La Foto "Antes y Después": Tomaron una instantánea de los pensamientos de la biblioteca antes de añadir el anexo ( $h_{base}$ ) y otra instantánea después de añadirlo ( $h_{adapted}$ ).
La "Diferencia" ( $h_\Delta$ ): Restaron la foto "antes" de la foto "después". El resultado, llamado Delta, es el "fantasma" puro del adaptador. Muestra solo lo que el nuevo anexo añadió, eliminando todo lo que la biblioteca original ya sabía.
El Traductor (Autoencoder Escaso): Para entender este "fantasma", utilizaron una herramienta especial llamada Autoencoder Escaso (SAE). Piensa en un SAE como un traductor que intenta describir pensamientos complejos usando un diccionario específico de conceptos simples y claros (como "felicidad", "matemáticas" o "peligro").

El Descubrimiento: Dos Idiomas Diferentes

Los investigadores entrenaron a su traductor en dos cosas diferentes:

Diccionario A: Los conceptos existentes de la biblioteca original (SAE Pre-entrenado).
Diccionario B: Un nuevo diccionario entrenado específicamente en el "fantasma" del anexo (SAE Delta).

Esto es lo que encontraron:

1. El Traductor Falló con el Diccionario Viejo

Cuando intentaron describir los pensamientos del anexo usando el diccionario de la biblioteca original, el traductor falló miserablemente.

La Analogía: Imagina intentar describir un nuevo tipo de fruta alienígena usando solo palabras para manzanas y naranjas. No puedes hacerlo. El "error" fue tan alto que el traductor ni siquiera pudo capturar la forma de la fruta.
El Resultado: El diccionario original era ciego a las nuevas características que el adaptador creó.

2. El Nuevo Diccionario Funcionó Perfectamente

Cuando usaron el nuevo diccionario (entrenado específicamente en el anexo), describió los pensamientos perfectamente.

La Analogía: Se dieron cuenta de que el anexo estaba hablando un dialecto ligeramente diferente. Una vez que aprendieron ese dialecto específico, todo tuvo sentido.
El Resultado: El adaptador crea su propio "espacio de características" único que es geométricamente distinto del modelo original.

3. El "Fantasma" Vive en una Habitación Diferente

Los investigadores midieron el ángulo entre los pensamientos de la biblioteca original y los pensamientos del adaptador.

La Analogía: Si los pensamientos de la biblioteca original apuntaban al Norte, los pensamientos del adaptador apuntaban casi directamente al Oeste (aproximadamente 74 grados de diferencia). No son solo ligeramente diferentes; están operando en una dirección completamente distinta.
El Resultado: No importa cuán grande o pequeño fuera el adaptador (cambiando el "rango" o tamaño del anexo), siempre construía esta habitación separada y distinta.

Por Qué Esto Importa (Según el Artículo)

El artículo destaca una "brecha de monitoreo" específica en cuanto a la seguridad:

El Punto Ciego: Si entrenas un filtro de seguridad en la biblioteca original (el modelo base) y luego adjuntas un adaptador de seguridad (LoRA), las herramientas de seguridad podrían estar mirando el mapa equivocado. Están revisando el "Norte" de la biblioteca original, mientras que el adaptador opera en el "Oeste".
El Riesgo: Debido a que los cambios internos del adaptador son tan diferentes del modelo base, las verificaciones de seguridad estándar podrían pasar por alto comportamientos peligrosos que introduce el adaptador. El adaptador se está escondiendo efectivamente en una habitación que los inspectores de seguridad no pueden ver.

Resumen de Hallazgos Clave

LoRA no es solo un ajuste; es una nueva estructura. Crea características que el diccionario del modelo original no puede ver.
El tamaño no cambia la dirección. Ya sea que el adaptador sea pequeño o grande, siempre construye esta "habitación" separada y distinta.
Necesitamos nuevos mapas. Para entender o auditar estos modelos adaptados, no podemos simplemente usar las herramientas construidas para el modelo original. Necesitamos construir nuevas herramientas (como el "SAE Delta") que observen específicamente lo que añade el adaptador.

En resumen: El adaptador no solo reorganiza los muebles en la casa original; construye un ala nueva e invisible que requiere su propio plano único para ser entendida.

Resumen Técnico: Geometría de Características de los Adaptadores LoRA

Declaración del Problema

Si bien la Adaptación de Bajo Rango (LoRA) es el método dominante para el ajuste fino de Modelos de Lenguaje Grande (LLM), los cambios representacionales internos que induce permanecen poco comprendidos. Las herramientas existentes de interpretabilidad mecánica, específicamente los Autoencoders Dispersos (SAE), se han aplicado con éxito a modelos base y variantes ajustadas mediante RLHF para descomponer las activaciones del flujo residual en características dispersas y monosémicas. Sin embargo, estas herramientas se aplican típicamente a la salida completa del modelo adaptado, confundiendo las representaciones del modelo base con las contribuciones específicas del adaptador.

Esta falta de granularidad crea una brecha crítica: si los adaptadores LoRA operan en subespacios representacionales que las herramientas de interpretabilidad del modelo base no pueden "ver", las auditorías de seguridad y los análisis de alineación de modelos ajustados finamente pueden ser sistemáticamente incompletos. Además, las razones mecánicas por las que el ajuste fino de seguridad puede ser fácilmente revertido por una adaptación posterior permanecen inexploradas a nivel de características.

Metodología: El Marco Delta SAE

Para aislar la contribución específica de los adaptadores LoRA, los autores introducen un Marco de Activación Delta. En lugar de analizar la activación adaptada completa ( $h_{adapted}$ ), el estudio se centra en la delta de activación:
$h_\Delta = h_{adapted} - h_{base} = \frac{\alpha}{\sqrt{r}} BAx$
Esta delta representa la contribución exacta y mecánicamente limpia del adaptador, libre de la señal del modelo base.

El pipeline experimental implica:

Configuración del Modelo: Uso de Gemma-2-9B como modelo base. Se entrenaron cuatro adaptadores LoRA con rangos $r \in \{4, 8, 16, 32\}$ sobre el conjunto de datos Alpaca (10,000 muestras), manteniendo fijos todos los demás hiperparámetros para aislar el rango como variable.
Extracción de Delta: Los ganchos hacia adelante capturaron activaciones del flujo residual en seis capas objetivo (5, 10, 18, 22, 32, 38) tanto para modelos base como adaptados para calcular $h_\Delta$ .
Entrenamiento de Delta SAE: Se entrenaron SAEs dedicados exclusivamente sobre los vectores $h_\Delta$ normalizados para cada par (rango, capa). Estos se compararon con los SAE Gemma Scope preentrenados (entrenados sobre el flujo residual del modelo base).
Análisis Geométrico: Se utilizaron tres medidas complementarias para evaluar la alineación entre las características inducidas por el adaptador y las características del modelo base:
- Similitud Coseno: Similitud máxima entre las direcciones de decodificación del delta SAE y las direcciones de las características de Gemma Scope.
- Análisis de Ángulos Principales: Ángulos entre los subespacios de 256 dimensiones superiores de las matrices de decodificación del delta SAE y Gemma Scope.
- Alineación de Kernel Centrado (CKA): Medición de la similitud representacional entre los conjuntos de activaciones $h_{base}$ y $h_\Delta$ .

Resultados Clave

1. Fallo de los SAE Base para Reconstruir Señales de Adaptador

Cuando se utilizaron los SAE de Gemma Scope (modelo base) para reconstruir $h_\Delta$ , el error de reconstrucción relativo superó 1.0 en todas las capas y rangos. Esto indica que el error de aproximación del diccionario base es mayor que la magnitud de la señal del propio adaptador. El error fue más severo en las capas tempranas (Capa 5, $\epsilon \approx 2.3$ ) y mejoró ligeramente con la profundidad, pero se mantuvo alto.

2. Superioridad de los SAE Específicos del Adaptador

Los SAE entrenados específicamente sobre $h_\Delta$ superaron significativamente a los SAE base en datos de prueba. Las mejoras en la reconstrucción oscilaron entre 46.3% y 86.2%, demostrando que los adaptadores LoRA aprenden estructuras genuinas y generalizables que no son capturadas por el diccionario de características del modelo base.

3. Divergencia Geométrica

Tres análisis independientes confirmaron que las características de LoRA ocupan un subespacio geométricamente distinto:

Similitud Coseno: La similitud coseno máxima media entre las características delta y las características base fue de ~0.071, apenas por encima del valor esperado para vectores aleatorios en 3,584 dimensiones (~0). Solo el 0.01–0.02% de las características delta mostraron una fuerte alineación (>0.7) con las características base.
Ángulos Principales: El ángulo principal medio entre los subespacios fue de ~74°, con 0% de direcciones mostrando alineación (<20°). Aproximadamente el 66% del subespacio fue casi ortogonal (>70°).
CKA: El CKA entre $h_{base}$ y $h_\Delta$ fue más bajo en la Capa 18 (la capa de procesamiento semántico), cayendo a ~0.05–0.08, lo que indica una divergencia representacional máxima donde se concentra el procesamiento semántico.

4. Efectos de Rango y Profundidad

Densidad de Características: El número de características activas por token aumentó monótonamente tanto con la profundidad de la capa como con el rango de LoRA. Por ejemplo, en la Capa 38, el rango 4 activó ~30 características/token, mientras que el rango 32 activó ~41.
Estabilidad Geométrica: A pesar de los cambios en densidad y capacidad, la novedad geométrica fundamental (medida por ángulos principales y similitud coseno) permaneció invariante al rango. Todos los rangos produjeron representaciones que estaban geométricamente separadas del modelo base.
Características Débilmente Alineadas: Más del 93% de las características activadas por $h_\Delta$ fueron "débilmente alineadas" (activas solo en la delta, no en la base), una fracción que se mantuvo consistente en todos los rangos y capas.

Significado y Afirmaciones

El artículo afirma proporcionar el primer análisis mecánico sistemático de la geometría de características de LoRA. La contribución principal es la identificación de una "brecha de monitoreo": las herramientas de interpretabilidad entrenadas únicamente sobre activaciones del modelo base son sistemáticamente ciegas a las contribuciones representacionales de los adaptadores LoRA.

Los autores argumentan que:

Las Auditorías de Seguridad son Incompletas: Si una organización despliega un modelo LoRA ajustado finamente para seguridad, las auditorías estándar basadas en SAE pueden fallar al detectar representaciones codificadas por el adaptador porque el diccionario base no puede reconstruir la señal delta.
Explicación Mecánica de la Fragilidad: La separación geométrica ofrece un relato mecánico de por qué el ajuste fino de seguridad puede ser revertido fácilmente; un ajuste fino posterior puede simplemente desplazar el modelo a un subespacio distinto que las restricciones de seguridad originales (codificadas en la geometría base) no monitorean efectivamente.
Solución Metodológica: Se propone el Marco Delta SAE como una herramienta necesaria para la auditoría a nivel de características de modelos ajustados finamente, permitiendo el aislamiento y análisis de contribuciones específicas del adaptador.

El estudio concluye que, si bien los adaptadores LoRA aumentan la capacidad representacional (densidad) con rangos más altos, operan fundamentalmente en un subespacio geométrico distinto, lo que requiere nuevos enfoques de interpretabilidad para modelos ajustados finamente.

Feature Geometry of LoRA Adapters: A Sparse Autoencoder Analysis of Representational Divergence in Fine-Tuned Language Models