On the Non-Identifiability of Steering Vectors in Large Language Models

Each language version is independently generated for its own context, not a direct translation.

Imagina que tienes un robot muy inteligente (un Modelo de Lenguaje Grande o LLM) y quieres enseñarle a hablar de una manera específica, por ejemplo, que sea siempre muy formal o que siempre sea gracioso.

Para lograr esto, los investigadores han desarrollado una técnica llamada "Dirección de Timón" (Steering). La idea es como si le dieras al robot un pequeño "empujón" matemático en su cerebro (en sus capas internas) para que cambie su comportamiento. Hasta ahora, la comunidad científica creía que ese "empujón" era único y especial: que existía una sola dirección exacta en el cerebro del robot que significaba "ser formal" y que, si encontrabas esa dirección, habías descubierto el secreto de la personalidad del robot.

El descubrimiento de este paper es un golpe de realidad:

Los autores demuestran que no existe una única dirección secreta. De hecho, hay infinitas direcciones diferentes que producen exactamente el mismo resultado.

La Analogía del "Cohete y el Viento"

Imagina que el cerebro del robot es un cohete que viaja por el espacio.

El objetivo: Quieres que el cohete vaya hacia el norte (hacia la "formalidad").
La técnica: Aplicas un empujón (el vector de timón) para cambiar su rumbo.

Los investigadores dicen: "Pensábamos que solo había una forma de empujar el cohete para que fuera al norte. Pero resulta que puedes empujarlo hacia el norte, o puedes empujarlo hacia el norte y al mismo tiempo darle un pequeño empujón hacia el este o hacia el oeste, siempre y cuando ese empujón lateral no afecte la brújula".

En el lenguaje de los matemáticos, esto se llama el "Espacio Nulo". Es como si hubiera un viento lateral que sopla, pero el cohete es tan grande y su sistema de navegación es tan específico que ese viento lateral no se nota en el destino final.

¿Qué significa esto en la vida real?

Ilusión de Control: Cuando los investigadores dicen "¡Encontramos el vector de la verdad!", en realidad podrían haber encontrado una de las infinitas direcciones que parecen funcionar. No están tocando la "esencia" de la verdad, sino simplemente un atajo que funciona por casualidad geométrica.
El Experimento: Para probar esto, los autores tomaron un vector que funcionaba bien (el "vector original") y le añadieron un poco de "ruido" aleatorio en una dirección que no debería importar (una dirección perpendicular).
- Resultado: ¡El robot siguió comportándose exactamente igual! El "ruido" no cambió nada.
- Conclusión: Si puedes cambiar la dirección interna del robot casi a tu antojo sin que cambie lo que dice, entonces esa dirección interna no es única ni identificable.

¿Por qué es importante?

Imagina que eres un cirujano y operas un cerebro para curar una enfermedad. Si descubres que hay mil formas diferentes de cortar el tejido para que el paciente se cure, pero no sabes cuál es la "correcta" desde el punto de vista médico, tu operación es un éxito clínico, pero un fracaso científico. No entiendes por qué funcionó.

Este paper nos dice que, con la inteligencia artificial actual:

Podemos controlar el comportamiento (el robot será formal), pero...
No podemos estar seguros de que estamos entendiendo realmente cómo piensa el robot.
Las "direcciones" que encontramos podrían ser solo coincidencias geométricas, no conceptos reales como "honestidad" o "graciedad".

En resumen

El paper nos dice que la geometría de los cerebros de las IAs es tan compleja y redundante que hay infinitas formas de lograr el mismo efecto.

Es como si tuvieras un mapa de una ciudad donde hay mil caminos diferentes para llegar al centro. Si alguien te dice: "He encontrado el camino perfecto", tú deberías responder: "Bueno, hay mil caminos que llegan al mismo lugar, así que no estás descubriendo un secreto, solo estás eligiendo uno de los muchos caminos posibles".

La lección final: Para entender realmente a la IA, no basta con ver qué dice (el comportamiento). Necesitamos reglas más estrictas y nuevas formas de mirar dentro del "cerebro" para saber qué es lo que realmente está pasando, porque lo que vemos desde fuera puede ser engañoso.

Each language version is independently generated for its own context, not a direct translation.

Resumen Técnico: No Identificabilidad de los Vectores de Dirección en LLMs

1. El Problema

Los métodos de dirección de activación (activation steering) se utilizan ampliamente para controlar el comportamiento de los Modelos de Lenguaje Grandes (LLM) añadiendo vectores direccionales aprendidos a las activaciones intermedias. La interpretación común asume que estos vectores de dirección corresponden a factores latentes significativos y únicos (identificables) que representan conceptos semánticos (como "formalidad", "politeza" o "humor").

El problema central abordado en este trabajo es que esta suposición de identificabilidad única carece de fundamentos teóricos sólidos. Los autores plantean la pregunta: ¿Son los vectores de dirección realmente recuperables de manera única a partir del comportamiento entrada-salida, o existen infinitas direcciones geométricamente distintas que producen el mismo comportamiento observable?

2. Metodología

El estudio combina un análisis teórico formal con validación empírica rigurosa.

Marco Teórico (Identificabilidad):
- Se modela el proceso de dirección como un problema de identificación de variables latentes bajo un régimen de acceso de "caja blanca" a una sola capa (Regímen 2).
- Se utiliza una aproximación lineal local de la función del modelo. Se demuestra que la salida modificada depende del producto del Jacobiano de la salida respecto a la activación ( $J_\ell$ ) y el vector de dirección ( $v$ ).
- Se aplica el Teorema de la Dimensión del Núcleo (Rank-Nullity): Dado que la dimensión de la representación oculta ( $d$ ) es mayor que la dimensión efectiva de la salida o el rango del Jacobiano, existe un espacio nulo (null space) no trivial ( $\ker(J_\ell)$ ).
- Hipótesis Central: Cualquier vector $v' = v + v_0$ , donde $v_0$ pertenece al espacio nulo del Jacobiano, producirá una salida idéntica a $v$ , ya que $J_\ell v_0 = 0$ .
Validación Empírica:
- Modelos: Se evaluaron dos modelos de instrucciones de código abierto: Qwen2.5-3B-Instruct y Llama-3.1-8B-Instruct.
- Rasgos Semánticos: Se probaron tres dimensiones: Formalidad, Politeza y Humor.
- Procedimiento de Prueba:
  1. Se extrajo un vector de dirección base ( $v$ ) utilizando pares de prompts contrastivos.
  2. Se generaron vectores perturbados aleatoriamente ortogonales ( $v_\perp$ ) y se construyeron vectores compuestos $v' = v + v_\perp$ .
  3. Se comparó el comportamiento de $v$ y $v'$ en prompts de prueba no vistos, midiendo la equivalencia semántica mediante puntuaciones específicas y el tamaño del efecto (Cohen's $d$ ).
  4. Se realizaron pruebas de invarianza de escala (variando la fuerza de dirección $\alpha$ ) y robustez ante cambios de distribución (cambios de tema, género y estilo de seguridad).

3. Contribuciones Clave

El artículo presenta tres contribuciones fundamentales:

Análisis Formal de No Identificabilidad: Se demuestra matemáticamente que, bajo acceso de caja blanca a una sola capa y sin restricciones estructurales adicionales, los vectores de dirección son fundamentalmente no identificables. Existen infinitas direcciones geométricamente distintas que inducen un comportamiento observable idéntico debido a la ambigüedad del espacio nulo.
Evidencia Empírica de Equivalencia: Se demuestra que las perturbaciones ortogonales (componentes que no deberían afectar la dirección semántica) logran una eficacia de dirección casi idéntica (95-100%) en comparación con los vectores extraídos. Esto confirma que los vectores extraídos contienen componentes no identificables sustanciales.
Robustez Geométrica: Se valida que esta no identificabilidad es una propiedad geométrica robusta que persiste a través de diferentes distribuciones de prompts (cambio de distribución), modelos y capas, indicando que no es un artefacto de la diversidad limitada de los datos de entrenamiento.

4. Resultados Principales

Equivalencia Observacional: En todos los modelos y rasgos probados, la diferencia entre usar el vector original $v$ $v$ y el vector perturbado $v + v_\perp$ $v + v_{⊥}$ fue negligible.
- El tamaño del efecto (Cohen's $d$ ) fue consistentemente menor a 0.2 (rango de efecto insignificante), con promedios de 0.080 para Qwen y 0.100 para Llama.
- Las correlaciones entre las puntuaciones semánticas fueron altas, indicando que el comportamiento es indistinguible.
Eficacia de Componentes Puros: Sorprendentemente, los componentes puramente ortogonales ( $v_\perp$ ) por sí solos lograron casi el mismo impacto conductual que el vector original extraído, sugiriendo que la dirección "significativa" no es única.
Invarianza de Escala: La equivalencia se mantuvo constante a través de diferentes intensidades de dirección ( $\alpha = 0.0, 0.5, 1.0, 2.0$ ), confirmando que la no identificabilidad es estructural y no dependiente de la magnitud de la intervención.
Análisis a Nivel de Logits: Un análisis adicional a nivel de logits (Appendix A) mostró que las perturbaciones ortogonales inducen desviaciones menores en los logits que las direcciones aleatorias, preservando la distribución de salida de manera más fiel, lo que respalda la hipótesis de clases de equivalencia de alta dimensión.

5. Significado e Implicaciones

Límites de la Interpretabilidad: Los hallazgos revelan un límite fundamental en la interpretabilidad causal basada únicamente en intervenciones de activación. El hecho de que un vector controle un comportamiento no implica que represente un factor latente único o canónico.
Advertencia sobre Intervenciones de Alineación: Los métodos de alineación que optimizan para el control conductual pueden estar explotando una de muchas direcciones equivalentes en lugar de un factor causal real. Esto plantea riesgos de fragilidad ante cambios de distribución o ataques adversarios.
Necesidad de Restricciones Estructurales: Para lograr una recuperación fiable de representaciones identificables, es necesario imponer restricciones estructurales adicionales (como independencia estadística, regularización de dispersidad o objetivos de invarianza) que rompan las simetrías geométricas del modelo.
Cambio de Paradigma: El trabajo sugiere que las afirmaciones sobre la "representación" de conceptos en LLMs deben ir más allá de la equivalencia entrada-salida y requerir validación estructural más profunda.

En conclusión, el artículo establece que la no identificabilidad es una propiedad inherente a la geometría de los LLMs bajo intervenciones lineales, desafiando la noción de que los vectores de dirección extraídos son representaciones únicas y estables de conceptos semánticos.

On the Non-Identifiability of Steering Vectors in Large Language Models

La Analogía del "Cohete y el Viento"

¿Qué significa esto en la vida real?

¿Por qué es importante?

En resumen

Resumen Técnico: No Identificabilidad de los Vectores de Dirección en LLMs

1. El Problema

2. Metodología

3. Contribuciones Clave

4. Resultados Principales

5. Significado e Implicaciones

Más como este

Conversational Successes and Breakdowns in Everyday Smart Glasses Use

EmbodMocap: In-the-Wild 4D Human-Scene Reconstruction for Embodied Agents

GVGS: Gaussian Visibility-Aware Multi-View Geometry for Accurate Surface Reconstruction

PyEncode: An Open-Source Library for Structured Quantum State Preparation

DOne: Decoupling Structure and Rendering for High-Fidelity Design-to-Code Generation