On the Non-Identifiability of Steering Vectors in Large Language Models

El artículo demuestra que los vectores de dirección en los grandes modelos de lenguaje son fundamentalmente no identificables, ya que existen múltiples intervenciones geométricamente distintas pero comportamentalmente indistinguibles que logran efectos similares, lo que impone límites fundamentales a la interpretabilidad y el control de estos modelos.

Sohan Venkatesh, Ashish Mahendran Kurapath

Publicado 2026-03-06
📖 4 min de lectura☕ Lectura para el café

Each language version is independently generated for its own context, not a direct translation.

Imagina que tienes un robot muy inteligente (un Modelo de Lenguaje Grande o LLM) y quieres enseñarle a hablar de una manera específica, por ejemplo, que sea siempre muy formal o que siempre sea gracioso.

Para lograr esto, los investigadores han desarrollado una técnica llamada "Dirección de Timón" (Steering). La idea es como si le dieras al robot un pequeño "empujón" matemático en su cerebro (en sus capas internas) para que cambie su comportamiento. Hasta ahora, la comunidad científica creía que ese "empujón" era único y especial: que existía una sola dirección exacta en el cerebro del robot que significaba "ser formal" y que, si encontrabas esa dirección, habías descubierto el secreto de la personalidad del robot.

El descubrimiento de este paper es un golpe de realidad:

Los autores demuestran que no existe una única dirección secreta. De hecho, hay infinitas direcciones diferentes que producen exactamente el mismo resultado.

La Analogía del "Cohete y el Viento"

Imagina que el cerebro del robot es un cohete que viaja por el espacio.

  • El objetivo: Quieres que el cohete vaya hacia el norte (hacia la "formalidad").
  • La técnica: Aplicas un empujón (el vector de timón) para cambiar su rumbo.

Los investigadores dicen: "Pensábamos que solo había una forma de empujar el cohete para que fuera al norte. Pero resulta que puedes empujarlo hacia el norte, o puedes empujarlo hacia el norte y al mismo tiempo darle un pequeño empujón hacia el este o hacia el oeste, siempre y cuando ese empujón lateral no afecte la brújula".

En el lenguaje de los matemáticos, esto se llama el "Espacio Nulo". Es como si hubiera un viento lateral que sopla, pero el cohete es tan grande y su sistema de navegación es tan específico que ese viento lateral no se nota en el destino final.

¿Qué significa esto en la vida real?

  1. Ilusión de Control: Cuando los investigadores dicen "¡Encontramos el vector de la verdad!", en realidad podrían haber encontrado una de las infinitas direcciones que parecen funcionar. No están tocando la "esencia" de la verdad, sino simplemente un atajo que funciona por casualidad geométrica.
  2. El Experimento: Para probar esto, los autores tomaron un vector que funcionaba bien (el "vector original") y le añadieron un poco de "ruido" aleatorio en una dirección que no debería importar (una dirección perpendicular).
    • Resultado: ¡El robot siguió comportándose exactamente igual! El "ruido" no cambió nada.
    • Conclusión: Si puedes cambiar la dirección interna del robot casi a tu antojo sin que cambie lo que dice, entonces esa dirección interna no es única ni identificable.

¿Por qué es importante?

Imagina que eres un cirujano y operas un cerebro para curar una enfermedad. Si descubres que hay mil formas diferentes de cortar el tejido para que el paciente se cure, pero no sabes cuál es la "correcta" desde el punto de vista médico, tu operación es un éxito clínico, pero un fracaso científico. No entiendes por qué funcionó.

Este paper nos dice que, con la inteligencia artificial actual:

  • Podemos controlar el comportamiento (el robot será formal), pero...
  • No podemos estar seguros de que estamos entendiendo realmente cómo piensa el robot.
  • Las "direcciones" que encontramos podrían ser solo coincidencias geométricas, no conceptos reales como "honestidad" o "graciedad".

En resumen

El paper nos dice que la geometría de los cerebros de las IAs es tan compleja y redundante que hay infinitas formas de lograr el mismo efecto.

Es como si tuvieras un mapa de una ciudad donde hay mil caminos diferentes para llegar al centro. Si alguien te dice: "He encontrado el camino perfecto", tú deberías responder: "Bueno, hay mil caminos que llegan al mismo lugar, así que no estás descubriendo un secreto, solo estás eligiendo uno de los muchos caminos posibles".

La lección final: Para entender realmente a la IA, no basta con ver qué dice (el comportamiento). Necesitamos reglas más estrictas y nuevas formas de mirar dentro del "cerebro" para saber qué es lo que realmente está pasando, porque lo que vemos desde fuera puede ser engañoso.

Recibe artículos como este en tu bandeja de entrada

Resúmenes diarios o semanales personalizados según tus intereses. Gists o resúmenes técnicos, en tu idioma.

Probar Digest →