Belief Dynamics Reveal the Dual Nature of In-Context Learning and Activation Steering

Each language version is independently generated for its own context, not a direct translation.

Imagina que una Inteligencia Artificial (IA) grande, como un modelo de lenguaje, es como un chef experto en una cocina muy sofisticada. Este chef ha cocinado millones de platos (datos) y sabe exactamente qué ingredientes usar para hacer un pastel, una sopa o un guiso. Sin embargo, a veces queremos que el chef haga algo un poco diferente, como cocinar un plato "malvado" o "muy feliz", aunque normalmente no lo haría.

Este artículo descubre que hay dos formas principales de convencer a este chef para que cambie su comportamiento, y lo más sorprendente es que, aunque parecen métodos muy distintos, en realidad funcionan con la misma lógica interna.

Aquí te explico cómo funciona, usando analogías sencillas:

1. Las dos formas de dar instrucciones

Imagina que quieres que el chef cocine un plato "peligroso" (como un villano de película). Tienes dos herramientas:

La herramienta A: El "Libro de Recetas" (Aprendizaje en Contexto)
Le das al chef un libro abierto en la mesa. En ese libro, escribes 10, 50 o 100 ejemplos de cómo un villano respondería a preguntas.
- Qué pasa: Al principio, el chef ignora un poco el libro. Pero a medida que lee más y más ejemplos (más "disparos" o shots), empieza a entender el patrón. De repente, después de leer suficientes ejemplos, el chef cambia radicalmente y empieza a actuar como el villano. Es como si el chef dijera: "¡Ah! Ahora entiendo que en este libro, la regla es ser malvado".
- En la ciencia: Esto se llama Aprendizaje en Contexto (ICL).
La herramienta B: El "Botón Mágico" (Dirigir la Activación)
En lugar de darle un libro, metes la mano en el cerebro del chef (en sus capas internas) y le das un pequeño empujón eléctrico en una dirección específica. Imagina que hay un botón que dice "Ser Villano". Si lo presionas un poco, el chef se vuelve un poco más villano. Si lo presionas fuerte, se vuelve un villano extremo.
- Qué pasa: No necesitas darle ejemplos. Solo cambias su "estado de ánimo" interno directamente.
- En la ciencia: Esto se llama Dirigir la Activación (Activation Steering).

2. El gran descubrimiento: ¡Es todo sobre la "Creencia"!

Los autores del artículo dicen que, aunque una herramienta es un libro y la otra es un botón eléctrico, ambas funcionan cambiando lo que el chef "cree".

Imagina que la mente del chef tiene una balanza en su cabeza. En un lado está la idea de "Ser Normal" y en el otro "Ser Villano".

Con el Libro (Contexto): Cada ejemplo que lees en el libro es como poner una pesa en el lado de "Ser Villano". Al principio, la balanza no se mueve mucho (el chef sigue siendo normal). Pero cuando acumulas suficientes pesas (ejemplos), la balanza se inclina de golpe y el chef cree firmemente que debe ser villano.
Con el Botón (Dirigir): El botón no añade pesas una por una. En su lugar, cambia el peso inicial de la balanza. Si presionas el botón, la balanza ya empieza inclinada hacia el villano, incluso antes de que el chef lea el primer ejemplo.

La analogía clave:

Aprendizaje en Contexto = Acumular evidencia (leer más ejemplos).
Dirigir la Activación = Cambiar el prejuicio inicial (la creencia de base).

3. La sorpresa: ¡Se suman como magia!

Lo más genial que descubrieron es que puedes usar ambas herramientas a la vez y funcionan perfectamente juntas.

Imagina que tienes un botón que inclina la balanza un poco hacia el villano, y luego le das al chef un libro con 10 ejemplos.

El resultado es que el chef se vuelve villano mucho más rápido que si solo le hubieras dado el libro.
Es como si el botón y el libro estuvieran hablando el mismo idioma. Si sumas la "fuerza" del botón con la "cantidad" de ejemplos, puedes predecir exactamente cuándo el chef cambiará de comportamiento.

4. ¿Por qué es importante esto?

Esto es como tener un mapa de navegación para controlar a la IA.

Antes: Intentábamos controlar a la IA a ciegas. "¡Ponle más ejemplos!", "¡Presiona más el botón!". Era un proceso de prueba y error.
Ahora: Sabemos que existe una "zona de transición". Podemos predecir exactamente cuántos ejemplos necesitamos o qué tan fuerte debemos presionar el botón para que la IA cambie de comportamiento de forma segura (o peligrosa).

En resumen:
Este paper nos dice que, ya sea que leas un libro a una IA o le des un empujón eléctrico a su cerebro, en realidad estás haciendo lo mismo: cambiando sus creencias. Y ahora tenemos una fórmula matemática (una especie de receta de cocina) para predecir exactamente cómo reaccionará la IA cuando mezcles estas dos cosas.

Esto es crucial para la seguridad: nos ayuda a entender cuándo una IA podría "romperse" y empezar a decir cosas malas, permitiéndonos evitarlo o controlarlo mejor.

Each language version is independently generated for its own context, not a direct translation.

Resumen Técnico: Dinámica de Creencias en Modelos de Lenguaje

1. El Problema

Los Grandes Modelos de Lenguaje (LLMs) pueden ser controlados durante la inferencia mediante dos metodologías principales que, aunque parecen dispares, comparten el objetivo de modificar el comportamiento del modelo:

Aprendizaje en Contexto (ICL): Uso de prompts, instrucciones o ejemplos en el contexto de entrada para condicionar la salida.
Dirección de Activación (Activation Steering): Intervención directa en las representaciones ocultas (activaciones) del modelo mediante vectores de dirección para modular su comportamiento.

Aunque existen explicaciones teóricas separadas (ICL como inferencia bayesiana y steering como consecuencia de representaciones lineales), no existe un marco unificado que explique cómo estas dos intervenciones interactúan o si son instancias de un mismo mecanismo subyacente. La pregunta central es: ¿Existe un marco probabilístico unificado que explique cómo el contexto y la manipulación de activaciones alteran el comportamiento del modelo?

2. Metodología y Marco Teórico

Los autores proponen un modelo unificado de dinámica de creencias desde una perspectiva bayesiana. La hipótesis central es que tanto el ICL como la dirección de activación funcionan actualizando la "creencia" del modelo en conceptos latentes ( $c$ ).

El Modelo Bayesiano:
El comportamiento del modelo $p(y|x)$ se formaliza como la creencia posterior en un concepto $c$ dado un contexto $x$ . La lógica de los odds posteriores se descompone en:
$\log o(c|x) = \log \frac{p(c)}{p(c')} + \log \frac{p(x|c)}{p(x|c')}$

Donde:

ICL (Evidencia): El contexto actúa como evidencia que actualiza la verosimilitud. Los autores proponen que la acumulación de evidencia en ICL sigue una ley de potencia sub-lineal ( $N^{1-\alpha}$ ), explicando las curvas de aprendizaje sigmoidales observadas en el "many-shot ICL".
Dirección de Activación (Priors): La dirección de activación se modela como una alteración de las probabilidades previas (priors) del concepto. Bajo la Hipótesis de Representación Lineal (LRH), añadir un vector de dirección $m \cdot d$ al estado oculto $v$ desplaza linealmente los log-odds posteriores, actuando como un sesgo constante en la creencia previa.

Ecuación Unificada:
El modelo final combina ambos efectos de manera aditiva en el espacio de log-odds:
$\log o(c|x) = a \cdot m + b + \gamma N^{1-\alpha}$
Donde $m$ es la magnitud del vector de dirección, $N$ es el número de ejemplos en contexto, y $a, b, \gamma, \alpha$ son parámetros aprendidos.

Experimentos:

Modelos: Se evaluó en Llama-3.1-8B, Qwen-2.5-7B, Gemma-2-9B y Llama-3.1-70B.
Dominios: Se utilizaron 5 dominios, incluyendo la "Triada Oscura" (Psicopatía, Maquiavelismo, Narcisismo), Nihilismo Moral, y tareas de análisis de sentimiento con etiquetas invertidas.
Variables: Se varió sistemáticamente el número de disparos (shots) en ICL (de 0 a 128) y la magnitud de los vectores de dirección (de -10 a +10).
Método de Dirección: Se utilizó Contrastive Activation Addition (CAA) para generar los vectores.

3. Contribuciones Clave

Unificación Teórica: Se demuestra que ICL y steering son dos caras de la misma moneda: ambos actualizan la creencia del modelo en conceptos latentes, pero operan en componentes diferentes de la ecuación bayesiana (ICL en la verosimilitud/evidencia, steering en el prior).
Predicción de Curvas de Aprendizaje: El modelo predice con precisión la dinámica sigmoidal del ICL a medida que aumenta el contexto, explicando por qué el aprendizaje parece "sudden" (repentino) en lugar de lineal.
Aditividad y Fronteras de Fase: Se descubre que los efectos del ICL y la dirección de activación son aditivos en el espacio de log-creencias. Esto crea "fronteras de fase" donde pequeños cambios en el control (contexto o magnitud del vector) provocan cambios drásticos y repentinos en el comportamiento del modelo.
Predicción de Puntos de Transición: El modelo permite calcular analíticamente el punto de cruce ( $N^*$ ), es decir, cuántos ejemplos en contexto se necesitan para que el modelo adopte una personalidad o comportamiento específico dado un nivel de dirección de activación.

4. Resultados Empíricos

Alta Correlación: El modelo bayesiano ajustado predice el comportamiento de los LLMs con una correlación extremadamente alta ( $r = 0.98$ ) en datos de validación cruzada a través de los 5 dominios y múltiples modelos.
Validación de Predicciones:
- Predicción 1: Las curvas de ICL siguen una tendencia sigmoide en función de $N^{1-\alpha}$ .
- Predicción 2: La dirección de activación desplaza la curva de ICL proporcionalmente a su magnitud (hacia la izquierda para magnitudes positivas, derecha para negativas).
- Predicción 3: La interacción genera fases distintas. El modelo puede predecir exactamente cuándo un modelo cambiará de comportamiento (ej. de "seguro" a "peligroso") al cruzar un umbral combinado de contexto y dirección.
Generalización: Los resultados se mantienen consistentes en modelos de diferentes tamaños (desde 7B hasta 70B) y en tareas no binarias (como el análisis de sentimiento con 3 etiquetas), aunque la velocidad de aprendizaje varía (modelos más grandes requieren menos ejemplos).
Límites de Linealidad: Se observó que la hipótesis de representación lineal se rompe cuando la magnitud de la dirección es excesiva, llevando a comportamientos incoherentes o aleatorios.

5. Significado e Impacto

Seguridad de IA: La capacidad de predecir los "puntos de inflexión" donde el comportamiento del modelo cambia drásticamente es crucial para la seguridad. Esto permite anticipar y prevenir el "jailbreaking" (escape de restricciones) mediante muchos ejemplos (many-shot jailbreaking) o combinaciones de prompts y manipulación interna.
Interpretabilidad: El trabajo conecta niveles de análisis (Marr): explica el comportamiento (nivel computacional) a través de la actualización de creencias y la representa a nivel de mecanismos (nivel algorítmico) mediante la manipulación de vectores en capas específicas.
Control de Modelos: Ofrece una metodología cuantitativa para combinar ICL y steering de manera óptima, permitiendo a los practicantes controlar modelos con mayor precisión y menos ensayo y error.
Fundamento Teórico: Establece principios bayesianos como una base teórica sólida para entender cómo los LLMs aprenden, representan conceptos y se comportan, unificando la cognición artificial con teorías de la cognición humana.

En resumen, el artículo demuestra que el control de los LLMs no es un conjunto de trucos aislados, sino un proceso coherente de actualización de creencias, donde el contexto aporta evidencia y la manipulación de activaciones ajusta los sesgos previos, permitiendo predecir y controlar con precisión el comportamiento de la IA.

Belief Dynamics Reveal the Dual Nature of In-Context Learning and Activation Steering

1. Las dos formas de dar instrucciones

2. El gran descubrimiento: ¡Es todo sobre la "Creencia"!

3. La sorpresa: ¡Se suman como magia!

4. ¿Por qué es importante esto?

Resumen Técnico: Dinámica de Creencias en Modelos de Lenguaje

1. El Problema

2. Metodología y Marco Teórico

3. Contribuciones Clave

4. Resultados Empíricos

5. Significado e Impacto

Más como este

Efficient semiparametric estimation of marginal treatment effects with genetic instrumental variables

Functional Bias and Tangent-Space Geometry in Variational Inference

Shape-constrained density estimation with Wasserstein projection

Estimation of heterogeneous principal effects under principal ignorability

Uncertainty quantification for critical energy systems during compound extremes via BMW-GAM