Each language version is independently generated for its own context, not a direct translation.

Imagina que los Grandes Modelos de Lenguaje (como el que te está hablando ahora) son como orquestas gigantes con miles de músicos (llamados "cabezas de atención") tocando simultáneamente.

Este paper de ICLR 2026 descubre algo fascinante sobre cómo funciona esta orquesta cuando le pedimos que aprenda una tarea nueva solo con ver unos ejemplos (lo que llamamos "aprendizaje en contexto").

Aquí tienes la explicación sencilla, usando analogías:

1. El Problema: ¿Entienden el concepto o solo la forma?

Los investigadores se preguntaron: ¿Cuando el modelo aprende que "caliente" es lo opuesto a "frío", lo entiende como una idea abstracta (un concepto) o solo memoriza cómo se ve la pregunta?

Antes, pensábamos que el modelo tenía un "vector de función" (una especie de receta mágica o llave maestra) que le decía exactamente qué hacer, sin importar si la pregunta venía en un formato de opción múltiple o en una conversación libre.

2. La Descubrimiento: Dos tipos de "músicos" diferentes

El estudio revela que la orquesta tiene dos grupos de músicos que hacen cosas distintas, aunque tocan en la misma sala (las mismas capas de la red neuronal):

Los "Músicos de la Función" (Function Vectors - FV):
- Qué hacen: Son los que realmente hacen que la música suene. Si quieres que el modelo responda rápido y bien a una pregunta, necesitas activar a estos músicos. Son los causales.
- Su debilidad: Son muy específicos con el formato. Imagina que tienes un director de orquesta que sabe tocar perfectamente si el partitura está en papel blanco (preguntas abiertas en inglés), pero si le das la misma partitura en papel azul (preguntas de opción múltiple) o en francés, ¡se confunde! Deja de tocar la melodía correcta y empieza a tocar el color del papel o el idioma.
- En resumen: Son excelentes en su "zona de confort" (in-distribution), pero fallan si cambias el formato.
Los "Músicos del Concepto" (Concept Vectors - CV):
- Qué hacen: Estos músicos entienden la idea abstracta. Saben que "caliente" y "frío" son opuestos, sin importar si la pregunta está en inglés, francés, o si es un examen de opción múltiple.
- Su debilidad: No son los que hacen que la música suene fuerte por sí solos. Si intentas usarlos para dirigir la orquesta, el volumen es más bajo (dan menos ganancia inmediata).
- Su superpoder: Son invariantes. Si cambias el formato, siguen tocando la misma melodía abstracta. No se distraen con el color del papel o el idioma.

3. La Analogía del Chef

Imagina que quieres que un chef (el modelo) prepare un plato de "sopa fría".

Los "Músicos de la Función" (FV) son como un chef que solo sabe cocinar si le das las instrucciones en una tarjeta de receta impresa. Si le das la receta escrita a mano en una servilleta, o se la dices en voz alta, se bloquea. Sabe hacer la sopa, pero está atado al formato de la tarjeta.
Los "Músicos del Concepto" (CV) son como un chef que entiende el concepto de "sopa fría". No importa si la receta viene en una tarjeta, en un mensaje de texto o en otro idioma; él sabe que la sopa debe estar fría. Sin embargo, quizás no es tan rápido poniendo los ingredientes en la olla como el chef de la tarjeta.

4. ¿Qué significa esto para el futuro?

El paper nos dice que la causalidad (hacer que algo pase) no es lo mismo que la invarianza (entender el concepto abstracto).

Si quieres que el modelo haga algo perfectamente en el mismo formato en que lo entrenaste, usa los Músicos de la Función.
Si quieres que el modelo generalice y entienda la idea aunque cambies el idioma o el tipo de pregunta, necesitas los Músicos del Concepto.

La conclusión final:
Los modelos de IA sí tienen representaciones abstractas de los conceptos (como la amistad, la antonimia o la traducción), pero esas representaciones no son las mismas que las que usan para ejecutar la tarea rápidamente. Son como dos circuitos separados en el cerebro del modelo: uno para "entender la idea pura" y otro para "ejecutar la tarea según el formato".

Esto es crucial porque nos ayuda a entender que, aunque las IAs parecen muy inteligentes, a veces están "atrapadas" en la forma en que les hacemos las preguntas, y no en el significado profundo de lo que preguntamos.

Each language version is independently generated for its own context, not a direct translation.

Resumen Técnico: Causalidad ≠ Invarianza en Modelos de Lenguaje

1. Problema y Motivación

La pregunta central de la investigación es: ¿Representan los Grandes Modelos de Lenguaje (LLMs) los conceptos de manera abstracta, es decir, de forma independiente al formato de entrada?

En la ciencia cognitiva, se argumenta que la representación abstracta de estructuras (como las relaciones antónimas: "caliente → frío") es fundamental para el razonamiento por analogía. Si un modelo entiende el concepto de "antónimo", debería poder aplicarlo independientemente de si la pregunta se presenta en formato abierto, de opción múltiple o en diferentes idiomas.

El trabajo revisa los Vectores de Función (Function Vectors - FVs), vectores compactos que se cree median el aprendizaje en contexto (ICL) y que se han utilizado como representaciones de tareas. La hipótesis previa sugería que los FVs codificaban el concepto subyacente de manera invariante. Sin embargo, los autores proponen que esta visión es incompleta: los FVs actuales mezclan el concepto con el formato de entrada, lo que limita su generalización.

2. Metodología

Los autores utilizan un enfoque combinado de intervención causal y análisis de similitud representacional para aislar dos tipos de mecanismos distintos dentro de los LLMs.

2.1 Modelos y Tareas

Modelos: Se evaluaron cuatro modelos autoregresivos: Llama 3.1 (8B, 70B) y Qwen 2.5 (7B, 72B).
Conceptos: Se definieron 7 conceptos relacionales (antónimos, categorías, causalidad, sinónimos, traducción, presente-pasado, singular-plural).
Formatos de Entrada: Se varió la superficie del prompt manteniendo la relación constante:
1. ICL abierto en inglés (OE-EN).
2. ICL abierto en otro idioma (francés o español; OE-FR/ES).
3. ICL de opción múltiple en inglés (MC).
Datos: Se construyeron 1050 prompts en total (7 conceptos × 3 formatos × 50 prompts).

2.2 Técnicas de Análisis

Para distinguir entre lo que causa la respuesta y lo que representa el concepto de forma abstracta, se compararon dos métodos:

Parcheo de Activación (Activation Patching - AP):
- Objetivo: Identificar componentes con efecto causal en la salida.
- Procedimiento: Se corrompe un prompt (rompiendo la relación lógica) y se insertan las activaciones de un prompt "limpio" en cabezas de atención específicas. Si la precisión se recupera, esa cabeza tiene un efecto causal.
- Resultado: Se seleccionan las cabezas con mayor Efecto Indirecto Promedio (AIE) para formar los Vectores de Función (FVs).
Análisis de Similitud Representacional (RSA):
- Objetivo: Identificar componentes que codifican el concepto de manera invariante al formato.
- Procedimiento: Se calcula una matriz de similitud (RSM) de las salidas de las cabezas de atención. Se compara esta matriz con una matriz de diseño binaria que marca qué pares de prompts comparten el mismo concepto (independientemente del formato).
- Resultado: Se seleccionan las cabezas con mayor correlación de Spearman (ρ) para formar los Vectores de Concepto (CVs).

2.3 Experimentos de Dirección (Steering)

Se inyectaron vectores (FVs y CVs) en el flujo residual de los modelos para forzar cambios en las predicciones. Se evaluó:

Rendimiento In-Distribution (ID): Extracción y aplicación en el mismo formato (ej. inglés abierto).
Rendimiento Out-of-Distribution (OOD): Extracción en un formato y aplicación en otro (ej. extraer de francés, aplicar en opción múltiple).
Tarea Ambigua (AmbiguousICL): Prompts que mezclan dos conceptos (ej. antónimos y traducción) para ver qué concepto domina la predicción tras la intervención.

3. Contribuciones Clave

Los FVs no son invariantes a la entrada: Los vectores de función extraídos para el mismo concepto en diferentes formatos (ej. abierto vs. opción múltiple) son casi ortogonales. Esto demuestra que los FVs mezclan el concepto con señales de formato superficial.
Descubrimiento de Vectores de Concepto (CVs): Mediante RSA, se identifican cabezas de atención que codifican relaciones abstractas de manera consistente a través de formatos y lenguajes.
Disociación Mecanística: Las cabezas que forman los FVs (causales) y las que forman los CVs (invariantes) son ligeramente superpuestas (casi nula intersección en los top-K), aunque residen en capas similares. Esto sugiere que la invarianza y la causalidad son mediadas por circuitos distintos.
Compromiso en la Dirección (Steering Trade-off):
- Los FVs ofrecen mayores ganancias de rendimiento in-distribution pero fallan o introducen artefactos out-of-distribution.
- Los CVs generalizan mejor out-of-distribution (manteniendo la consistencia del concepto) pero con ganancias absolutas menores y sin capacidad de iniciar tareas desde cero (zero-shot).

4. Resultados Principales

4.1 Invarianza y Estructura

Matrices de Similitud: Las matrices de similitud de los FVs se agrupan por formato (todos los prompts en inglés abierto se parecen entre sí, independientemente del concepto). En contraste, las matrices de los CVs se agrupan por concepto a través de todos los formatos.
Superposición de Cabezas: Para $K \le 20$ , la intersección entre las cabezas seleccionadas por AP (FVs) y RSA (CVs) es cercana a cero. Esto confirma que son mecanismos separados.

4.2 Experimentos de Dirección (Steering)

Rendimiento ID: Los FVs logran aumentos significativos en la probabilidad de la respuesta correcta cuando el formato de extracción coincide con el de aplicación.
Rendimiento OOD:
- Los FVs degradan su rendimiento al cambiar de formato. Peor aún, cuando se extraen de prompts en francés o de opción múltiple, los FVs tienden a generar artefactos de formato (ej. generar la traducción francesa del antónimo o los tokens de apertura de paréntesis de opción múltiple ().
- Los CVs mantienen efectos positivos y consistentes a través de formatos y lenguajes. No generan artefactos de formato; simplemente aumentan la probabilidad del concepto abstracto (ej. el antónimo correcto en inglés, independientemente de si el prompt de extracción estaba en francés).
Consistencia (Divergencia KL): La divergencia KL entre las distribuciones de tokens generadas con vectores ID y OOD es significativamente menor para los CVs que para los FVs, indicando una mayor robustez.

4.3 Interpretación de la Abstracción

Los autores proponen que los FVs operan en un nivel de abstracción más bajo ("antónimo en formato de opción múltiple"), mientras que los CVs operan en un nivel más alto ("antónimo"), independientemente de la superficie. Los FVs son equivariantes (se adaptan al formato), mientras que los CVs son invariantes.

5. Significado e Implicaciones

Revisión de la Hipótesis de Representación Lineal: El trabajo confirma que existen representaciones lineales de conceptos abstractos en los LLMs, pero estas no son las mismas que impulsan el comportamiento causal del aprendizaje en contexto.
Modelos Teóricos de ICL: Cuestiona la idea de un único "vector de función" global para una tarea. Sugiere que el vector de función es condicional al formato ( $a(f, \phi)$ ) y que los LLMs tienen múltiples subsistemas: uno para la ejecución causal (FVs) y otro para la detección/representación abstracta (CVs).
Aplicaciones Prácticas:
- Para el control de modelos en entornos controlados (mismo formato), los FVs son superiores.
- Para la interpretación, la detección de conocimientos abstractos y la robustez en entornos diversos, los CVs son la herramienta adecuada.
Mecanismos Cognitivos: Sugiere que los LLMs pueden resolver tareas de ICL mediante mecanismos específicos del formato, incluso cuando poseen representaciones abstractas subyacentes que no son las principales impulsoras del rendimiento inmediato.

En conclusión, el artículo establece que la causalidad no implica invarianza en los LLMs. La capacidad de un modelo para realizar una tarea (causalidad) y la forma en que representa abstractamente esa tarea (invarianza) son procesos disociados y realizados por circuitos neuronales distintos.

Causality ≠\neq= Invariance: Function and Concept Vectors in LLMs

1. El Problema: ¿Entienden el concepto o solo la forma?

2. La Descubrimiento: Dos tipos de "músicos" diferentes

3. La Analogía del Chef

4. ¿Qué significa esto para el futuro?

Resumen Técnico: Causalidad ≠ Invarianza en Modelos de Lenguaje

1. Problema y Motivación

2. Metodología

2.1 Modelos y Tareas

2.2 Técnicas de Análisis

2.3 Experimentos de Dirección (Steering)

3. Contribuciones Clave

4. Resultados Principales

4.1 Invarianza y Estructura

4.2 Experimentos de Dirección (Steering)

4.3 Interpretación de la Abstracción

5. Significado e Implicaciones

Más como este

Diffusion Language Models Know the Answer Before Decoding

Contextual Earnings-22: A Speech Recognition Benchmark with Custom Vocabulary in the Wild

Hybrid CNN-Transformer Architecture for Arabic Speech Emotion Recognition

Cross-Tokenizer LLM Distillation through a Byte-Level Interface

Lexical Tone is Hard to Quantize: Probing Discrete Speech Units in Mandarin and Yorùbá

Causality $\neq$ Invariance: Function and Concept Vectors in LLMs