Autores originales: Santiago Acevedo, Alessandro Laio, Marco Baroni

Publicado 2026-05-28

📖 5 min de lectura🧠 Análisis profundo

Autores originales: Santiago Acevedo, Alessandro Laio, Marco Baroni

Artículo original bajo licencia CC BY 4.0 (http://creativecommons.org/licenses/by/4.0/). ✨ Esta es una explicación generada por IA del artículo a continuación. No ha sido escrita ni avalada por los autores. Para mayor precisión técnica, consulte el artículo original. Leer descargo de responsabilidad completo

Imagina un Modelo de Lenguaje Grande (LLM) como DeepSeek-V3 como una biblioteca masiva de múltiples pisos. Dentro de esta biblioteca, cada frase que escribes se transforma en una "huella dactilar" única y de alta dimensión (un vector) a medida que se mueve por los diferentes pisos (capas) del edificio.

La gran pregunta que plantea este artículo es: ¿Cómo organiza la biblioteca estas huellas dactilares? Específicamente, ¿mantiene la "estructura" de la frase (sintaxis) separada del "significado" de la frase (semántica), o están todas mezcladas en una gran batidora?

Aquí está lo que los investigadores encontraron, explicado de forma sencilla:

1. El Truco del "Promedio" (Encontrando el Núcleo)

Los investigadores se dieron cuenta de que si tienes un montón de frases que se ven iguales gramaticalmente (por ejemplo, "El gato se sentó", "El perro corrió", "El pájaro voló"), comparten un "esqueleto" común.

La Analogía: Imagina tomar una foto de 100 personas diferentes usando exactamente el mismo tipo de sombrero. Si promedias todas esas fotos juntas, los rostros se difuminan, pero el sombrero se vuelve súper nítido y claro.
El Método: Lo hicieron matemáticamente. Tomaron frases con la misma estructura gramatical y promediaron sus huellas dactilares para crear un "Centroide Sintáctico" (el sombrero de gramática pura). Hicieron lo mismo con frases que tenían el mismo significado pero palabras diferentes para crear un "Centroide Semántico" (el sombrero de significado puro).

2. La Prueba de "Sustracción" (Quitando el Sombrero)

Una vez que tuvieron estos vectores de "gramática" y "significado" puros, intentaron eliminarlos de las huellas dactilares originales de las frases.

La Analogía: Imagina que tienes una foto de una persona usando un sombrero. Si restas digitalmente el vector del "sombrero" de la foto, el sombrero desaparece. Si la foto sigue pareciendo a la persona, sabes que el sombrero era una capa separada. Si el rostro de la persona también desaparece, el sombrero y el rostro estaban mezclados.
El Resultado: Cuando restaron el "Sombrero de Gramática" de una frase, la frase perdió su capacidad de coincidir con otras frases que tenían la misma gramática. Cuando restaron el "Sombrero de Significado", perdió su capacidad de coincidir con frases que significaban lo mismo.
La Conclusión: Esto demuestra que el modelo codifica la gramática y el significado de manera lineal. Son como ingredientes distintos en una receta que pueden separarse matemáticamente, en lugar de una reacción química donde se convierten en una nueva sustancia.

3. El Descubrimiento del "Plano de Pisos" (Dónde viven las cosas)

La biblioteca tiene muchos pisos. Los investigadores descubrieron que la gramática y el significado viven en pisos diferentes.

Gramática (Sintaxis): Esto es como los cimientos y los pisos inferiores. Está presente desde el principio y se mantiene consistente hasta la cima. El modelo conoce la estructura de una frase casi inmediatamente.
Significado (Semántica): Esto es como los pisos intermedios. Cuando una frase entra a la biblioteca, el modelo primero mira las palabras y la estructura (pisos bajos). Luego, a medida que la frase se mueve al medio, el modelo descubre lo que realmente significa. Para cuando llega al último piso (donde el modelo escribe su respuesta), el significado sigue ahí, pero el enfoque cambia a generar la salida.
La Analogía: Piensa en leer un libro. Primero, reconoces las letras y las palabras (gramática). Luego, en medio del párrafo, entiendes la historia (significado). No necesitas volver a reconocer las letras para entender la historia, pero sí necesitas las letras para empezar.

4. La Calle de Sentido Único (Asimetría)

Aquí está la parte más interesante: la separación no es perfectamente igual.

La gramática es independiente: Si eliminas el "Significado" de una frase, la "Gramática" se mantiene perfectamente intacta. El esqueleto sigue en pie incluso si quitas la carne.
El significado es dependiente: Si eliminas la "Gramática" de una frase, el "Significado" se vuelve un poco inestable. No desaparece por completo, pero se vuelve más difícil de reconocer.
La Analogía: Imagina una casa. Si quitas los muebles (significado), la estructura de la casa (gramática) sigue siendo claramente una casa. Pero si quitas las paredes y el techo (gramática), los muebles (significado) son solo un montón de cosas en el suelo; es difícil decir lo que se suponía que debían ser.

Resumen

El artículo muestra que en estos gigantes modelos de IA:

La gramática y el significado son distintos: Se codifican por separado, no están mezclados sin remedio.
Son lineales: Puedes "restar" matemáticamente uno del otro.
Viven en lugares diferentes: La gramática está en todas partes (especialmente al principio), mientras que el significado alcanza su punto máximo en la mitad del procesamiento del modelo.
La gramática es la base sólida: Puedes quitar el significado sin romper la gramática, pero quitar la gramática hace que el significado sea más difícil de sostener.

Esto sugiere que, aunque estos modelos se entrenan simplemente prediciendo la siguiente palabra, desarrollan naturalmente una estructura que se parece mucho a cómo los lingüistas humanos piensan que funciona el lenguaje: un marco estructural que soporta una capa de significado.

Resumen Técnico: Codificación Sintáctica y Semántica Diferencial en Modelos de Lenguaje Grandes

Enunciado del Problema

Este estudio investiga cómo los Modelos de Lenguaje Grandes (LLM) codifican la información sintáctica (estructural) y semántica (significado) dentro de sus representaciones internas de alta dimensión. Si bien el éxito de los LLM ha impulsado el interés en descifrar dónde y cómo se almacena la competencia lingüística, persiste un desacuerdo significativo respecto a la relación entre sintaxis y semántica. Las tradiciones generativas a menudo postulan una autonomía estricta de la sintaxis, mientras que los enfoques funcionalistas los consideran profundamente entrelazados. El artículo pretende resolver esto determinando si estos dos componentes están codificados linealmente, cómo se distribuyen a través de las capas de la red y en qué medida pueden desacoplarse en modelos entrenados sin priores lingüísticos explícitos.

Metodología

Los autores utilizan un enfoque geométrico basado en operaciones lineales para sondear las representaciones del modelo DeepSeek-V3 (671 mil millones de parámetros), con una replicación cualitativa en modelos más pequeños (Qwen2-7b, Gemma3-12b, Pythia-6.9b).

1. Construcción del Conjunto de Datos

El estudio se basa en pares de oraciones emparejados generados utilizando otros LLM (Gemini, ChatGPT, DeepSeek):

Emparejamiento Sintáctico: Pares de oraciones que comparten la misma plantilla de categoría gramatical (POS) pero expresan significados no relacionados ("gemelos sintácticos").
Emparejamiento Semántico: Pares de oraciones que consisten en una oración original y su paráfrasis en inglés, así como las traducciones de la oración original a seis idiomas (árabe, chino, alemán, italiano, español, turco).

2. Construcción de Centroides y Ablación

Para aislar tipos específicos de información, los autores construyen "centroides" promediando las representaciones ocultas:

Centroide Sintáctico ( $S_i$ ): El promedio de las representaciones de todos los "gemelos sintácticos" que comparten una plantilla POS específica. Esto promedia la variación semántica mientras retiene la estructura sintáctica.
Centroide Semántico ( $T_i$ ): El promedio de las representaciones de todas las traducciones de una oración $X_i$ (excluyendo la original y su paráfrasis en inglés). Esto promedia la variación sintáctica y léxica mientras retiene el contenido semántico.

Procedimiento de Ablación: Los autores eliminan información específica de un vector de oración $X_i$ restando su proyección sobre el centroide respectivo.

Ablación sintáctica: $X_i \perp S_i = X_i - \frac{X_i \cdot S_i}{|S_i|^2} S_i$
Ablación semántica: $X_i \perp T_i = X_i - \frac{X_i \cdot T_i}{|T_i|^2} T_i$

3. Medición de Similitud

En lugar de métricas lineales como la Alineación de Núcleo Centrado (CKA), que los autores señalan proporcionan señales débiles en altas dimensiones, emplean una medida de similitud basada en rangos derivada del Desequilibrio de Información. Esta métrica cuantifica qué tan bien los vecinos más cercanos en un espacio de representación predicen los vecinos más cercanos en otro.

4. Agregación de Representaciones

Se utilizan dos métodos para agregar los estados ocultos a nivel de token en vectores a nivel de oración:

Concatenación: Concatenar los últimos $N$ tokens (preserva la información posicional).
Promedio: Promediar las representaciones de los últimos $N$ tokens (elimina la información posicional).

Resultados Clave

1. Codificación Lineal de Sintaxis y Semántica

El estudio encuentra que tanto la sintaxis como la semántica están al menos parcialmente codificadas de forma lineal. Restar los centroides sintácticos o semánticos de los vectores de oración reduce significativamente la similitud entre pares emparejados (gemelos sintácticos o paráfrasis), respectivamente. Esto sugiere que una proporción significativa de la información relevante es capturada por estas direcciones lineales.

2. Perfiles de Capas Diferenciales

Los perfiles de codificación entre capas de la sintaxis y la semántica difieren:

Sintaxis: La similitud sintáctica es alta en las capas iniciales y permanece relativamente constante a lo largo de la red. Es más prominente en representaciones concatenadas, lo que sugiere una dependencia de la información posicional.
Semántica: La similitud semántica es baja en las capas iniciales, aumenta hasta alcanzar un pico en las capas centrales y disminuye ligeramente en las capas de salida finales. La similitud semántica es más fuerte en representaciones promediadas.

3. Desacoplamiento Asimétrico

Un hallazgo crucial es la asimetría en cómo la sintaxis y la semántica se influyen mutuamente:

Eliminación de Semántica: La ablación del centroide semántico de los gemelos sintácticos no reduce significativamente su similitud sintáctica. La sintaxis permanece robusta incluso cuando se elimina la información semántica.
Eliminación de Sintaxis: La ablación del centroide sintáctico de las paráfrasis reduce significativamente su similitud semántica, particularmente en las capas centrales.
Interpretación: Esto sugiere que, si bien la semántica puede separarse parcialmente de la sintaxis, la sintaxis es más autónoma. Eliminar la estructura sintáctica (por ejemplo, el orden de las palabras) degrada la capacidad de recuperar el significado, mientras que eliminar el significado no destruye el esqueleto sintáctico.

4. Descomposición de la Norma

La descomposición de la norma al cuadrado de los vectores de oración revela que:

El componente sintáctico domina en las capas iniciales.
El componente semántico domina en las capas centrales.
Juntos, estos centroides representan una fracción significativa pero no total (aproximadamente el 40% en las capas centrales) de la norma del vector, dejando un componente "residual" sustancial.

5. Efectos en Sondeos Descendentes

Los métodos de ablación impactan las tareas de sondeo descendente según lo esperado:

Clasificación POS: La ablación de centroides sintácticos reduce drásticamente la precisión; la ablación de centroides semánticos tiene un efecto mínimo.
Recuperación de Paráfrasis: La ablación de centroides semánticos reduce drásticamente la recuperación; la ablación de centroides sintácticos tiene un efecto negativo menor (aunque presente).

Significado y Afirmaciones

El artículo afirma tres contribuciones principales a los campos de la interpretabilidad de LLM y la lingüística computacional:

Identificación de un Núcleo Semántico: Los resultados confirman que existe un "núcleo semántico" en el procesamiento de LLM, concentrado específicamente en las capas internas de la red, distinto del procesamiento sintáctico más estable que abarca todas las capas.
Evidencia de Superposición Lineal: El estudio proporciona más evidencia de que la superposición lineal simple es un mecanismo fundamental para codificar características lingüísticas abstractas (sintaxis y significado) en redes profundas.
Autonomía Emergente de la Sintaxis: La observación de una separación imperfecta pero clara entre sintaxis y semántica en modelos entrenados sin priores lingüísticos explícitos sugiere que la autonomía de la sintaxis puede ser una propiedad inherente y óptima de las representaciones lingüísticas. Este hallazgo cierra la brecha entre las teorías lingüísticas generativas (sintaxis autónoma) y las visiones funcionalistas, implicando que esta distinción podría emerger universalmente en sistemas cognitivos, desde cerebros humanos hasta LLM.

Los autores mantienen una postura modesta, reconociendo que su enfoque lineal captura solo aspectos parciales de estas características complejas y que una porción significativa de la norma de representación permanece sin explicación por estos centroides. Sugieren que trabajos futuros deberían explorar la extracción de características no lineales y la dinámica temporal de estas codificaciones.

Differential syntactic and semantic encoding in LLMs