Structural Inference: Interpreting Small Language Models with Susceptibilities

Each language version is independently generated for its own context, not a direct translation.

¡Claro que sí! Imagina que este papel es como un manual de instrucciones para entender cómo piensa un cerebro de computadora (un modelo de lenguaje pequeño), pero en lugar de usar términos médicos complicados, usamos la física y la meteorología.

Aquí tienes la explicación en español, sencilla y con analogías creativas:

🧠 El Gran Misterio: ¿Qué pasa dentro de la "caja negra"?

Los modelos de inteligencia artificial (como los que escriben textos) son como cajas negras. Sabemos que metemos palabras y salen otras palabras, pero no sabemos qué pasa por dentro. ¿Cómo decide el modelo que después de "hola" debe venir "mundo" y no "pizza"?

Los autores de este paper (Garrett, George, Jesse y Daniel) dicen: "Vamos a tratar a este modelo no como un software, sino como un material físico, como un trozo de metal o un imán".

🌡️ La Idea Principal: La "Susceptibilidad" (La Sensibilidad)

Imagina que tienes un termómetro muy sensible. Si acercas una llama pequeña, el mercurio sube. Eso es una "respuesta" al calor.

En este paper, los científicos crean un nuevo tipo de termómetro para la inteligencia artificial llamado Susceptibilidad.

El Experimento: En lugar de calentar el modelo, lo "perturban" cambiando un poco los datos que lee.
- Analogía: Imagina que el modelo ha leído todo internet. Ahora, le damos un "dosis" extra de textos de GitHub (código de programación) o de textos legales.
La Reacción: Observamos cómo reaccionan las diferentes partes del cerebro del modelo (llamadas "cabezas de atención").
- ¿Se pone nervioso? ¿Se alegra? ¿Se bloquea?
- Si una parte del modelo cambia mucho su comportamiento cuando leemos código, decimos que tiene una alta susceptibilidad al código.

🎭 Dos Actores en el Escenario: "Expresión" y "Supresión"

Lo más genial que descubrieron es que las partes del modelo no solo "hacen" cosas, también "evitan" cosas. Usan dos palabras clave:

Expresión (Negativo en su escala): Es como un actor que aplaude una idea. Si leemos una frase de código y una parte del modelo dice "¡Sí! ¡Esto tiene sentido!", está "expresando" esa idea.
- Ejemplo: Si ves if (x > 0), una parte del modelo "alienta" a que la siguiente palabra sea {.
Supresión (Positivo en su escala): Es como un actor que silencia una idea. Si leemos una frase y otra parte del modelo dice "¡No! ¡Eso no va aquí!", está "suprimiendo" esa idea.
- Ejemplo: Si estás escribiendo un poema romántico, una parte del modelo podría estar activamente bloqueando que aparezcan palabras técnicas de programación, porque no encajan.

La analogía del equipo de fútbol:
Imagina que el modelo es un equipo de fútbol.

Algunos jugadores (cabezas) son los que marcan goles (expresan patrones).
Otros jugadores son los defensas que bloquean los goles del rival (suprimen patrones que no deberían salir).
Este paper nos permite ver quién está atacando y quién está defendiendo en cada momento.

🔍 El Gran Descubrimiento: Encontrando Circuitos Ocultos

Los autores aplicaron esta técnica a un modelo pequeño (de 3 millones de parámetros, que es como un "cachorro" de IA comparado con los gigantes actuales).

Usando sus "termómetros de susceptibilidad", lograron ver patrones que ya conocían pero que ahora podían explicar matemáticamente:

El Circuito de Inducción: Descubrieron un grupo de "jugadores" que son expertos en encontrar patrones repetitivos (como "A... B... A... B"). Son como detectives que dicen: "¡Oye, esto ya ha pasado antes!".
Los Multigramas: Otros jugadores son expertos en recordar las últimas palabras para completar frases comunes.
La Separación: Lo increíble es que su método separó automáticamente a los "detectives" de los "completadores", sin que los humanos tuvieran que decirles dónde mirar. Fue como si el mapa de la ciudad se dibujara solo al observar cómo reaccionaba la gente al tráfico.

🗺️ ¿Por qué es importante esto?

Antes, para entender a la IA, teníamos que hacer "cirugías" (borrar partes del modelo para ver qué fallaba). Era como intentar entender cómo funciona un coche quitándole piezas al azar.

Este método es como ponerle un sensor de vibración al coche. Le das un pequeño empujón (cambias los datos) y ves qué piezas vibran y cómo.

Es más limpio.
Es más rápido.
Te dice no solo qué hace la pieza, sino cómo se siente con diferentes tipos de información.

En resumen

Este paper nos da una nueva lupa para mirar dentro de las inteligencias artificiales. Nos dice que no son cajas negras mágicas, sino sistemas complejos donde unas partes promueven ciertas ideas y otras las bloquean, todo dependiendo de si el texto que leen es de leyes, de código, de poesía o de chistes.

Es como aprender a leer la "meteorología interna" de una máquina: saber cuándo está "lloviendo" código o "haciendo sol" en la gramática, solo midiendo cómo tiemblan sus componentes.

Each language version is independently generated for its own context, not a direct translation.

Aquí presento un resumen técnico detallado del artículo "Structural Inference: Interpreting Small Language Models with Susceptibilities", publicado como ponencia en ICLR 2026.

1. El Problema

La organización microscópica que permite los comportamientos complejos de las redes neuronales sigue siendo poco entendida. Aunque existen métodos de interpretabilidad mecánica (como ablaciones y análisis de circuitos), a menudo carecen de una base teórica unificada que vincule directamente la estructura interna del modelo con las distribuciones de datos. El desafío radica en desarrollar un marco que permita "probar" la estructura interna de una red neuronal de manera sistemática, cuantificando cómo responden sus componentes a cambios específicos en los datos de entrenamiento, sin depender únicamente de intervenciones heurísticas o observaciones cualitativas.

2. Metodología: Inferencia Estructural y Susceptibilidades

Los autores proponen un nuevo paradigma llamado Inferencia Estructural, basado en la teoría del aprendizaje bayesiano y la física estadística. La idea central es tratar la red neuronal como un sistema de mecánica estadística bayesiana.

Conceptos Clave:

Susceptibilidad ( $\chi$ ): Se define como la respuesta lineal de primer orden de la expectativa posterior de una "observable" (una función de los pesos de la red, como una cabeza de atención específica) ante una perturbación infinitesimal en la distribución de datos.
- Matemáticamente, si $q_h$ es una perturbación de la distribución de datos verdadera $q$ , la susceptibilidad de una observable $\phi$ es:
  $\chi = \frac{1}{n\beta} \frac{\partial}{\partial h} \langle \phi \rangle_{\beta, h} \bigg|_{h=0}$
- Según el Lema 2.2, esto se calcula como la covarianza negativa entre la observable y el cambio en la pérdida de verosimilitud ( $\Delta L$ ):
  $\chi = -\text{Cov}_{\beta}[\phi, \Delta L]$
Interpretación de Signos:
- Susceptibilidad Negativa (Expresión): Indica que el componente "expresa" o promueve un patrón de datos. Las variaciones en los pesos que mejoran la predicción de ese token también reducen la pérdida global.
- Susceptibilidad Positiva (Supresión): Indica que el componente "suprime" un patrón. Las variaciones que mejoran la predicción de ese token aumentan la pérdida global, sugiriendo que el componente está activamente inhibiendo esa continuación.
Estimación Local (SGLD): Dado que muestrear la posterior global es computacionalmente inviable, los autores utilizan Stochastic Gradient Langevin Dynamics (SGLD) para muestrear una posterior local alrededor de un minimizador de pérdida ( $w^*$ ). Esto permite estimar las susceptibilidades para checkpoints individuales de modelos entrenados.
Matriz de Respuesta: Se construye una matriz donde las filas son perturbaciones de datos (subconjuntos del dataset Pile) y las columnas son componentes del modelo (cabezas de atención). El análisis de esta matriz mediante Análisis de Componentes Principales (PCA) revela la estructura interna.

3. Contribuciones Clave

Marco Teórico Nuevo: Derivan un marco teórico riguroso que vincula la estructura de los datos con la estructura interna del modelo a través de la teoría de aprendizaje singular y la física estadística.
Método de Inferencia Estructural: Introducen una metodología práctica para descubrir estructuras internas (como circuitos) atribuyéndolas a patrones en los datos, diferenciando entre "expresión" y "supresión" de patrones.
Validación Empírica: Demuestran que este enfoque puede aislar y separar circuitos funcionales conocidos en un modelo Transformer pequeño (3M de parámetros) entrenado en el dataset The Pile.

4. Resultados Principales

Los autores aplicaron su metodología a un Transformer de dos capas (solo atención, sin MLP) con 3 millones de parámetros.

Identificación de Circuitos Funcionales:
- PC1 (Segmentación de Palabras): La primera componente principal mostró una respuesta uniforme en todas las cabezas, asociada fuertemente con la segmentación de palabras (diferenciación entre inicio, parte y fin de palabra). Esto sugiere que la red ha aprendido a segmentar el flujo de tokens como una tarea fundamental.
- PC2 (Circuito de Inducción): Esta componente separó claramente el circuito de inducción (cabezas 1:6, 1:7 que componen con 0:1, 0:4, 0:5) de las cabezas restantes.
  - Las cabezas del circuito de inducción mostraron susceptibilidad negativa (expresión) a patrones de inducción.
  - Las cabezas de "multigramas" de la capa 1 (1:0 a 1:5) mostraron susceptibilidad positiva (supresión) a los mismos patrones de inducción, confirmando el hallazgo previo de que estas cabezas actúan inhibiendo patrones de inducción.
- PC3 (Emparejamiento de Paréntesis): Identificó cabezas involucradas en la predicción de delimitadores y paréntesis (cabezas tipo "Dyck"), alineándose con estudios previos sobre cabezas de emparejamiento de paréntesis.
Análisis a Nivel de Token: La susceptibilidad por token reveló patrones de expresión y supresión específicos. Por ejemplo, se observó que ciertas cabezas suprimen activamente la continuación de secuencias que siguen patrones de inducción, mientras que otras las promueven.
Robustez: Los resultados se mantuvieron consistentes a través de múltiples semillas de entrenamiento independientes, validando que la estructura descubierta es intrínseca al aprendizaje y no un artefacto aleatorio.

5. Significado e Impacto

Fundamentos Teóricos: Este trabajo proporciona una base matemática sólida para la interpretabilidad, conectando la teoría de aprendizaje singular (Singular Learning Theory) con la mecánica estadística. Ofrece una alternativa teórica a las técnicas de ablación, que a menudo son difíciles de interpretar debido a efectos de "reparación automática" (self-repair) en las redes.
Herramienta Escalable: Aunque el estudio se realizó en un modelo pequeño, los autores argumentan que el método es escalable. La estimación de susceptibilidades mediante SGLD es paralelizable y no requiere el entrenamiento de modelos masivos adicionales, solo muestreo local.
Nueva Perspectiva sobre la Inhibición: El concepto de "supresión" cuantificada mediante susceptibilidad positiva ofrece una nueva lente para entender cómo las redes neuronales construyen predicciones no solo promoviendo conceptos, sino activamente inhibiendo otros, un fenómeno crucial en la dinámica de los transformadores.
Validación de Circuitos: El hecho de que la inferencia estructural descubra automáticamente el circuito de inducción y las cabezas de multigramas sin supervisión humana previa valida la eficacia del enfoque para descomponer la organización funcional de las redes neuronales.

En resumen, el artículo presenta una herramienta poderosa y teóricamente fundamentada para "ver" dentro de los modelos de lenguaje, traduciendo las respuestas a perturbaciones de datos en mapas claros de la organización funcional interna de la red.

Structural Inference: Interpreting Small Language Models with Susceptibilities

🧠 El Gran Misterio: ¿Qué pasa dentro de la "caja negra"?

🌡️ La Idea Principal: La "Susceptibilidad" (La Sensibilidad)

🎭 Dos Actores en el Escenario: "Expresión" y "Supresión"

🔍 El Gran Descubrimiento: Encontrando Circuitos Ocultos

🗺️ ¿Por qué es importante esto?

En resumen

1. El Problema

2. Metodología: Inferencia Estructural y Susceptibilidades

Conceptos Clave:

3. Contribuciones Clave

4. Resultados Principales

5. Significado e Impacto

Más como este

Comparison of Outlier Detection Algorithms on String Data

Structure-Aware Epistemic Uncertainty Quantification for Neural Operator PDE Surrogates

Interventional Time Series Priors for Causal Foundation Models

Fingerprinting Concepts in Data Streams with Supervised and Unsupervised Meta-Information

Graph Tokenization for Bridging Graphs and Transformers