Circuit Insights: Towards Interpretability Beyond Activations

Each language version is independently generated for its own context, not a direct translation.

¡Claro que sí! Imagina que las Inteligencias Artificiales (IA) modernas, como los modelos de lenguaje que escriben textos o responden preguntas, son como ciudades gigantescas y muy complejas. Dentro de estas ciudades hay millones de "habitantes" (neuronas) trabajando juntos. El problema es que, hasta ahora, para entender qué hace cada habitante, los científicos tenían que entrar a la ciudad, observar a cada uno en acción durante días y tratar de adivinar su trabajo. Era lento, costoso y a veces se equivocaban.

Este paper, titulado "CIRCUIT INSIGHTS", presenta dos nuevas herramientas mágicas llamadas WeightLens y CircuitLens. Su objetivo es entender cómo funciona la ciudad sin tener que vigilar a cada habitante todo el tiempo, sino mirando los planos de la ciudad y cómo se conectan las tuberías y cables entre sí.

Aquí te lo explico con analogías sencillas:

1. El Problema: Mirar solo las luces encendidas

Antes, los investigadores intentaban entender la IA mirando cuándo se encendían las luces (las "activaciones").

La analogía: Imagina que intentas entender qué hace un electricista en una casa solo mirando qué bombillas se encienden cuando alguien entra. Si ves que se enciende la luz de la cocina, podrías pensar: "¡Ah! Este electricista cocina". Pero quizás la luz se encendió porque alguien abrió la nevera, o porque hubo un cortocircuito. Mirar solo las luces a veces te da una imagen borrosa o confusa. Además, para hacerlo, necesitabas a un "experto" (otra IA muy grande) que mirara las luces y escribiera un informe, lo cual es como pedirle a un detective que adivine el crimen sin pruebas sólidas.

2. La Solución: WeightLens (La Lupa de los Planos)

WeightLens es como tener los planos arquitectónicos originales de la ciudad. En lugar de esperar a que se encienda una luz, mira los cables y conexiones que ya están instalados.

Cómo funciona: Mira las "pesas" (weights) de la IA. Estas son como la fuerza de los cables que conectan un habitante con otro.
La analogía: Si miras los planos y ves que un cable muy grueso conecta directamente a un habitante con la palabra "manzana", puedes decir con seguridad: "Este habitante está relacionado con las manzanas", sin necesidad de esperar a que alguien coma una manzana o de tener un detective que lo observe.
Ventaja: Es rápido, no necesita observar la ciudad en acción (no necesita grandes bases de datos) y no depende de que otro detective (otra IA) escriba el informe. Es como leer el manual de instrucciones en lugar de adivinar cómo funciona el motor.

3. La Solución: CircuitLens (El Mapa de Tráfico)

A veces, los cables por sí solos no cuentan toda la historia. A veces, un habitante solo actúa si hay un contexto específico (por ejemplo, solo habla si hay una fiesta). Aquí entra CircuitLens.

Cómo funciona: Esta herramienta no solo mira los cables, sino que rastrea cómo viaja la información a través de la ciudad. Identifica qué "circuitos" o rutas se activan cuando ocurre algo.
La analogía: Imagina que quieres entender por qué se enciende la luz de la cocina. En lugar de solo mirar la bombilla, CircuitLens te muestra el tráfico de personas: "¡Mira! Cuando alguien dice 'hola', pasa por la puerta A, luego va al pasillo B, y finalmente enciende la luz de la cocina".
El truco: A veces, un habitante hace muchas cosas diferentes (es "polisémico", como un actor que puede ser un villano o un héroe). CircuitLens agrupa a los habitantes en equipos (clústeres) según cómo trabajan juntos. Así, en lugar de decir "este habitante es confuso", dice: "Este habitante es un héroe cuando está con el equipo de acción, y un villano cuando está con el equipo de misterio".

4. ¿Por qué es importante esto?

Antes, para entender la IA, necesitábamos:

Grandes cantidades de datos (como grabar toda la ciudad durante un año).
Otro cerebro gigante (otra IA) para interpretar lo que veíamos.

Con WeightLens y CircuitLens:

Ahorramos tiempo y energía: Podemos entender la IA mirando sus planos (pesos) y sus rutas (circuitos) directamente.
Somos más precisos: No adivinamos por qué se enciende una luz; sabemos exactamente qué cable la encendió.
Es más seguro: Al entender mejor cómo piensan estas máquinas, podemos detectar errores o comportamientos raros antes de que causen problemas en el mundo real (como en medicina o finanzas).

En resumen

Imagina que la IA es un reloj gigante.

Los métodos antiguos intentaban entender el reloj mirando las manecillas moverse y adivinando qué hora es.
WeightLens te da el diseño de los engranajes para saber cómo funciona sin mover las manecillas.
CircuitLens te muestra cómo la energía fluye a través de los engranajes para mover las manecillas en momentos específicos.

Juntas, estas herramientas nos permiten entender la "magia" de la Inteligencia Artificial de una manera más clara, rápida y confiable, sin depender de adivinanzas o de otros sistemas oscuros. ¡Es como pasar de adivinar el secreto de un truco de magia a ver exactamente cómo se hace el truco!

Each language version is independently generated for its own context, not a direct translation.

Resumen Técnico: Circuit Insights

1. El Problema

El campo de la interpretabilidad mecánica y la IA explicable (XAI) busca comprender los mecanismos internos de las redes neuronales, específicamente mediante el descubrimiento de "circuitos" (subgrafos responsables de tareas específicas). Sin embargo, los enfoques actuales enfrentan limitaciones críticas:

Dependencia de Activaciones: Los métodos automatizados existentes se basan principalmente en analizar patrones de activación de neuronas o características (features) en grandes conjuntos de datos. Esto a menudo falla al capturar interacciones complejas entre características o al identificar patrones específicos que no son evidentes solo mirando la magnitud de la activación.
Dependencia de Modelos Externos: La mayoría de los pipelines automatizados utilizan Grandes Modelos de Lenguaje (LLMs) externos como "explicadores" para generar descripciones de las características basadas en ejemplos de activación. Esto introduce un nuevo "problema de caja negra", dependiente de la calidad del dataset, el prompt y el modelo explicador, lo que puede generar explicaciones poco fiables o inexactas.
Limitación en Tareas Reales: Muchos estudios se limitan a tareas de juguete o requieren inspección manual extensiva para entender el papel de neuronas individuales y cabezas de atención.
Polysemanticidad: Las características dispersas (obtenidas mediante Autoencoders Dispersos - SAEs o Transcoders) pueden ser altamente específicas o polisemánticas, activándose en patrones difíciles de interpretar solo con activaciones.

2. Metodología Propuesta

Los autores proponen un enfoque que va más allá del análisis basado únicamente en activaciones, aprovechando la arquitectura de los Transcoders (que aproximan capas MLP de forma dispersa y separan contribuciones dependientes e independientes de la entrada). Presentan dos métodos complementarios:

A. WeightLens (Interpretabilidad Automatizada Basada en Pesos)

Concepto: Interpreta las características directamente a partir de sus pesos aprendidos (matrices de codificador y decodificador del transcoder), eliminando la necesidad de datasets de entrada o LLMs explicadores.
Mecanismo:
1. Proyecciones: Proyecta los vectores del codificador ( $f_{enc}$ ) al espacio de incrustaciones (embedding) y los del decodificador ( $f_{dec}$ ) a los logits del vocabulario.
2. Detección de Valores Atípicos: Identifica tokens candidatos en el espacio de entrada y salida utilizando puntuaciones Z (outliers) en las proyecciones de pesos.
3. Análisis de Conexiones: Examina las conexiones entre características de capas anteriores ( $W_{dec} \cdot f_{enc}$ ) para encontrar contribuyentes principales.
4. Validación: Realiza una pasada hacia adelante (forward pass) para validar si los tokens candidatos activan realmente la característica de forma aislada.
5. Salida: Genera descripciones basadas en tokens que activan la característica y tokens que promueve, utilizando lematización en lugar de un LLM para limpiar el texto.
Suposición Clave: Las conexiones invariantes a la entrada (pesos) que son estadísticamente significativas (outliers) indican relaciones estructurales reales, siempre que se validen en el comportamiento del modelo.

B. CircuitLens (Interpretabilidad Automatizada Basada en Circuitos)

Concepto: Analiza cómo surgen las activaciones de las características a través de interacciones entre componentes (circuitos), capturando dinámicas que los métodos de activación pura ignoran.
Mecanismo:
1. Muestreo de Distribución: En lugar de solo tomar las activaciones máximas, muestrea toda la distribución de activaciones (incluyendo casos raros) utilizando muestreo por cuantiles inversos.
2. Detección de Patrones de Circuito:
  - Enfoque de Entrada: Utiliza atribución (ecuaciones de Jacobiano y puntuaciones de atención) para aislar qué pares (token, cabeza de atención) contribuyen fuertemente a la activación. Se enmascara la entrada para mantener solo estos tokens relevantes.
  - Enfoque de Salida: Evalúa cómo la característica influye en los tokens de salida generados (logits), identificando el impacto aguas abajo.
3. Agrupamiento Basado en Circuitos (Clustering): Agrupa las entradas basándose en sus contribuciones de circuitos subyacentes (características y cabezas de atención) utilizando similitud de Jaccard y DBSCAN. Esto maneja la polisemanticidad separando conceptos entrelazados en clusters monosemánticos.
4. Generación de Descripción: Un LLM explicador recibe solo los patrones aislados (entradas y salidas relevantes) para generar descripciones unificadas por cluster, reduciendo el ruido y la carga cognitiva del modelo.

3. Contribuciones Clave

WeightLens: Un marco que logra descripciones de características de alta calidad (comparables o superiores a los métodos basados en activación) sin depender de datasets externos ni LLMs explicadores, aprovechando la estructura de pesos de los transcoders.
CircuitLens: Un marco que supera las limitaciones de los métodos de activación pura al aislar patrones de entrada y salida específicos mediante análisis de circuitos y agrupamiento, mejorando la robustez en datasets pequeños y manejando la polisemanticidad.
Integración: La combinación de ambos métodos (pesos + circuitos) reduce la sensibilidad al tamaño y distribución del dataset, ofreciendo una interpretabilidad más escalable y robusta.
Análisis de Arquitectura: Demuestran que los transcoders permiten una separación eficiente entre contribuciones dependientes e independientes de la entrada, facilitando el descubrimiento de circuitos.

4. Resultados y Evaluación

Los métodos se evaluaron en modelos como GPT-2 Small, Gemma-2-2B y Llama-3.2-1B utilizando el marco FADE (que evalúa Claridad, Respuesta, Pureza y Fidelidad).

Rendimiento de WeightLens:
- En capas tempranas, donde las características son más dependientes de tokens específicos, WeightLens iguala o supera a los métodos basados en activación (como Neuronpedia y MaxAct*) en métricas de Claridad y Respuesta.
- Logra descripciones válidas para aproximadamente el 58.8% de las características en GPT-2 y 32.7% en Gemma-2 sin usar datasets.
- Las capas medias muestran menor interpretabilidad basada en pesos debido a la alta dependencia del contexto, pero las capas tardías recuperan estructura.
Rendimiento de CircuitLens:
- Los métodos basados en circuitos muestran una Claridad significativamente superior a los enfoques puramente basados en activación, reduciendo la cantidad de características con descripciones ambiguas.
- El muestreo de la distribución completa (no solo los máximos) proporciona una imagen más fiel del comportamiento general de la característica.
- La combinación de WeightLens y CircuitLens (WL + CircuitLens-Full) mejora la robustez, permitiendo obtener resultados competitivos incluso con datasets pequeños (24M tokens) en comparación con datasets masivos (2.3B tokens) usados por los baselines.
Hallazgos Cualitativos:
- CircuitLens revela patrones ocultos (ej. referencias a entidades mencionadas anteriormente o estructuras gramaticales específicas) que no son evidentes solo con la activación.
- El agrupamiento basado en circuitos permite desentrañar características polisemánticas en sub-conceptos coherentes.

5. Significado e Impacto

Este trabajo representa un avance fundamental hacia la interpretabilidad automatizada escalable y robusta:

Reducción de la Dependencia de "Cajas Negras": Al utilizar los pesos del modelo (WeightLens) y la estructura de circuitos (CircuitLens), se reduce la dependencia de LLMs externos para generar explicaciones, mitigando riesgos de seguridad y fiabilidad.
Eficiencia y Escalabilidad: Permite analizar modelos grandes sin necesidad de procesar datasets masivos para cada característica, haciendo viable la interpretabilidad en entornos con recursos limitados.
Profundidad Mecanística: Al ir más allá de las activaciones y analizar las conexiones estructurales y los circuitos, se obtiene una comprensión más profunda de cómo y por qué un modelo toma decisiones, no solo qué activa.
Aplicabilidad: Abre nuevas vías para el análisis de circuitos en modelos de lenguaje reales, facilitando la auditoría de seguridad y el despliegue confiable de IA en dominios sensibles.

Limitaciones:

WeightLens es específico de la arquitectura de transcoders y no se aplica directamente a SAEs estándar.
Las características altamente dependientes del contexto siguen siendo difíciles de capturar solo con pesos.
La métrica de "Fidelidad" (Faithfulness) sigue siendo baja en general, posiblemente debido a la redundancia del modelo y la dificultad de intervenir en características individuales sin afectar al resto.

Circuit Insights: Towards Interpretability Beyond Activations

1. El Problema: Mirar solo las luces encendidas

2. La Solución: WeightLens (La Lupa de los Planos)

3. La Solución: CircuitLens (El Mapa de Tráfico)

4. ¿Por qué es importante esto?

En resumen

Resumen Técnico: Circuit Insights

1. El Problema

2. Metodología Propuesta

3. Contribuciones Clave

4. Resultados y Evaluación

5. Significado e Impacto

Más como este

DIVE: Scaling Diversity in Agentic Task Synthesis for Generalizable Tool Use

A Survey of Reasoning in Autonomous Driving Systems: Open Challenges and Emerging Paradigms

PACED: Distillation at the Frontier of Student Competence

Measuring AI Agents' Progress on Multi-Step Cyber Attack Scenarios

Reversible Lifelong Model Editing via Semantic Routing-Based LoRA