CIRCUS: Circuit Consensus under Uncertainty via Stability Ensembles

Each language version is independently generated for its own context, not a direct translation.

Imagina que estás intentando entender cómo funciona un cerebro gigante (una Inteligencia Artificial) para resolver un problema, como responder a una pregunta de trivia. Los investigadores usan herramientas especiales para "ver" qué partes del cerebro se encienden y cómo se conectan. A esto le llaman descubrir el "circuito" de la IA.

El problema es que, hasta ahora, este proceso era muy frágil. Era como intentar dibujar un mapa de una ciudad usando una brújula que cambia de dirección si la mueves un milímetro. Dependía totalmente de las decisiones arbitrarias del investigador (¿qué nivel de detalle usamos? ¿qué herramientas de medición?). Si un investigador elegía un umbral un poco más alto, obtenía un mapa con 100 calles; si lo elegía más bajo, obtenía un mapa con 10,000 calles. No había forma de saber cuál era el "mapa real" y cuál era solo un error de la herramienta.

CIRCUS es la nueva solución propuesta en este paper. Aquí te explico cómo funciona con analogías sencillas:

1. El Problema: El "Efecto Mariposa" en los Mapas

Imagina que tienes que dibujar el mapa de un bosque.

El método antiguo: Un solo dibujante toma una decisión: "Solo dibujaré los árboles más grandes". Resultado: Un mapa pequeño. Otro dibujante dice: "Dibujaré todo, incluso las hierbas". Resultado: Un mapa gigante y confuso.
Nadie sabe cuál es la verdad. ¿Son las hierbas importantes? ¿O solo los árboles? No hay consenso.

2. La Solución CIRCUS: El "Jurado de Expertos"

En lugar de confiar en un solo dibujante con una sola regla, CIRCUS convoca a un jurado de 25 expertos (o configuraciones diferentes).

El proceso: Todos los expertos miran el mismo bosque (la misma IA) y dibujan sus mapas usando reglas ligeramente diferentes (algunos son estrictos, otros más relajados).
La magia: En lugar de elegir un mapa al azar, CIRCUS compara los 25 mapas.
- Si todos los expertos dibujan el mismo camino principal, ¡ese es el Núcleo de Consenso! Es tan importante que nadie puede ignorarlo, sin importar qué regla usen.
- Si solo 10 expertos dibujan un camino, es una "ruta alternativa" (podría ser real, pero no estamos seguros).
- Si solo 1 experto dibuja un camino, probablemente sea ruido o un error.

3. El Resultado: Un Mapa "A prueba de errores"

Lo increíble de CIRCUS es que logra dos cosas a la vez:

Simplificación extrema: El "Núcleo de Consenso" (lo que todos están de acuerdo) es 40 veces más pequeño que el mapa gigante que incluye todas las rutas posibles. Es un mapa limpio y fácil de leer.
Confianza real: Sabemos que este pequeño mapa es sólido porque sobrevivió a 25 pruebas diferentes. No es un capricho de un investigador; es una verdad estadística.

4. La Analogía del "Filtro de Café"

Piensa en el proceso de descubrimiento de circuitos como hacer café:

El método antiguo: Usas un filtro muy fino. Solo pasa el café más puro, pero te quedas sin café. O usas un filtro muy grueso y te queda lleno de posos (ruido).
CIRCUS: Pones 25 filtros diferentes sobre la misma cafetera. Luego, miras qué gotas de café lograron pasar a través de todos los filtros. Esas gotas son las que realmente importan. Las que se quedaron atrapadas en algunos filtros son descartadas como ruido.

¿Por qué es importante esto?

Transparencia: Ahora podemos decir: "Estos son los 600 componentes de la IA que realmente importan para esta tarea, y estamos 100% seguros de ello".
Seguridad: Si la IA toma una decisión peligrosa, podemos auditar el "Núcleo de Consenso" para entender por qué lo hizo, sin perder tiempo en rutas falsas.
Eficiencia: No hace falta volver a entrenar la IA ni gastar más dinero. Solo se reorganizan los datos que ya tenemos.

En resumen:
CIRCUS transforma el descubrimiento de circuitos de una "adivinanza de un solo tiro" en un proceso de consenso robusto. Nos dice: "No te preocupes por las pequeñas diferencias en cómo medimos; aquí está la verdad sólida que todos los métodos coinciden en ver". Es como pasar de tener un borrador borroso a tener una foto en alta definición y enfocada de cómo piensa la máquina.

Each language version is independently generated for its own context, not a direct translation.

Resumen Técnico: CIRCUS

1. El Problema: Incertidumbre en la Descubrimiento de Circuitos Mecanísticos

La descubrimiento de circuitos en la interpretabilidad mecánica (identificar subgrafos dispersos que causalmente soportan un comportamiento en un modelo) es inherentemente sensible a las elecciones arbitrarias del analista.

Fuentes de incertidumbre: Los resultados dependen críticamente de parámetros como los umbrales de poda (pruning thresholds) y la elección del diccionario de características (ej. checkpoints específicos de transcodificadores).
Consecuencia: Diferentes configuraciones generan circuitos distintos, produciendo explicaciones "de un solo disparo" (one-shot) frágiles. No existe una noción principista para distinguir entre una estructura estable (verdadera) y un artefacto generado por la configuración.
Objetivo: Replantear la descubrimiento de circuitos como un problema de cuantificación de la incertidumbre sobre estos grados de libertad analíticos, en lugar de reportar un único grafo.

2. Metodología: CIRCUS (Ensembles de Estabilidad)

CIRCUS propone un pipeline de "atribución bagged" (agrupada) que no requiere reentrenamiento del modelo y añade una sobrecarga computacional insignificante.

Enfoque de Muestreo (Config-Bagging):
- Se ejecuta una sola vez el grafo de atribución completo (usando un modelo de reemplazo como Transcodificadores de Capas Cruzadas - CLT).
- Se generan múltiples vistas ( $B$ ) aplicando diferentes configuraciones de poda (varios umbrales de nodos y aristas) sobre el mismo grafo crudo.
Puntuación de Estabilidad:
- Para cada arista $e$ , se calcula una puntuación de estabilidad $s(e)$ , definida como la fracción de vistas que retienen dicha arista:
  $s(e) = \frac{1}{B} \sum_{b=1}^{B} \mathbb{I}[e \in E(b)]$
- Esto mide la robustez de la arista frente a las elecciones del analista, no su corrección causal directa.
Extracción de Consenso:
- Circuito de Consenso Estricto ( $C_1$ ): Conjunto de aristas con $s(e) = 1$ (aparecen en todas las configuraciones). Este es el "núcleo" robusto.
- Circuito Exploratorio: Se pueden definir umbrales menores (ej. $\tau = 2/3$ ) para incluir aristas alternativas.
- Rechazo: Las aristas con baja estabilidad y baja influencia se marcan como "ruido" y pueden rechazarse.
Boosting (Refuerzo):
- Si el consenso estricto retiene poca influencia, se construye un circuito residual ( $C_2$ ) sobre las aristas no seleccionadas en el consenso para capturar la influencia contingente. El circuito completo es $C_1 \cup C_2$ .

3. Contribuciones Clave

Pipeline de Atribución Bagged: Un método sistemático para muestrear configuraciones de poda, asignar puntuaciones de estabilidad basadas en frecuencia y extraer un circuito de consenso robusto.
Taxonomía de Circuitos: Propone una clasificación explícita de las aristas en tres niveles:
- Núcleo (Core): Alta estabilidad ( $s=1$ ), robusto.
- Contingente: Estabilidad media pero alta influencia (rutas alternativas).
- Ruido: Baja estabilidad y baja influencia.
Interfaz de Rechazo/Alternativas: Permite a los usuarios decidir si confiar solo en el núcleo o explorar estructuras disputadas pero influyentes.
Eficiencia: Utiliza grafos de atribución ya computados, evitando el reentrenamiento y añadiendo costos mínimos (orden de milisegundos).

4. Resultados Experimentales

Los experimentos se realizaron en modelos Gemma-2-2B y Llama-3.2-1B utilizando transcodificadores públicos.

Reducción de Tamaño vs. Poder Explicativo:
- Los circuitos de consenso estricto son ~40 veces más pequeños que la unión de todas las configuraciones (que incluye todas las aristas posibles).
- A pesar de ser mucho más pequeños, retienen un poder explicativo (Influencia Retenida - IR) comparable al de los grafos individuales más grandes.
- Comparación con Baselines: El consenso supera a una baseline que toma la unión de todos los grafos y la poda hasta igualar el tamaño del consenso (IR 0.78 vs 0.73 en el mismo presupuesto de aristas).
Validación Causal (Activation Patching):
- Se realizó un "patching" de activaciones para verificar la relevancia causal.
- Los nodos identificados por el consenso superaron consistentemente a los controles no-consenso (p = 0.0004), demostrando que las aristas estables son causalmente importantes para la predicción.
Robustez Multi-Prompt:
- En 20 prompts diferentes, el consenso mantuvo un IR medio de 0.83 y pasó la prueba de "sanidad" (retiene al menos tanta influencia como el peor caso de una sola configuración) en el 100% de los casos.
Análisis de Incertidumbre:
- Se observó que una gran mayoría de aristas (72.8%) tienen una estabilidad < 0.5, lo que subraya la alta sensibilidad a los umbrales. Sin embargo, las aristas de alta estabilidad tienen una influencia media ~70 veces mayor que las de baja estabilidad.

5. Significado e Impacto

CIRCUS transforma la práctica de la interpretabilidad mecánica de un proceso que produce explicaciones frágiles y dependientes de parámetros a uno consciente de la incertidumbre.

Auditoría y Confianza: Proporciona un marco práctico para reportar circuitos "auditable", separando explícitamente lo que es un hecho robusto (núcleo) de lo que es contingente o ruido.
Toma de Decisiones: Permite a los investigadores y auditores rechazar estructuras de bajo acuerdo, evitando conclusiones erróneas basadas en artefactos de configuración.
Escalabilidad: Al no requerir reentrenamiento y ser compatible con cualquier pipeline de atribución que genere grafos podados, es una solución práctica inmediata para modelos grandes.

En resumen, CIRCUS demuestra que la variabilidad en las elecciones analíticas no es un obstáculo, sino una fuente de información valiosa para identificar la estructura causal verdadera dentro de los modelos de lenguaje.

CIRCUS: Circuit Consensus under Uncertainty via Stability Ensembles

1. El Problema: El "Efecto Mariposa" en los Mapas

2. La Solución CIRCUS: El "Jurado de Expertos"

3. El Resultado: Un Mapa "A prueba de errores"

4. La Analogía del "Filtro de Café"

¿Por qué es importante esto?

Resumen Técnico: CIRCUS

1. El Problema: Incertidumbre en la Descubrimiento de Circuitos Mecanísticos

2. Metodología: CIRCUS (Ensembles de Estabilidad)

3. Contribuciones Clave

4. Resultados Experimentales

5. Significado e Impacto

Más como este

Diffusion Language Models Know the Answer Before Decoding

Contextual Earnings-22: A Speech Recognition Benchmark with Custom Vocabulary in the Wild

Hybrid CNN-Transformer Architecture for Arabic Speech Emotion Recognition

Cross-Tokenizer LLM Distillation through a Byte-Level Interface

Lexical Tone is Hard to Quantize: Probing Discrete Speech Units in Mandarin and Yorùbá