Circuit Tracing in Vision-Language Models: Understanding the Internal Mechanisms of Multimodal Thinking

Each language version is independently generated for its own context, not a direct translation.

¡Hola! Imagina que los modelos de Inteligencia Artificial que combinan visión y lenguaje (como los que te describen imágenes o responden preguntas sobre fotos) son como cajas negras mágicas. Sabemos que funcionan increíblemente bien, pero nadie sabe realmente qué pasa por dentro de la caja cuando ves una foto de un gato y la IA dice "es un gato".

Este artículo presenta el primer "manual de instrucciones" para abrir esa caja y ver cómo funciona por dentro. Aquí te explico los conceptos clave usando analogías sencillas:

1. El Problema: La Caja Negra

Imagina que tienes un robot muy inteligente que puede ver fotos y hablar. Si le preguntas "¿Qué hay en esta foto?", te da la respuesta correcta. Pero si le preguntas "¿Cómo lo supiste?", el robot no puede explicarlo porque su cerebro es un caos de números y conexiones que nadie entiende. Esto es peligroso porque no sabemos si está mintiendo, si está sesgado o por qué a veces falla.

2. La Solución: El "Traductor de Circuitos"

Los autores crearon una herramienta para mapear el cerebro de estos robots. Lo hicieron en tres pasos mágicos:

Paso A: Los "Traductores" (Transcoders)
Imagina que el cerebro del robot piensa en un idioma secreto y confuso donde una sola palabra significa "gato", "pelota" y "feliz" al mismo tiempo. Es como si un interruptor de luz controlara la cocina, el baño y el jardín a la vez.
Los autores instalaron unos "traductores" que separan ese caos. Ahora, en lugar de un interruptor gigante, tienen miles de interruptores pequeños, donde cada uno hace una sola cosa (uno solo para "gato", otro solo para "pelota"). Esto hace que el pensamiento del robot sea transparente.
Paso B: El Mapa de Conexiones (Gráficos de Atribución)
Una vez que tienen esos interruptores claros, dibujan un mapa que muestra cómo la información viaja.
- Si ves una foto de una Marte, el mapa muestra: "¡Ah! El interruptor de 'planeta rojo' se enciende, luego conecta con el interruptor de 'cohetes espaciales' y finalmente con la palabra 'astronauta'".
- Es como seguir el rastro de un correo postal para ver exactamente por qué oficinas pasó antes de llegar a tu casa.
Paso C: El Experimento de "Cambio de Chip" (Intervención)
Para probar que el mapa es real, los científicos hacen cirugía al robot. Apagan un interruptor específico o lo fuerzan a encenderse.
- Ejemplo: Si apagan el interruptor de "dedos" en una foto de una mano, el robot deja de contar mal. Si fuerzan el interruptor de "Marte" a encenderse en una foto de la Tierra, el robot empieza a hablar de naves espaciales.
- Esto demuestra que esos interruptores son la causa real de lo que el robot dice, no solo una coincidencia.

3. Lo que Descubrieron (Las Sorpresas)

Al abrir la caja, encontraron cosas fascinantes:

El Viaje de la Información: Al principio, el robot ve la foto como un montón de píxeles sueltos (como ver solo colores). A medida que la información viaja hacia las capas profundas del cerebro, empieza a unir los colores con conceptos (como "gato"). Es como si primero vieras los ladrillos y luego, al final, vieras la casa completa.
El Problema de los Seis Dedos: A veces, las IAs dibujan manos con seis dedos. Descubrieron que no es un error aleatorio. El "cerebro visual" del robot está tan obsesionado con la idea general de "mano" que ignora la cuenta real de los dedos. Es como si un artista estuviera tan enamorado de pintar manos que olvidara contar los dedos.
Matemáticas Visuales: Si les muestras una suma escrita en números (1 + 2), el robot no solo "piensa" en números; a veces "ve" el resultado como una imagen. Si ves un "3" dibujado, el robot activa los mismos interruptores que si leyera la palabra "tres". ¡El cerebro visual y el cerebro de texto se están mezclando!

4. ¿Por qué es importante?

Antes, si una IA fallaba en una tarea crítica (como en medicina o conducción autónoma), no sabíamos por qué. Ahora, con este mapa de circuitos:

Podemos arreglar los errores apagando los interruptores defectuosos.
Podemos controlar el robot para que no alucine o sea más honesto.
Podemos diseñar mejores robots entendiendo exactamente cómo piensan.

En resumen:
Este trabajo es como darles a los científicos unas gafas de rayos X para ver el cerebro de las IAs. Ya no tienen que adivinar cómo piensan; ahora pueden ver los cables, apagarlos, encenderlos y entender la magia detrás de la máquina. ¡Es un gran paso hacia una Inteligencia Artificial más segura y comprensible!

Each language version is independently generated for its own context, not a direct translation.

Aquí tienes un resumen técnico detallado del artículo "Circuit Tracing in Vision–Language Models: Understanding the Internal Mechanisms of Multimodal Thinking", presentado en español:

1. El Problema

Los Modelos de Lenguaje y Visión (VLMs, por sus siglas en inglés) como CLIP, Flamingo, LLaVA y GPT-4o han demostrado capacidades notables en razonamiento multimodal. Sin embargo, siguen siendo cajas negras opacas. A pesar de su éxito empírico en aplicaciones de alto riesgo (diagnóstico médico, conducción autónoma), falta comprensión sobre cómo integran internamente la percepción visual con el entendimiento lingüístico.

Desafío principal: Las técnicas existentes de interpretabilidad (visualización de atención, probing) se centran casi exclusivamente en modelos de texto. Los VLMs presentan desafíos únicos al tener que alinear dos modalidades con estadísticas y semánticas diferentes, y no se sabe cómo vinculan las características visuales con los tokens o cómo coordinan la atención cruzada.
Necesidad: Se requiere un marco para realizar ingeniería inversa de los mecanismos causales internos para diagnosticar errores, mitigar sesgos y garantizar la alineación con valores humanos.

2. Metodología

Los autores proponen el primer marco de rastreo de circuitos (circuit tracing) exitoso para VLMs. La metodología se basa en tres componentes clave:

A. Transcoders en VLMs

Concepto: Utilizan Transcoders (una extensión de los Autoencoders Dispersos o SAEs) para reemplazar las capas MLP (Perceptrón Multicapa) del modelo.
Funcionamiento: En lugar de reconstruir las activaciones directamente, los transcoders imitan el comportamiento de entrada-salida de las capas MLP. Esto descompone las representaciones polisemánticas (que responden a múltiples conceptos) en características monosemánticas (interpretables y asociadas a un solo concepto).
Implementación: Se entrena un transcoders por capa MLP. Se utiliza una función de dispersión TopK (mantener solo las $k$ activaciones más altas) en lugar de una penalización L1, lo que resulta en un entrenamiento más estable.
Residuos: Se rastrea explícitamente el error de reconstrucción (residuo) como un nodo separado en el gráfico para no alterar el paso hacia adelante del modelo.

B. Gráficos de Atribución (Attribution Graphs)

Objetivo: Mapear las relaciones causales entre las características a través de las capas.
Proceso: Dado que el modelo se linealiza localmente alrededor de una entrada específica (con las no linealidades congeladas), se calcula una atribución lineal.
Estructura: Los nodos del gráfico representan embeddings de tokens, características activas del transcoders en posiciones específicas (capa, posición) y logits de salida. Las aristas representan la influencia causal (peso virtual) de una característica fuente sobre una destino.
Poda: Se eliminan las aristas con atribución insignificante para obtener un gráfico disperso y legible.

C. Descubrimiento de Circuitos e Intervención

Interpretación: Se analizan los patrones de activación de las características y se utilizan mapas de atención (attention-rollout) del codificador visual (SigLIP) para entender qué regiones de la imagen activan ciertas características.
Descubrimiento Humano: Expertos humanos agrupan características con funciones similares en nodos compartidos para crear un circuito simplificado y explicativo.
Validación Causal:
- Steering (Dirigir): Modificar la activación de características específicas para observar cambios en la salida.
- Circuit Patching (Parcheo): Transferir activaciones o sub-circuitos de un contexto a otro (ej. tomar el circuito de "Tierra" y aplicarlo a una imagen de "Marte") para verificar si el comportamiento se transfiere.

3. Contribuciones Clave

Primer Marco de Rastreo: Establecen la primera metodología sistemática para extraer y analizar circuitos computacionales internos en modelos VLMs de código abierto (específicamente Gemma-3-4B-it).
Integración de Modalidades: Demuestran cómo descomponer representaciones multimodales complejas en características interpretables y monosemánticas.
Validación Causal: No solo correlacionan, sino que prueban la causalidad de los circuitos mediante experimentos de intervención (parcheo y dirección), demostrando que estos circuitos son controlables.
Recursos Abiertos: Publican el código y los modelos en GitHub, facilitando la investigación futura en interpretabilidad multimodal.

4. Resultados y Hallazgos Empíricos

El análisis de los circuitos en Gemma-3 revela principios fundamentales sobre el razonamiento multimodal:

Integración Jerárquica: Las características que codifican simultáneamente conceptos visuales y semánticos solo emergen en las capas superiores de la red (alrededor de la capa 20). Las capas iniciales son específicas de la modalidad.
Razonamiento Matemático Visual: En tareas de aritmética basada en imágenes (ej. "1 + 2"), el modelo realiza parte del cálculo en el espacio visual. Se identifican circuitos visuales que representan el resultado numérico (ej. el dígito "3") antes de la conversión semántica completa.
Alucinaciones (El problema de los seis dedos): Las alucinaciones (como contar seis dedos en una mano) no son un fallo único, sino el resultado de una interacción entre el codificador visual (que enfatiza la semántica genérica de "mano") y la dinámica interna del circuito, donde las señales semánticas dominan y suprimen la capacidad de conteo visual preciso.
Asociaciones Visuales Paralelas: El modelo mantiene circuitos visuales distintos que preservan similitudes visuales incluso cuando las categorías semánticas divergen.
- Ejemplo: Una imagen de Marte activa circuitos asociados a "transbordador espacial" debido a la similitud visual, independientemente del contexto semántico.
- Ejemplo: Animales visualmente similares (nutrias, focas, castores) activan patrones consistentes en capas altas, incluso si sus etiquetas semánticas son diferentes.

5. Significado e Impacto

Interpretabilidad Profunda: Este trabajo trasciende la visualización superficial de la atención, ofreciendo una ingeniería inversa causal de cómo los VLMs "piensan" y razonan.
Control y Seguridad: Al demostrar que los circuitos son causales y manipulables (mediante steering y patching), se abre la puerta a:
- Diagnosticar y corregir errores específicos (como alucinaciones).
- Mitigar sesgos.
- Diseñar VLMs más transparentes y alineados con valores humanos.
Nueva Línea de Investigación: Establece un precedente para el estudio de la superposición de características (feature superposition) en entornos multimodales y sugiere la necesidad de arquitecturas más eficientes y explicables.

Limitaciones y Trabajo Futuro

Los autores reconocen que el proceso actual requiere un esfuerzo humano significativo para la anotación de circuitos, lo que dificulta la evaluación cuantitativa automatizada. Además, el uso de transcoders por capa no captura completamente la superposición entre capas, y los mapas de atención visual a veces carecen de precisión local. El trabajo futuro se dirige hacia la automatización de la interpretación de características y la extensión de este marco a una gama más amplia de modelos VLM.