VisualScratchpad: Inference-time Visual Concepts Analysis in Vision Language Models

Each language version is independently generated for its own context, not a direct translation.

¡Claro que sí! Imagina que los modelos de Inteligencia Artificial que ven y hablan (como los que describen fotos o responden preguntas sobre imágenes) son como niños geniales pero un poco misteriosos. A veces dan respuestas increíbles, pero otras veces cometen errores tontos y nadie sabe exactamente por qué.

Este paper presenta una herramienta llamada VisualScratchpad (que podríamos traducir como "Bloc de Notas Visual"). Es como una linterna mágica o una radiografía que nos permite ver qué está pensando el "cerebro" de la IA en el momento exacto en que está respondiendo.

Aquí te lo explico con analogías sencillas:

1. El Problema: El "Cerebro" es una Caja Negra

Imagina que le preguntas a un niño: "¿Qué hay en esta foto?". Él responde: "Es un perro". Pero en la foto hay un gato.

Antes: Solo sabíamos que se equivocó. No podíamos saber si no vio al gato, si confundió al gato con un perro, o si simplemente alucinó.
Ahora: Con VisualScratchpad, podemos abrir la "caja negra" y ver exactamente qué conceptos visuales (como "pelaje", "orejas", "cola") se activaron en su cerebro y cómo los conectó con las palabras.

2. La Herramienta: El "Bloc de Notas" (VisualScratchpad)

La herramienta funciona en tres pasos mágicos:

Paso A: Traducir imágenes a "conceptos puros".
La IA ve la foto como una nube de números. VisualScratchpad usa un traductor especial (llamado Sparse Autoencoder) para convertir esos números en ideas claras, como "gato", "silla", "sombrero". Es como si la IA tuviera un bloc de notas donde escribe: "Veo un gato, veo una silla, veo un sombrero".
Paso B: Conectar ideas con palabras.
Aquí viene lo genial. La herramienta mira a dónde mira la IA cuando forma una frase.
- Analogía: Imagina que la IA está escribiendo una historia. VisualScratchpad pone un lápiz rojo sobre las partes de la foto que la IA está mirando mientras escribe cada palabra. Si la IA escribe "silla", el lápiz rojo se ilumina sobre la silla de la foto. Esto nos dice: "¡Ah! La IA está pensando en la silla cuando dice esa palabra".
Paso C: El "Control Remoto" (Experimentar).
Esta es la parte más divertida. Podemos apagar o encender esos conceptos en el bloc de notas de la IA.
- Analogía: Es como si le dijéramos al niño: "Oye, olvida por un segundo la idea de 'silla' y vuelve a describir la foto". Si la respuesta cambia, ¡sabemos que la idea de "silla" era crucial para su respuesta! Esto nos permite probar la causa y el efecto: "¿Se equivocó porque ignoró la silla o porque se fijó demasiado en el gato?".

3. Los Tres Errores que Descubrieron

Usando esta linterna, los autores encontraron tres formas en las que la IA falla, que son muy humanas:

Error 1: "No conecté los puntos" (Falta de alineación).
- La escena: La IA ve una mano con un guante. La IA "ve" el guante, pero cuando tiene que responder, no conecta la palabra "guante" con la palabra "mano".
- La solución: Si le preguntamos de forma más directa ("¿Está la taza en una mano con guante?"), la IA entiende y responde bien. Su cerebro tenía la información, pero no sabía cómo unirla.
Error 2: "Me dejé engañar por una pista falsa".
- La escena: La IA ve a una persona mayor con un andador. La IA piensa: "Andador = silla de ruedas = sentado". Se equivoca porque asocia cosas que suelen ir juntas, aunque en esa foto la persona esté de pie.
- La solución: Si usamos el "control remoto" para borrar la idea de "silla de ruedas" de su mente, la IA deja de adivinar y responde correctamente: "Está de pie".
Error 3: "Ignoré la segunda opción".
- La escena: Una imagen de ilusión óptica (como el pato-conejo). La IA ve ambas posibilidades, pero decide hablar solo del pato e ignora al conejo.
- La solución: Si forzamos a la IA a "apagar" la idea del pato, ¡de repente empieza a hablar del conejo! Esto demuestra que la IA sabía las dos cosas, pero eligió solo una.

En Resumen

VisualScratchpad es como un taller de mecánica para el cerebro de la IA. En lugar de solo ver que el coche (la IA) no arranca, podemos abrir el capó, ver qué pieza está fallando (¿es la visión? ¿es la memoria? ¿es una mala asociación?) y probar a arreglarla en tiempo real.

Esto es un gran paso para hacer que la Inteligencia Artificial sea más confiable y transparente, permitiéndonos entender sus errores en lugar de solo recibir respuestas incorrectas sin saber por qué.

Each language version is independently generated for its own context, not a direct translation.

Resumen Técnico: VisualScratchpad

1. El Problema

Los Modelos de Lenguaje Visuales (VLMs) de alto rendimiento siguen cometiendo errores, pero sus modos de fallo son difíciles de explicar debido a la falta de interpretabilidad de sus componentes internos.

Desafío principal: ¿Los errores se deben a la percepción insuficiente de señales visuales o a la dependencia de señales engañosas?
Limitación actual: La interpretabilidad mecánica tradicional (analizar neuronas individuales) falla porque una sola neurona suele activarse por múltiples conceptos no relacionados (superposición).
Necesidad: Se requiere una interfaz que permita un pipeline sistemático para depurar el comportamiento de los VLMs durante la inferencia, identificando qué conceptos visuales capturan los codificadores de visión y cómo son utilizados (o ignorados) por el modelo de lenguaje.

2. Metodología

El trabajo propone VisualScratchpad, una interfaz interactiva que integra Autoencoders Dispersos (SAEs) y mapas de atención para analizar conceptos visuales en tiempo de inferencia.

Extracción de Conceptos Visuales con SAE:
- Se aplican SAEs directamente al codificador de visión (específicamente CLIP-ViT-large congelado) en lugar de a las capas del modelo de lenguaje.
- Se entrena un SAE "vanilla" con un factor de expansión de 32, transformando las representaciones densas de los tokens de imagen ( $z$ ) en un espacio latente disperso de alta dimensión ( $h \in \mathbb{R}^{32,768}$ ).
- Esto descompone las representaciones en unidades granulares semánticamente interpretables.
Vinculación de Conceptos mediante Atención Texto-Imagen:
- Para conectar los conceptos visuales del codificador con el modelo de lenguaje, se utiliza el mapa de atención de texto a imagen (cross-attention).
- Se calcula un promedio de los pesos de atención desde un token de texto hacia todos los parches de imagen.
- Se aplica un promedio ponderado por atención a las activaciones de los latentes del SAE. Esto reordena los conceptos visuales, priorizando aquellos en las regiones de la imagen a las que el modelo de lenguaje realmente presta atención al generar una respuesta específica.
Análisis Causal y Ablación:
- Para verificar la influencia causal, se realiza ablación de latentes: se reemplazan las activaciones de latentes seleccionados por un valor especificado (usualmente cero).
- Mapa de Calor Token-Latente: Dado que los latentes pueden tener relaciones jerárquicas o correlacionadas, se introduce un mapa de calor que agrupa latentes basándose en su similitud de activación a través de los tokens de salida. Esto permite identificar un conjunto suficiente de latentes para eliminar un concepto completo sin afectar contenido no relacionado.
Interfaz VisualScratchpad:
- Ofrece cuatro componentes: exploración de latentes SAE, inferencia del modelo, observación interna (mapas de atención, activaciones) y modificación interna (steering/ablación).

3. Contribuciones Clave

Pipeline Unificado: La primera interfaz que integra la exploración de conceptos basada en SAE, la depuración en tiempo de inferencia y el análisis causal específicamente para VLMs.
Enfoque en el Codificador de Visión: A diferencia de trabajos anteriores que aplican SAEs en capas intermedias del lenguaje, este método aplica SAEs directamente al codificador de visión y vincula los conceptos mediante atención, evitando confusos introducidos por capas de proyección.
Visualización Token-Latente: Una nueva herramienta de visualización que agrupa latentes por similitud de activación, facilitando la selección de conjuntos de latentes para una ablación efectiva y causal.
Descubrimiento de Modos de Fallo: Identificación sistemática de tres modos de fallo previamente poco explorados en VLMs.

4. Resultados y Estudios de Caso

A través de estudios de caso utilizando el modelo LLaVA-Next-8B y el dataset MMVP, se revelaron tres modos de fallo críticos:

Caso 1: Alineación Cruzada Limitada (Limited Cross-Modal Alignment):
- Fenómeno: El modelo captura la señal visual correcta (ej. guantes de lana) pero falla al no alinearla con el concepto textual correspondiente ("mano").
- Solución: Reformular la pregunta para incluir detalles explícitos ("¿está sobre una mano con guante?") corrige la salida, demostrando que la información existía pero estaba mal alineada lingüísticamente.
Caso 2: Anclaje en Señales Engañosas (Grounding on Misleading Cues):
- Fenómeno: El modelo se basa en asociaciones semánticamente inapropiadas. En una imagen de una persona mayor con un andador, el modelo predice "sentado" porque activa conceptos de "silla de ruedas", ignorando la postura real.
- Solución: La ablación de los conceptos de "silla de ruedas" invierte la predicción a "de pie", revelando la dependencia de señales espurias.
Caso 3: Señales Ocultas No Utilizadas (Unused Hidden Cues):
- Fenómeno: En ilusiones ópticas (ej. pato/conejo), el modelo describe solo una interpretación (el pato) aunque los conceptos del "conejo" también estén activos internamente.
- Solución: La ablación de los latentes del "pato" y la amplificación de los del "conejo" cambian la salida, demostrando que el modelo codifica información visual más rica de la que finalmente verbaliza.

5. Significado e Impacto

Depuración Sistemática: VisualScratchpad proporciona una metodología rigurosa para diagnosticar por qué fallan los VLMs, yendo más allá de la simple observación de la salida.
Seguridad y Confiabilidad: Al permitir la identificación de sesgos, señales engañosas y fallos de alineación, la herramienta es crucial para el diseño de sistemas de IA más confiables y seguros.
Avance en Interpretabilidad Mecánica: Demuestra la viabilidad de usar SAEs en modelos multimodales para descomponer representaciones complejas en conceptos semánticos manejables, abriendo la puerta a futuras extensiones en análisis causal automatizado y arquitecturas multimodales más amplias.

En resumen, el artículo presenta una herramienta fundamental para pasar de la "caja negra" de los VLMs a una comprensión mecánica de sus fallos, permitiendo a los investigadores y desarrolladores intervenir y corregir el comportamiento del modelo de manera precisa y fundamentada.

VisualScratchpad: Inference-time Visual Concepts Analysis in Vision Language Models

1. El Problema: El "Cerebro" es una Caja Negra

2. La Herramienta: El "Bloc de Notas" (VisualScratchpad)

3. Los Tres Errores que Descubrieron

En Resumen

Resumen Técnico: VisualScratchpad

1. El Problema

2. Metodología

3. Contribuciones Clave

4. Resultados y Estudios de Caso

5. Significado e Impacto

Más como este

Conversational Successes and Breakdowns in Everyday Smart Glasses Use

EmbodMocap: In-the-Wild 4D Human-Scene Reconstruction for Embodied Agents

GVGS: Gaussian Visibility-Aware Multi-View Geometry for Accurate Surface Reconstruction

PyEncode: An Open-Source Library for Structured Quantum State Preparation

DOne: Decoupling Structure and Rendering for High-Fidelity Design-to-Code Generation