VisualScratchpad: Inference-time Visual Concepts Analysis in Vision Language Models

El artículo presenta VisualScratchpad, una interfaz interactiva que utiliza autoencoders dispersos y mapas de calor para analizar conceptos visuales durante la inferencia en modelos de lenguaje visuales, permitiendo identificar modos de fallo como el desalineamiento multimodal y conceptos visuales engañosos.

Hyesu Lim, Jinho Choi, Taekyung Kim, Byeongho Heo, Jaegul Choo, Dongyoon Han

Publicado 2026-03-10
📖 4 min de lectura☕ Lectura para el café

Each language version is independently generated for its own context, not a direct translation.

¡Claro que sí! Imagina que los modelos de Inteligencia Artificial que ven y hablan (como los que describen fotos o responden preguntas sobre imágenes) son como niños geniales pero un poco misteriosos. A veces dan respuestas increíbles, pero otras veces cometen errores tontos y nadie sabe exactamente por qué.

Este paper presenta una herramienta llamada VisualScratchpad (que podríamos traducir como "Bloc de Notas Visual"). Es como una linterna mágica o una radiografía que nos permite ver qué está pensando el "cerebro" de la IA en el momento exacto en que está respondiendo.

Aquí te lo explico con analogías sencillas:

1. El Problema: El "Cerebro" es una Caja Negra

Imagina que le preguntas a un niño: "¿Qué hay en esta foto?". Él responde: "Es un perro". Pero en la foto hay un gato.

  • Antes: Solo sabíamos que se equivocó. No podíamos saber si no vio al gato, si confundió al gato con un perro, o si simplemente alucinó.
  • Ahora: Con VisualScratchpad, podemos abrir la "caja negra" y ver exactamente qué conceptos visuales (como "pelaje", "orejas", "cola") se activaron en su cerebro y cómo los conectó con las palabras.

2. La Herramienta: El "Bloc de Notas" (VisualScratchpad)

La herramienta funciona en tres pasos mágicos:

  • Paso A: Traducir imágenes a "conceptos puros".
    La IA ve la foto como una nube de números. VisualScratchpad usa un traductor especial (llamado Sparse Autoencoder) para convertir esos números en ideas claras, como "gato", "silla", "sombrero". Es como si la IA tuviera un bloc de notas donde escribe: "Veo un gato, veo una silla, veo un sombrero".

  • Paso B: Conectar ideas con palabras.
    Aquí viene lo genial. La herramienta mira a dónde mira la IA cuando forma una frase.

    • Analogía: Imagina que la IA está escribiendo una historia. VisualScratchpad pone un lápiz rojo sobre las partes de la foto que la IA está mirando mientras escribe cada palabra. Si la IA escribe "silla", el lápiz rojo se ilumina sobre la silla de la foto. Esto nos dice: "¡Ah! La IA está pensando en la silla cuando dice esa palabra".
  • Paso C: El "Control Remoto" (Experimentar).
    Esta es la parte más divertida. Podemos apagar o encender esos conceptos en el bloc de notas de la IA.

    • Analogía: Es como si le dijéramos al niño: "Oye, olvida por un segundo la idea de 'silla' y vuelve a describir la foto". Si la respuesta cambia, ¡sabemos que la idea de "silla" era crucial para su respuesta! Esto nos permite probar la causa y el efecto: "¿Se equivocó porque ignoró la silla o porque se fijó demasiado en el gato?".

3. Los Tres Errores que Descubrieron

Usando esta linterna, los autores encontraron tres formas en las que la IA falla, que son muy humanas:

  • Error 1: "No conecté los puntos" (Falta de alineación).

    • La escena: La IA ve una mano con un guante. La IA "ve" el guante, pero cuando tiene que responder, no conecta la palabra "guante" con la palabra "mano".
    • La solución: Si le preguntamos de forma más directa ("¿Está la taza en una mano con guante?"), la IA entiende y responde bien. Su cerebro tenía la información, pero no sabía cómo unirla.
  • Error 2: "Me dejé engañar por una pista falsa".

    • La escena: La IA ve a una persona mayor con un andador. La IA piensa: "Andador = silla de ruedas = sentado". Se equivoca porque asocia cosas que suelen ir juntas, aunque en esa foto la persona esté de pie.
    • La solución: Si usamos el "control remoto" para borrar la idea de "silla de ruedas" de su mente, la IA deja de adivinar y responde correctamente: "Está de pie".
  • Error 3: "Ignoré la segunda opción".

    • La escena: Una imagen de ilusión óptica (como el pato-conejo). La IA ve ambas posibilidades, pero decide hablar solo del pato e ignora al conejo.
    • La solución: Si forzamos a la IA a "apagar" la idea del pato, ¡de repente empieza a hablar del conejo! Esto demuestra que la IA sabía las dos cosas, pero eligió solo una.

En Resumen

VisualScratchpad es como un taller de mecánica para el cerebro de la IA. En lugar de solo ver que el coche (la IA) no arranca, podemos abrir el capó, ver qué pieza está fallando (¿es la visión? ¿es la memoria? ¿es una mala asociación?) y probar a arreglarla en tiempo real.

Esto es un gran paso para hacer que la Inteligencia Artificial sea más confiable y transparente, permitiéndonos entender sus errores en lugar de solo recibir respuestas incorrectas sin saber por qué.

Recibe artículos como este en tu bandeja de entrada

Resúmenes diarios o semanales personalizados según tus intereses. Gists o resúmenes técnicos, en tu idioma.

Probar Digest →