Evaluating Graphical Perception Capabilities of Vision Transformers

Este estudio evalúa las capacidades de percepción gráfica de los Vision Transformers (ViT) comparándolos con las CNN y humanos en tareas basadas en los fundamentos de Cleveland y McGill, revelando que, aunque los ViT son potentes en visión general, su alineación con la percepción humana en el ámbito de la visualización es limitada.

Poonam Poonam, Pere-Pau Vázquez, Timo Ropinski

Publicado 2026-02-23
📖 4 min de lectura☕ Lectura para el café

Each language version is independently generated for its own context, not a direct translation.

¡Hola! Imagina que acabamos de descubrir algo muy curioso sobre la "inteligencia" de las computadoras cuando miran gráficos. Aquí te explico el artículo de forma sencilla, usando analogías cotidianas.

🕵️‍♂️ La Misión: ¿Ven las máquinas como nosotros?

Imagina que tienes dos tipos de "ojos" para ver el mundo:

  1. Los Ojos Humanos: Somos expertos en entender gráficos. Si ves una barra de un gráfico más alta que otra, sabemos inmediatamente cuál tiene más valor. Si ves un pastel (gráfico circular), sabemos qué trozo es más grande.
  2. Los Ojos de la Computadora (CNNs): Durante años, usamos un tipo de inteligencia artificial llamada CNN (Redes Neuronales Convolucionales). Son como un detective que mira una foto pixel por pixel, muy cerca, buscando patrones locales. Funcionan muy bien, pero a veces se pierden en el panorama general.
  3. Los Nuevos Ojos (ViTs): Hace poco, llegaron los Transformers de Visión (ViTs). Son como un detective que tiene una "vista de águila". En lugar de mirar solo un pedacito, miran toda la imagen a la vez y conectan puntos lejanos entre sí. Son los reyes actuales en tareas generales de visión por computadora.

La gran pregunta del artículo: ¿Son estos nuevos "ojos de águila" (ViTs) tan buenos como los nuestros para entender gráficos simples? ¿Pueden medir longitudes, ángulos o cantidades tan bien como un humano?

🔍 El Experimento: La Prueba de la "Percepción Gráfica"

Los autores del estudio tomaron una serie de pruebas clásicas (basadas en estudios de los años 70) donde a humanos y máquinas se les pedía hacer cosas muy básicas:

  • Comparar longitudes: ¿Qué barra es más larga?
  • Medir ángulos: ¿Qué trozo de pastel es más grande?
  • Contar puntos: ¿Cuántos puntos hay en una nube de puntos?

Luego, compararon a tres tipos de "ojos de águila" (ViTs) contra humanos y contra los viejos "detectives pixel por pixel" (CNNs).

📉 Los Resultados: ¡Sorpresa!

Aquí viene la parte divertida y un poco decepcionante para la tecnología:

  1. Los ViTs son geniales, pero... no son humanos:
    Aunque los ViTs son muy inteligentes y ganan en tareas complejas (como reconocer un gato en una foto), fallaron estrepitosamente en las tareas básicas de gráficos.

    • La analogía: Imagina que tienes un estudiante de física cuántica (el ViT) que puede resolver ecuaciones complejas, pero cuando le pides que compare dos lápices para ver cuál es más largo, se equivoca.
    • En tareas como medir la longitud de barras o contar puntos, los ViTs cometieron muchos más errores que los humanos. De hecho, en algunas pruebas, los ViTs fueron incluso peores que las redes antiguas (CNNs).
  2. El problema de la "Generalización":
    Los ViTs son muy buenos memorizando lo que han visto durante su entrenamiento, pero si cambias un poquito el gráfico (por ejemplo, mueves un poco la barra o cambias el color), se confunden.

    • La analogía: Es como un actor que ha ensayado una obra mil veces. Si el escenario es exactamente igual, actúa perfecto. Pero si mueven una silla un centímetro, el actor se queda paralizado y no sabe qué hacer. Los humanos, en cambio, entendemos el concepto de "longitud" sin importar si la barra está un poco desplazada.
  3. Las excepciones:
    Hubo un tipo de ViT llamado Swin que se portó mejor que los otros dos, y en tareas muy específicas (como juzgar sombras o direcciones), ¡hasta superó a los humanos! Pero en lo que realmente importa para los gráficos (medir y comparar), se quedó corto.

💡 ¿Qué significa esto para el futuro?

El estudio nos dice algo muy importante: No podemos simplemente usar la inteligencia artificial más moderna para diseñar o interpretar gráficos automáticamente.

  • Si quieres que una IA lea un gráfico financiero y te diga "la barra azul es más alta", un ViT podría fallar.
  • Para crear herramientas que ayuden a diseñar gráficos o que los interpreten para nosotros, necesitamos que la IA "piense" y "vea" de manera más parecida a un humano, no solo que sea más rápida o potente.

🎯 Conclusión en una frase

Los Transformers de Visión (ViTs) son como superhéroes con poderes increíbles para ver el mundo en general, pero cuando se trata de las tareas simples y cotidianas de entender gráficos (como medir una regla o contar puntos), aún no tienen la intuición natural de un humano, y a veces incluso se portan peor que las tecnologías más antiguas.

El mensaje final es: Tenemos que seguir investigando para que estas máquinas aprendan a "ver" con la misma lógica humana, no solo con más potencia de cálculo.

Recibe artículos como este en tu bandeja de entrada

Resúmenes diarios o semanales personalizados según tus intereses. Gists o resúmenes técnicos, en tu idioma.

Probar Digest →