VisDoT : Enhancing Visual Reasoning through Human-Like Interpretation Grounding and Decomposition of Thought

El artículo presenta VisDoT, un marco que mejora el razonamiento visual en modelos de lenguaje y visión al imitar la percepción humana mediante la descomposición de tareas en subpreguntas de percepción y lógica, logrando resultados de vanguardia en benchmarks de comprensión de gráficos.

Eunsoo Lee, Jeongwoo Lee, Minki Hong, Jangho Choi, Jihie Kim

Publicado 2026-03-13
📖 4 min de lectura☕ Lectura para el café

Each language version is independently generated for its own context, not a direct translation.

¡Claro que sí! Imagina que tienes un amigo muy inteligente, pero un poco despistado cuando se trata de gráficos. Si le muestras un gráfico de barras sobre las ventas de la empresa y le preguntas: "¿Qué país vendió más?", él podría mirar la imagen, ver muchos colores y líneas, y responder con una conjetura adivinada, como si estuviera adivinando en un juego de "¿Quién es?".

Este es el problema que resuelve el paper VisDoT. Vamos a explicarlo como si fuera una receta de cocina o un entrenamiento deportivo.

1. El Problema: El "Ciego" con Gafas de Sol

Los modelos de inteligencia artificial actuales (llamados LVLMs) son como ese amigo inteligente. Pueden leer mucho texto, pero cuando ven un gráfico, a menudo no saben dónde mirar.

  • El error: En lugar de decir "Mira, la barra roja es más alta que la azul", el modelo a veces dice cosas como "Creo que la barra azul es la ganadora" sin realmente medir la altura.
  • La causa: Les falta "anclaje visual". No conectan bien lo que ven (la imagen) con lo que piensan (la lógica). Es como intentar resolver un rompecabezas sin haber mirado primero las piezas.

2. La Solución: VisDoT (El Entrenador Humano)

Los autores proponen VisDoT, un nuevo método que enseña a la IA a pensar como un humano al leer un gráfico. Imagina que VisDoT es un entrenador personal que le dice al modelo: "¡Espera! No adivines. Primero mira, luego piensa".

Para lograrlo, usan dos trucos principales:

Truco A: Las 4 Habilidades de Observación (Percepción)

Basándose en cómo ven los humanos (psicología), el sistema entrena a la IA en cuatro tareas básicas antes de intentar responder cualquier pregunta difícil:

  1. Posición: ¿Dónde está esto? (¿Es la barra de arriba o la de abajo?).
  2. Longitud: ¿Qué tan larga es? (¿Es más alta que la otra?).
  3. Patrón: ¿Qué color o forma tiene? (¿Es la barra rayada o la lisa?).
  4. Extracción: ¿Qué número dice aquí? (Leer el dato exacto).

La analogía: Es como si le dieras a un detective una lupa y le dijeras: "Primero, localiza el objeto (Posición), luego mide su tamaño (Longitud), identifica su color (Patrón) y lee la etiqueta (Extracción)". Solo después de hacer esto, se le permite hacer la deducción final.

Truco B: Descomposición del Pensamiento (DoT)

Aquí está la magia. En lugar de lanzar una pregunta compleja y esperar una respuesta mágica, VisDoT le pide a la IA que rompa la pregunta en trocitos.

  • Pregunta original: "¿Cuánto más vendió el País A que el País B?"
  • Pensamiento antiguo (CoT): La IA intenta calcular todo de golpe y a veces se pierde.
  • Pensamiento VisDoT (DoT):
    1. Paso 1 (Percepción): "Primero, voy a mirar la barra del País A y anotar su valor." -> Resultado: 50.
    2. Paso 2 (Percepción): "Ahora, miro la barra del País B y anoto su valor." -> Resultado: 30.
    3. Paso 3 (Lógica): "Ahora que tengo los dos números, resto 50 menos 30." -> Resultado: 20.

Es como si le dijeras a alguien: "No intentes cocinar la cena entera de una vez. Primero corta las verduras, luego pica la carne, y finalmente mezcla todo".

3. Los Resultados: ¡El Entrenado Gana!

Cuando entrenaron a un modelo (InternVL) con este método:

  • Mejoró mucho: En pruebas de gráficos, mejoró su puntuación en más de un 11%.
  • Superó a los gigantes: ¡En pruebas difíciles, este modelo entrenado con VisDoT superó a GPT-4o (uno de los modelos más potentes del mundo) en la comprensión de gráficos!
  • Es más transparente: Como la IA escribe sus pasos ("Primero miré esto, luego calculé aquello"), podemos ver exactamente dónde se equivocó si lo hace, en lugar de solo ver una respuesta incorrecta sin explicación.

En Resumen

VisDoT es como enseñar a un estudiante a leer un mapa. En lugar de decirle "¿Dónde está París?", primero le enseña a mirar la brújula (posición), medir la distancia (longitud) y reconocer el símbolo del aeropuerto (patrón). Solo después de dominar esos pasos básicos, le deja resolver el problema complejo.

Gracias a este método, las máquinas dejan de "adivinar" lo que ven y empiezan a entender realmente lo que están mirando, haciendo que sean mucho más útiles para analizar datos, finanzas y noticias visuales.