Traceable Evidence Enhanced Visual Grounded Reasoning: Evaluation and Methodology

Este trabajo presenta TreeBench, un nuevo benchmark diseñado para evaluar el razonamiento visual fundamentado mediante evidencia trazable, y propone TreeVGR, un paradigma de entrenamiento que mejora significativamente el rendimiento de los modelos en tareas de localización y razonamiento complejo.

Haochen Wang, Xiangtai Li, Zilong Huang, Anran Wang, Jiacong Wang, Tao Zhang, Jiani Zheng, Sule Bai, Zijian Kang, Jiashi Feng, Zhuochen Wang, Zhaoxiang Zhang

Publicado 2026-03-06
📖 4 min de lectura☕ Lectura para el café

Each language version is independently generated for its own context, not a direct translation.

¡Claro que sí! Imagina que los modelos de inteligencia artificial (IA) que ven imágenes son como niños muy inteligentes que acaban de aprender a leer. Pueden describir lo que ven ("hay un perro"), pero a menudo fallan cuando tienen que pensar con más profundidad o encontrar cosas pequeñas y específicas en un mar de detalles.

Este paper presenta dos grandes novedades para ayudar a estos "niños" a pensar mejor: un examen muy difícil (TreeBench) y un método de entrenamiento especial (TreeVGR).

Aquí te lo explico con analogías sencillas:

1. El Problema: "Pensar con imágenes" vs. "Adivinar con texto"

Hasta ahora, muchas IAs intentaban responder preguntas sobre imágenes basándose principalmente en lo que "saben" por texto (como un libro de historia), ignorando los detalles reales de la foto. Es como si alguien te preguntara: "¿De qué color es el faro en la esquina de la foto?" y la IA respondiera basándose en que "los faros suelen ser blancos", sin mirar realmente la foto.

Las nuevas IAs (como OpenAI-o3) han empezado a aprender a "pensar con imágenes": miran la foto, señalan una zona y luego piensan. Pero nadie tenía un examen para ver si realmente lo hacían bien o si solo estaban adivinando.

2. TreeBench: El "Examen de Detectives"

Los autores crearon TreeBench, que es como un examen de detectives para IAs. No es un examen normal; es un examen diseñado para ser trampa si no miras de verdad.

  • La analogía: Imagina que te dan una foto de un estadio lleno de 10,000 personas.
    • Pregunta fácil: "¿Hay gente en la foto?" (Cualquiera responde sí).
    • Pregunta TreeBench: "¿Qué tipo de zapatos lleva la niña sentada en la silla del centro, que está medio tapada por un poste de luz?"
  • Las reglas del examen:
    1. Enfoque en lo pequeño: Tienes que encontrar objetos diminutos en escenas caóticas (como buscar una aguja en un pajar).
    2. Evidencia trazable (La caja mágica): No basta con dar la respuesta. La IA tiene que dibujar un recuadro alrededor del objeto al que se refiere. Si dice "la niña", tiene que marcar dónde está la niña. Si el recuadro está mal, la respuesta no cuenta, aunque sea correcta por suerte.
    3. Razonamiento de segundo nivel: No solo es "¿dónde está?", sino "¿qué pasa si miro desde el punto de vista de esa persona?" o "¿qué objeto está tocando a ese otro?".

El resultado: ¡Fue un desastre para las IAs más famosas! Incluso la IA más avanzada (OpenAI-o3) sacó menos del 55%. Esto demuestra que, aunque son inteligentes, aún no saben "pensar con imágenes" de verdad como los humanos.

3. TreeVGR: El "Entrenador de Detectives"

Para solucionar esto, crearon TreeVGR. Es un nuevo método de entrenamiento que enseña a la IA a no solo dar la respuesta, sino a justificarla con evidencia visual.

  • La analogía del entrenamiento:

    • Antes: El entrenador (la IA) le decía al alumno: "Si aciertas la respuesta, ¡bien!". Si el alumno adivinaba, ganaba puntos.
    • Con TreeVGR: El entrenador le dice: "Primero, señala con el dedo (dibuja el recuadro) exactamente de qué estás hablando. Si tu dedo no apunta al objeto correcto, no importa si la respuesta es correcta, no ganas puntos".
  • La recompensa doble: Usan un sistema de recompensas (como un videojuego) que premia dos cosas a la vez:

    1. Que la respuesta final sea correcta.
    2. Que el recuadro que dibujaron sea preciso (ni muy grande, ni muy pequeño, ni en el lugar equivocado).

Esto obliga a la IA a mirar la foto, encontrar el objeto, marcarlo y luego pensar la respuesta. Es como enseñar a un niño a no saltarse los pasos: primero observa, luego señala, luego responde.

4. ¿Qué lograron?

Al usar este método de entrenamiento (TreeVGR) en un modelo base (Qwen2.5-VL), vieron mejoras increíbles:

  • La IA empezó a encontrar objetos pequeños que antes ignoraba.
  • Sus "recuadros" (evidencia) fueron mucho más precisos.
  • Mejoró en otros exámenes difíciles, demostrando que al aprender a "señalar antes de hablar", se volvió más inteligente en general.

En resumen

Este paper dice: "Para que las IAs piensen como humanos con imágenes, no basta con que den la respuesta correcta; tienen que poder señalar con el dedo exactamente a qué se refieren".

Crearon el TreeBench (el examen difícil que mide si realmente señalan bien) y el TreeVGR (el método de entrenamiento que las obliga a hacerlo). Es un paso gigante para que las máquinas dejen de "alucinar" y empiecen a ver el mundo tal como es, con todos sus detalles pequeños y complejos.