VTC-Bench: Evaluating Agentic Multimodal Models via Compositional Visual Tool Chaining

El artículo presenta VTC-Bench, un benchmark integral que evalúa la capacidad de los modelos multimodales para encadenar herramientas visuales mediante 32 operaciones OpenCV y 680 problemas complejos, revelando que los modelos actuales, incluido el líder Gemini-3.0-Pro, tienen dificultades significativas para componer múltiples herramientas y generalizar a operaciones no vistas.

Xuanyu Zhu, Yuhao Dong, Rundong Wang, Yang Shi, Zhipeng Wu, Yinlun Peng, YiFan Zhang, Yihang Lou, Yuanxing Zhang, Ziwei Liu, Yan Bai, Yuan Zhou

Publicado 2026-03-17
📖 4 min de lectura☕ Lectura para el café

Each language version is independently generated for its own context, not a direct translation.

¡Claro que sí! Imagina que los modelos de Inteligencia Artificial (IA) que ven imágenes son como cocineros novatos muy inteligentes. Saben describir qué hay en un plato ("veo una pizza con pepperoni"), pero si les pides que hagan algo complejo con esa pizza (como "corta el borde quemado, mide el diámetro exacto y cuenta los trozos de queso"), se quedan atascados.

El paper que nos ocupa, VTC-Bench, es como un examen de cocina de nivel olímpico diseñado específicamente para ver qué tan buenos son estos "cocineros digitales" cuando tienen que usar herramientas reales.

Aquí te lo explico con una analogía sencilla:

1. El Problema: El "Cajón de Herramientas" Vacío

Antes, los exámenes para estas IAs eran como pedirles que describieran un dibujo. Pero en el mundo real, necesitamos que las IAs actúen.

  • La situación actual: Imagina que le das a un robot un martillo y le dices "construye una casa". El robot intenta golpear los ladrillos con el martillo porque es la única herramienta que conoce, aunque debería usar un destornillador o una sierra.
  • El fallo: Las IAs actuales tienden a usar siempre las mismas herramientas simples (como "girar" o "cortar") y se niegan a aprender a usar las herramientas nuevas y complejas que necesitan para tareas difíciles.

2. La Solución: VTC-Bench (El Gimnasio de Herramientas)

Los autores crearon VTC-Bench, que es básicamente un gimnasio de entrenamiento con 32 herramientas diferentes (basadas en un programa real de edición de imágenes llamado OpenCV).

Piensa en estas herramientas como los utensilios de una cocina profesional:

  • Geometría: Tijeras, reglas, espejos (para girar o recortar).
  • Mejora: Filtros de luz, limpiadores de polvo (para quitar niebla o mejorar el brillo).
  • Detección: Lupa, detectores de bordes (para encontrar formas ocultas).
  • Dibujo: Lápices y marcadores (para medir y señalar).

El examen tiene 680 problemas reales, desde "lee este texto borroso" hasta "cuenta cuántos granos de arroz hay en esta foto".

3. La Prueba: Tres Niveles de Dificultad

El examen no es solo "ver y responder". Está dividido en tres niveles, como un videojuego:

  • Nivel 1 (El Ajuste de la Cámara): La foto está mal (borrosa, de lado, oscura). La IA debe usar herramientas para "arreglar" la imagen antes de responder. Ejemplo: "Esta foto está al revés, gírala para leer el texto".
  • Nivel 2 (El Contador Preciso): Ahora la imagen está bien, pero hay que medir o contar cosas con exactitud. Ejemplo: "¿Cuántos puntos rojos hay?" o "¿Qué tan largo es este objeto en centímetros?".
  • Nivel 3 (El Arquitecto): Aquí es donde se pone difícil. La IA debe combinar varias herramientas en una secuencia lógica. Ejemplo: "Primero limpia la niebla, luego recorta la esquina, luego cuenta los objetos y finalmente dibuja una línea para medir".

4. Los Resultados: La Realidad Duele

Cuando pusieron a 19 de las IAs más famosas del mundo (como las de Google, OpenAI y modelos de código abierto) a pasar este examen, los resultados fueron reveladores:

  • El líder apenas llega al 50%: Incluso la IA más avanzada (Gemini-3.0-Pro) solo acertó la mitad de las veces. ¡Es como si el mejor estudiante de la clase reprobara el examen de conducir!
  • El problema de la "Zona de Comodidad": Las IAs son como personas que solo saben usar el microondas. Si les das un horno, una freidora y una parrilla, intentan cocinar todo en el microondas. Se aferran a las herramientas que ya conocen (girar, recortar) y evitan las herramientas complejas que realmente necesitan.
  • Código vs. Interfaz: Descubrieron que no importa si la IA escribe código (como un programador) o usa botones (como un usuario normal); ambas tienen problemas similares para planificar pasos largos.

5. La Lección Final

El paper concluye que, aunque estas IAs son geniales para hablar sobre imágenes, son muy malas para actuar sobre ellas de forma inteligente.

La analogía final:
Imagina que le das a un copiloto automático un mapa y un volante. Hasta ahora, el copiloto solo sabía decirte "hay un árbol a la derecha". Con VTC-Bench, le estamos pidiendo que conduzca el coche, esquivando baches, midiendo la velocidad y ajustando los espejos. Y la verdad es que, por ahora, el copiloto se está mareando.

Este trabajo es importante porque nos dice: "No sigamos engañándonos pensando que las IAs ya son perfectas. Necesitamos entrenarlas mejor para que aprendan a usar todo el taller de herramientas, no solo el martillo".

Recibe artículos como este en tu bandeja de entrada

Resúmenes diarios o semanales personalizados según tus intereses. Gists o resúmenes técnicos, en tu idioma.

Probar Digest →