AgentVista: Evaluating Multimodal Agents in Ultra-Challenging Realistic Visual Scenarios

El artículo presenta AgentVista, un nuevo benchmark diseñado para evaluar agentes multimodales generales en escenarios visuales realistas y de alta complejidad que requieren el uso de herramientas híbridas a largo plazo, revelando mediante una evaluación exhaustiva que incluso los modelos más avanzados actuales tienen un rendimiento limitado en estas tareas.

Zhaochen Su, Jincheng Gao, Hangyu Guo, Zhenhua Liu, Lueyang Zhang, Xinyu Geng, Shijue Huang, Peng Xia, Guanyu Jiang, Cheng Wang, Yue Zhang, Yi R. Fung, Junxian He

Publicado 2026-03-03
📖 4 min de lectura☕ Lectura para el café

Each language version is independently generated for its own context, not a direct translation.

¡Claro que sí! Imagina que los "agentes de IA" (esos robots inteligentes que pueden ver fotos y usar internet) son como nuevos empleados recién contratados en una oficina muy ocupada.

Hasta ahora, los jefes de estas empresas (los investigadores) solo les hacían exámenes muy simples: "Mira esta foto de un gato, ¿qué es?" o "Busca en Google el clima de Madrid". Pero en la vida real, el trabajo es mucho más complicado.

Aquí te explico el papel AGENTVISTA como si fuera una historia:

1. El Problema: Los Exámenes Falsos

Imagina que quieres contratar a un mecánico para arreglar tu coche.

  • Los exámenes antiguos: Le mostrabas una foto de un motor y le preguntabas: "¿Qué color es este tornillo?". O le daban una lista de herramientas y le decían: "Usa la llave número 5".
  • La realidad: En la vida real, el mecánico tiene que mirar una foto borrosa de un ruido extraño, buscar en el manual técnico en internet, comparar esa foto con un diagrama de otro coche, calcular cuánto cuesta la pieza y luego llamar a un proveedor para ver si la tienen en stock. ¡Todo al mismo tiempo!

El problema es que los exámenes antiguos no probaban si el mecánico podía hacer todo ese proceso largo y complicado. Solo probaban si sabía mirar o si sabía buscar.

2. La Solución: AGENTVISTA (El "Entrenamiento de Supervivencia")

Los autores de este papel crearon AGENTVISTA, que es como un gimnasio de entrenamiento extremo para estos robots.

  • ¿Qué es? Es una lista de 209 misiones muy difíciles, reales y caóticas.
  • El escenario: No son fotos de estudio perfectas. Son fotos de tu cocina desordenada, capturas de pantalla de webs confusas, mapas de trenes antiguos o diagramas de circuitos.
  • La misión: El robot no solo tiene que "ver" y "pensar", tiene que actuar.
    • Ejemplo: "Mira esta foto de mi suelo (Imagen 1) y esta foto de mi habitación (Imagen 2). Quiero poner un suelo nuevo que se parezca al de la foto 1. Busca en internet qué productos existen, verifica que encajen en mi habitación, calcula cuánto material necesito basándome en las medidas de la foto y dime cuánto me costará en total".

3. Las Herramientas del Robot

Para hacer estas misiones, el robot tiene una "caja de herramientas" digital:

  1. Búsqueda en la web: Como usar Google.
  2. Búsqueda de imágenes: Como usar Google Lens para buscar cosas que se ven parecidas.
  3. Navegación: Entrar a las páginas web y leerlas.
  4. Código (Matemáticas y Edición): Como tener un asistente que puede recortar la foto, medir distancias o hacer cuentas complejas.

La clave es que el robot debe mezclar estas herramientas. No puede solo buscar en Google; tiene que recortar la foto, luego buscar, luego volver a medir, y así sucesivamente.

4. Los Resultados: ¡La IA todavía está aprendiendo!

Los autores pusieron a los robots más inteligentes del mundo (como GPT-5, Gemini, Claude) a pasar este examen.

  • El resultado: ¡Fue un desastre! Incluso el robot más inteligente (Gemini-3-Pro) solo acertó el 27% de las veces.
  • ¿Por qué fallan?
    • Confusión visual: A veces el robot ve una mancha en la foto y cree que es un objeto importante, o no lee bien un número pequeño.
    • Alucinaciones: A veces inventa datos que no existen porque cree que "deberían" estar ahí.
    • Olvido: En misiones que requieren 25 pasos (como un viaje largo), el robot se olvida de lo que hizo en el paso 1 para cuando llega al paso 20.

5. La Analogía Final

Imagina que le das a un robot un mapa del tesoro (la foto) y una brújula (internet).

  • Antes: Le decías: "Ve al norte". El robot iba al norte. Fin.
  • Ahora (AGENTVISTA): Le decías: "Mira esta foto de un árbol torcido, busca en el mapa qué tipo de árbol es, calcula la sombra que hace a las 3 PM, busca en internet si hay un tesoro enterrado bajo ese tipo de árbol en esa ciudad, y si hay, calcula cuánto cuesta cavar hasta allí".

AGENTVISTA nos dice que, aunque los robots son muy listos para responder preguntas rápidas, todavía son muy torpes para resolver problemas de la vida real que requieren paciencia, mucha vista y usar varias herramientas a la vez.

¿Por qué es importante?

Porque para que la IA nos ayude de verdad (a arreglar cosas en casa, a planear viajes complejos o a diagnosticar enfermedades), primero tenemos que enseñarles a no perderse en el camino. Este papel nos da el "examen final" para ver si realmente están listos para el mundo real.