VisBrowse-Bench: Benchmarking Visual-Native Search for Multimodal Browsing Agents

Zhengbo Zhang, Jinbo Su, Zhaowen Zhou, Changtao Miao, Yuhan Hong, Qimeng Wu, Yumeng Liu, Feier Wu, Yihe Tian, Yuhao Liang, Zitong Shan, Wanke Xia, Yi-Fan Zhang, Bo Zhang, Zhe Li, Shiming Xiang, Ying Y

Publicado 2026-03-18

📖 4 min de lectura☕ Lectura para el café

Ver en arXiv ↗PDF ↗

Each language version is independently generated for its own context, not a direct translation.

¡Hola! Imagina que el mundo de la inteligencia artificial (IA) es como una gran biblioteca llena de libros y fotos. Durante mucho tiempo, los "bibliotecarios" de IA (los modelos de lenguaje) solo sabían leer los títulos de los libros, pero no podían mirar las fotos dentro de ellos.

Recientemente, estos bibliotecarios han aprendido a "ver" imágenes, pero hay un problema: las pruebas que usamos para ver si son buenos no son lo suficientemente difíciles. A menudo, les mostramos una foto y les decimos: "Busca en Google qué es esto". Si la IA usa una herramienta de búsqueda de imágenes, encuentra la respuesta en segundos sin realmente pensar o analizar la foto. Es como si le dieras a un estudiante un examen y le permitieras usar Google para copiar las respuestas sin leer el libro.

VisBrowse-Bench es el nuevo examen "trampa" diseñado para ver si estos bibliotecarios realmente saben investigar.

Aquí te explico los puntos clave con analogías sencillas:

1. El Problema: La "Trampa del Copiador"

En las pruebas anteriores, si le mostrabas una foto de un edificio y preguntabas "¿Qué era esto antes?", la IA podía simplemente usar una herramienta de "búsqueda inversa de imágenes" (como Google Lens) y obtener la respuesta: "Era una fábrica de cerveza".

El problema: La IA no tuvo que usar su cerebro para analizar la foto. Solo usó una herramienta mágica. No demostró que entendía la imagen, solo que sabía usar el buscador.

2. La Solución: VisBrowse-Bench (El Examen Definitivo)

Los autores crearon un nuevo banco de pruebas con 169 preguntas muy difíciles. La regla de oro es: La respuesta no puede encontrarse solo leyendo texto.

Imagina que la pregunta es un rompecabezas de 3 piezas:

La Foto Inicial: Te muestran una foto de un grupo de personas.
El Viaje: Tienes que buscar en internet, pero no puedes solo leer noticias. Tienes que encontrar otras fotos en diferentes páginas web.
La Conexión Visual: Tienes que comparar la foto original con las nuevas fotos que encontraste. Por ejemplo: "En la foto original, la persona de la derecha lleva una camisa roja. Busca en internet quién es esa persona, encuentra una foto de ella en un concierto, y mira qué color de corbata lleva en esa foto".

Si la IA intenta responder solo leyendo texto, fallará. Tiene que "viajar" por internet, mirar fotos, recortarlas (como usar unas tijeras digitales) y compararlas.

3. El "Agente" (El Detective)

Para hacer esto, los investigadores crearon un "Agente" (un detective digital) que tiene cinco herramientas en su cinturón:

🔍 Búsqueda de Texto: Para leer noticias.
🖼️ Búsqueda de Imágenes: Para encontrar fotos.
🔙 Búsqueda Inversa: Para identificar objetos en una foto.
✂️ Recortar: Para hacer zoom en una parte pequeña de una foto (como mirar una etiqueta de ropa).
🌐 Visitar Web: Para leer el contenido de una página específica.

El agente debe usar estas herramientas en orden, como un detective que sigue pistas. No puede saltar directamente a la respuesta; debe construir el caso paso a paso.

4. Los Resultados: ¡Es muy difícil!

Los autores probaron a los mejores "detectives" del mundo (modelos como Claude, GPT, Gemini, etc.).

El resultado: ¡Fue un desastre! Incluso el modelo más inteligente (Claude-4.6-Opus) solo acertó el 47.6% de las preguntas.
La lección: Esto nos dice que, aunque las IAs son muy inteligentes, todavía son muy malas cuando tienen que mirar, pensar y buscar imágenes al mismo tiempo. A menudo, se rinden y tratan de adivinar solo con texto, o se pierden en el camino.

En resumen

VisBrowse-Bench es como un gimnasio para la visión de las IAs. Antes, las IAs hacían pesas con los ojos cerrados (solo texto). Ahora, este nuevo examen las obliga a hacer pesas con los ojos abiertos, mirando fotos, comparando detalles y navegando por el mundo real.

El mensaje final es claro: Tenemos que entrenar a nuestras IAs para que no solo "busquen" información, sino que realmente "vean" y "entiendan" lo que encuentran. Hasta que no superen este examen, no estarán listas para ayudarnos en situaciones reales donde las fotos y los textos se mezclan.

VisBrowse-Bench: Benchmarking Visual-Native Search for Multimodal Browsing Agents

1. El Problema: La "Trampa del Copiador"

2. La Solución: VisBrowse-Bench (El Examen Definitivo)

3. El "Agente" (El Detective)

4. Los Resultados: ¡Es muy difícil!

En resumen

1. Problema y Motivación

2. Metodología: VisBrowse-Bench

3. Contribuciones Clave

4. Resultados Experimentales

5. Significado e Impacto

VisBrowse-Bench: Benchmarking Visual-Native Search for Multimodal Browsing Agents

1. El Problema: La "Trampa del Copiador"

2. La Solución: VisBrowse-Bench (El Examen Definitivo)

3. El "Agente" (El Detective)

4. Los Resultados: ¡Es muy difícil!

En resumen

1. Problema y Motivación

2. Metodología: VisBrowse-Bench

3. Contribuciones Clave

4. Resultados Experimentales

5. Significado e Impacto

Más como este

Exploration and Exploitation Errors Are Measurable for Language Model Agents

SciFi: A Safe, Lightweight, User-Friendly, and Fully Autonomous Agentic AI Workflow for Scientific Applications

Numerical Instability and Chaos: Quantifying the Unpredictability of Large Language Models

Optimizing Earth Observation Satellite Schedules under Unknown Operational Constraints: An Active Constraint Acquisition Approach

WebXSkill: Skill Learning for Autonomous Web Agents