Vision-DeepResearch: Incentivizing DeepResearch Capability in Multimodal Large Language Models

El artículo presenta Vision-DeepResearch, un nuevo paradigma para modelos de lenguaje grandes multimodales que internaliza capacidades de investigación profunda mediante búsqueda visual y textual multi-turno, multi-entidad y multi-escala, superando significativamente a los enfoques existentes y a flujos de trabajo basados en modelos propietarios de vanguardia en escenarios reales con alto nivel de ruido.

Wenxuan Huang, Yu Zeng, Qiuchen Wang, Zhen Fang, Shaosheng Cao, Zheng Chu, Qingyu Yin, Shuang Chen, Zhenfei Yin, Lin Chen, Zehui Chen, Xu Tang, Yao Hu, Philip Torr, Feng Zhao, Wanli Ouyang

Publicado 2026-03-03
📖 4 min de lectura☕ Lectura para el café

Each language version is independently generated for its own context, not a direct translation.

¡Claro que sí! Imagina que tienes un amigo muy inteligente, un "genio" que ha leído millones de libros y sabe mucho de historia, ciencia y cultura. Sin embargo, este genio tiene un problema: no tiene ojos para ver el mundo real en tiempo real y, si le preguntas algo sobre una foto específica, a veces se inventa la respuesta porque no sabe buscar bien.

Este paper presenta a Vision-DeepResearch, que es como darle a ese genio unas gafas de superpoderes y un detective privado que nunca se cansa.

Aquí te explico cómo funciona, usando analogías sencillas:

1. El Problema: El "Detective Torpe"

Antes de este nuevo sistema, las inteligencias artificiales que veían fotos (como las que tienes en tu móvil) eran como detectives muy torpes:

  • El error de la foto completa: Si le mostrabas una foto de un estadio lleno de gente y preguntabas "¿Quién es ese jugador en el centro?", el detective miraba la foto entera y se abrumaba con el ruido. No sabía a quién mirar. Era como intentar encontrar una aguja en un pajar mirando todo el pajar de una vez.
  • Poca paciencia: Si la primera búsqueda no daba resultado, el detective se rendía rápidamente. No tenía la paciencia de probar 20 veces, cambiar la pregunta o recortar la foto para ver mejor.

2. La Solución: El "Investigador Obsesivo" (Vision-DeepResearch)

Los autores crearon un nuevo sistema que enseña a la IA a comportarse como un detective de novela negra que no descansa hasta resolver el caso.

  • La técnica del "Zoom Infinito" (Búsqueda Multi-escala):
    Imagina que tienes una foto de una calle llena de tiendas. En lugar de mirar la calle entera, el nuevo sistema hace esto:

    1. Mira la foto entera.
    2. Si no ve nada claro, recorta una tienda pequeña.
    3. Si sigue sin ver, recorta el letrero de la tienda.
    4. Si aún no encuentra, recorta la letra de un cartel.
      Hace esto una y otra vez, probando diferentes tamaños y partes de la imagen, hasta encontrar la pista exacta. Es como si alguien te dijera: "No busques en todo el mapa, busca en este barrio, luego en esta calle, luego en esta puerta".
  • La Búsqueda de "Pistas Ocultas" (Búsqueda de Texto):
    Una vez que el detective encuentra una pista visual (por ejemplo, un nombre en un cartel), no se detiene. Va a Internet y busca ese nombre, luego busca quién es el dueño de esa tienda, luego busca dónde nació el dueño, etc. Puede hacer docenas de preguntas encadenadas (como un juego de "conecta los puntos") para reunir toda la información necesaria.

3. ¿Cómo aprende a ser tan bueno? (El Entrenamiento)

Para que la IA aprenda a hacer esto, los autores no le dieron solo libros de texto. Crearon un gimnasio de entrenamiento muy especial:

  • El Simulador de "Fallas y Éxitos": Crearon millones de ejercicios donde la IA intentaba resolver preguntas difíciles sobre fotos. A veces fallaba, a veces tenía que recortar la foto 10 veces, a veces tenía que buscar en Google 50 veces.
  • El "Entrenador Personal" (Reinforcement Learning): Imagina que la IA es un perro aprendiendo trucos. Cada vez que encuentra la respuesta correcta después de mucho esfuerzo, recibe una "galleta" (recompensa). Si se rinde rápido o se equivoca, no recibe nada. Con el tiempo, la IA aprende que la paciencia y la búsqueda exhaustiva son la clave para ganar la galleta.

4. El Resultado: Un Campeón

Gracias a este entrenamiento, el nuevo sistema (Vision-DeepResearch) es capaz de:

  • Resolver preguntas que antes eran imposibles para las IAs.
  • Hacer cientos de búsquedas en segundos sin cansarse.
  • Superar a sistemas comerciales muy caros y potentes, pero usando modelos más pequeños y eficientes.

En resumen

Piensa en Vision-DeepResearch como pasar de tener un asistente que lee un mapa a tener un explorador con un dron y un equipo de investigación.

  • El asistente antiguo miraba la foto de lejos y adivinaba.
  • El nuevo sistema aterriza el dron sobre la foto, recorta la parte importante, busca en la biblioteca, llama a un experto, verifica los datos y te da la respuesta exacta, aunque la pregunta sea muy compleja.

Es como enseñar a una máquina a tener la curiosidad infinita y la paciencia metódica de un humano experto, pero a la velocidad de un ordenador.