DeepEyesV2: Toward Agentic Multimodal Model

El artículo presenta DeepEyesV2, un modelo multimodal agente que, mediante un pipeline de entrenamiento en dos etapas (inicio en frío y aprendizaje por refuerzo) y un nuevo benchmark llamado RealX-Bench, demuestra una capacidad superior para integrar la percepción, la búsqueda y el razonamiento mediante la invocación adaptativa y selectiva de herramientas externas.

Jack Hong, Chenxiao Zhao, ChengLin Zhu, Weiheng Lu, Guohai Xu, Xing Yu

Publicado 2026-03-12
📖 4 min de lectura☕ Lectura para el café

Each language version is independently generated for its own context, not a direct translation.

¡Claro que sí! Imagina que los modelos de inteligencia artificial actuales son como estudiantes muy inteligentes pero un poco tímidos. Pueden leer un libro o mirar una foto y darte una respuesta, pero si necesitan hacer un cálculo matemático complejo, recortar una parte de la foto para ver mejor, o buscar información actual en internet, se quedan paralizados. Esperan a que tú les digas qué hacer.

El paper que nos presenta DeepEyesV2 es como la historia de cómo convertir a ese estudiante tímido en un detective privado proactivo y experto.

Aquí tienes la explicación sencilla, paso a paso:

1. El Problema: El Estudiante que no usa sus herramientas

Imagina que tienes un estudiante (el modelo de IA) que tiene que resolver un acertijo visual.

  • El modelo antiguo: Mira la foto, dice "creo que es una flor" y se equivoca porque no sabe qué tipo de flor es. No se atreve a usar la lupa (cortar la imagen) ni a ir a la biblioteca (buscar en Google).
  • El problema: Si solo le decimos "¡Adivina!" y le damos premios por acertar, el estudiante se vuelve perezoso. Aprende a dar respuestas rápidas y al azar en lugar de usar las herramientas que tiene a su alcance.

2. La Solución: El Entrenamiento en Dos Etapas (El "Despertar" y el "Entrenamiento")

Los autores de DeepEyesV2 se dieron cuenta de que no puedes simplemente "empujar" al estudiante a usar herramientas con premios. Necesitas un plan de dos pasos:

  • Paso 1: El "Arranque en Frío" (Cold Start) - Enseñando los fundamentos.
    Imagina que primero le das al estudiante un manual de instrucciones muy claro y le haces practicar con ejercicios donde tiene que usar la lupa o la calculadora para ganar. Le enseñamos: "Si no cortas la imagen, no puedes ver los detalles; si no buscas en internet, no tienes la información actual". Aquí, el modelo aprende cómo usar las herramientas sin miedo.
  • Paso 2: Refuerzo (Reinforcement Learning) - La práctica real.
    Una vez que el estudiante sabe cómo usar las herramientas, lo ponemos en un entorno de práctica real. Aquí, el modelo intenta resolver problemas por sí mismo. Si usa la herramienta correcta y acierta, gana puntos. Si se equivoca o usa la herramienta cuando no hace falta, pierde puntos. Con el tiempo, el modelo aprende a ser estratégico: decide cuándo usar la lupa, cuándo buscar en Google y cuándo solo pensar.

3. Las Herramientas del Detective

DeepEyesV2 no solo "mira"; actúa. Tiene tres superpoderes que combina:

  1. La Lupa (Código de Ejecución): Puede "recortar" partes de una imagen para ver detalles pequeños (como los pétalos de una flor) o hacer cálculos matemáticos precisos.
  2. La Biblioteca (Búsqueda Web): Si no sabe algo, va a internet en tiempo real para buscar información actualizada (como el precio de una acción hoy o la fecha de lanzamiento de un teléfono).
  3. El Cerebro (Razonamiento): Une todo lo que ve, lo que calcula y lo que busca para llegar a una conclusión lógica.

4. El Nuevo Examen: RealX-Bench

Para probar si este nuevo detective es realmente bueno, los autores crearon un examen especial llamado RealX-Bench.

  • Antes: Los exámenes de IA eran como preguntas de opción múltiple simples: "¿Qué color es el coche?".
  • Ahora (RealX-Bench): Son problemas del mundo real que requieren mezclar todo. Ejemplo: "Mira esta foto de un gráfico de bolsa, compara el precio de esta empresa con otra que no aparece en la foto, busca los datos de la segunda en internet y dime cuál bajó más hoy".
    • Para esto, necesitas ver (percepción), buscar (búsqueda) y calcular (razonamiento) todo a la vez. DeepEyesV2 es el único que pasa este examen con honores.

5. El Resultado: Un Agente Inteligente

Lo más increíble es que DeepEyesV2 aprende a ser adaptativo:

  • Si el problema es visual (¿qué animal es este?), usa la lupa (corta la imagen).
  • Si el problema es de cálculo (¿cuánto mide?), usa la calculadora (código).
  • Si el problema es de conocimiento (¿quién ganó el Nobel?), usa la biblioteca (búsqueda).

En resumen

DeepEyesV2 es como darle a un robot no solo ojos y cerebro, sino también manos y pies para interactuar con el mundo. Ya no es un espectador pasivo que solo describe lo que ve; es un agente activo que sabe cuándo agarrar una herramienta, cuándo investigar y cuándo pensar para resolver problemas complejos del mundo real, tal como lo haría un humano experto.

Es el paso de "ver y hablar" a "ver, pensar, actuar y resolver".