DeepEyes: Incentivizing "Thinking with Images" via Reinforcement Learning

Each language version is independently generated for its own context, not a direct translation.

¡Claro que sí! Imagina que los modelos de inteligencia artificial actuales son como genios literarios que han leído millones de libros, pero que nunca han salido de la habitación. Cuando les preguntas sobre una imagen, intentan adivinar lo que hay basándose en lo que han leído, pero a menudo se equivocan o "alucinan" (inventan cosas) porque no pueden "ver" realmente los detalles.

El paper que me has pasado presenta a DeepEyes, un nuevo modelo que rompe esa regla. Aquí te explico cómo funciona, usando analogías sencillas:

1. El Problema: El Genio que no usa los ojos

La mayoría de los modelos actuales piensan como si tuvieran los ojos cerrados. Si les muestras un gráfico complejo o una foto con un objeto muy pequeño, intentan responder solo con palabras. Es como intentar describir un cuadro de Picasso solo por la memoria, sin mirarlo de cerca. A veces aciertan, pero a menudo fallan porque no pueden "fijarse" en los detalles.

2. La Solución: DeepEyes, el Detective con Lupa

DeepEyes es diferente. No solo "piensa" con palabras, sino que aprende a "pensar con imágenes".

Imagina que tienes un detective muy inteligente (el modelo) que está resolviendo un caso.

Antes: El detective leía la descripción del crimen y adivinaba quién era el culpable.
Ahora (DeepEyes): El detective tiene una lupa mágica. Si la descripción no es clara, él mismo decide: "Espera, necesito ver eso más de cerca". Entonces, usa la lupa para hacer zoom en una parte específica de la foto, examina los detalles y luego continúa su razonamiento.

3. ¿Cómo aprende a usar la lupa? (El Entrenamiento)

Aquí está la parte más genial. Normalmente, para enseñar a un robot a hacer cosas, necesitas darle miles de ejemplos de "paso a paso" (como un manual de instrucciones). Pero DeepEyes no necesita un manual.

El método: Usamos un sistema de premios y castigos (como entrenar a un perro o a un niño).
La regla: Si el modelo responde correctamente y ha usado su lupa para mirar bien los detalles, ¡gana un premio! Si responde bien pero no miró, o si alucina cosas que no existen, no gana el premio.
El resultado: Con el tiempo, el modelo descubre por sí solo que mirar de cerca es la clave para ganar. Aprende a decidir cuándo necesita usar la lupa y cuándo puede responder directamente, sin que nadie se lo haya enseñado explícitamente.

4. Las Tres Etapas del Aprendizaje

El paper describe cómo el modelo evoluciona, como si fuera un niño aprendiendo a usar una cámara:

Exploración torpe: Al principio, el modelo usa la lupa a lo loco. Hace zoom en cosas que no importan, como si estuviera buscando algo sin saber qué es. Es desordenado.
Exceso de confianza: Luego, empieza a usar la lupa demasiado. Mira todo mil veces, se vuelve lento y repetitivo.
Maestría eficiente: Finalmente, se vuelve un experto. Solo usa la lupa cuando es estrictamente necesario, mira el detalle exacto y responde con precisión. ¡Ahora piensa como un humano!

5. ¿Qué logra esto?

Gracias a esta capacidad de "mirar y pensar":

No se inventa cosas: Si le preguntas "¿Hay un reloj en la foto?", en lugar de adivinar, hace zoom en la mesa para asegurarse de que no hay nada. Esto reduce las "alucinaciones" (mentiras de la IA).
Resuelve problemas difíciles: Puede leer gráficos científicos pequeños o encontrar objetos diminutos en fotos de alta resolución que otros modelos ignoran.
Es más humano: Imita cómo nosotros miramos las cosas: primero vemos el panorama general, y si algo no cuadra, nos acercamos a inspeccionarlo.

En resumen

DeepEyes es como enseñarle a un robot a no confiar solo en su memoria, sino a usar sus "ojos" activamente para resolver problemas. En lugar de ser un libro que habla, se convierte en un investigador que explora, hace zoom, compara y confirma, todo mientras piensa. Y lo mejor de todo: aprendió a hacerlo solo, jugando al juego de "premios y castigos", sin necesidad de que un humano le escribiera un manual de instrucciones.

¡Es un gran paso para que las inteligencias artificiales vean el mundo tal como lo vemos nosotros!

Each language version is independently generated for its own context, not a direct translation.

Resumen Técnico: DeepEyes

1. El Problema

Los Modelos de Lenguaje y Visión (VLMs) actuales, aunque avanzados en la comprensión multimodal, enfrentan una limitación fundamental: su proceso de razonamiento es predominantemente basado en texto. A pesar de utilizar cadenas de pensamiento (Chain-of-Thought o CoT) largas, estos modelos a menudo fallan al integrar profundamente la información visual en su lógica, tratando la imagen como un contexto estático en lugar de una fuente dinámica de información.

En contraste, el razonamiento humano combina visión y cognición de manera natural, utilizando fijaciones visuales secuenciales para extraer información y tomar decisiones precisas ("pensar con imágenes"). Los enfoques anteriores han intentado solucionar esto mediante flujos de trabajo predefinidos o modelos auxiliares especializados, pero estas soluciones modulares suelen ser subóptimas, requieren datos de entrenamiento costosos (ajuste fino supervisado o SFT) y carecen de una integración fluida entre la percepción y el razonamiento.

2. Metodología: DeepEyes

DeepEyes es un modelo de lenguaje multimodal unificado diseñado para aprender a "pensar con imágenes" de forma nativa, sin necesidad de datos de razonamiento pre-recopilados para un SFT inicial (cold-start). La metodología se basa en los siguientes pilares:

Aprendizaje por Refuerzo (RL) de Extremo a Extremo: El modelo se entrena utilizando una estrategia de optimización de políticas (GRPO - Group Relative Policy Optimization) basada en recompensas de resultado. No se requiere un ajuste fino supervisado previo para los pasos intermedios de razonamiento.
Percepción Activa (Active Perception): El modelo encapsula su capacidad nativa de grounding (anclaje visual) como una herramienta interna. Durante el proceso de razonamiento, el modelo decide autónomamente si:
1. Responder directamente.
2. Ejecutar una acción de "zoom" (cortar una región específica de la imagen) para obtener una vista más detallada.
Cadena de Pensamiento Multimodal Intercalada (iMCoT): A diferencia de los CoT puramente textuales, DeepEyes genera una trayectoria donde el razonamiento textual y las observaciones visuales (imágenes recortadas) se intercalan dinámicamente. El modelo genera coordenadas de bounding box, recorta la imagen y utiliza esa nueva información visual para continuar su cadena de pensamiento.
Diseño de Recompensas y Selección de Datos:
- Estrategia de Recompensa: Se utiliza una recompensa compuesta por: precisión de la respuesta final ( $R_{acc}$ ), formato ( $R_{format}$ ) y un bono condicional ( $R_{tool}$ ). Este bono solo se otorga si la respuesta es correcta y el modelo utilizó al menos una acción de percepción activa. Esto incentiva el uso estratégico de la herramienta en lugar de acciones aleatorias.
- Selección de Datos: Se implementa un mecanismo de filtrado para seleccionar datos que tengan un alto potencial de requerir percepción activa (ej. objetos pequeños, detalles finos), evitando muestras triviales o demasiado complejas sin solución, para maximizar la eficiencia del muestreo inicial en RL.

3. Contribuciones Clave

Emergencia Nativa de "Pensar con Imágenes": DeepEyes demuestra que la capacidad de realizar percepciones activas y razonamiento visual intercalado puede emerger nativamente mediante RL, eliminando la dependencia de herramientas externas, APIs o modelos especializados separados.
Mecanismo iMCoT sin SFT: Propone un marco de entrenamiento que no requiere datos de razonamiento intermedio etiquetados, reduciendo la complejidad de la recolección de datos y permitiendo una optimización global de todo el proceso de razonamiento.
Descubrimiento de Dinámicas de Entrenamiento: El estudio revela una evolución clara en el comportamiento del modelo durante el entrenamiento por RL, pasando de:
- Exploración inicial (ineficaz).
- Compromiso de alta frecuencia (uso excesivo de la herramienta).
- Explotación eficiente (uso selectivo y preciso solo cuando es necesario).
Patrones de Razonamiento Diversos: Se observan patrones de pensamiento que imitan la cognición humana, como búsqueda visual, comparación entre regiones, confirmación visual para reducir incertidumbre y mitigación de alucinaciones.

4. Resultados Experimentales

DeepEyes (basado en Qwen2.5-VL-7B) superó significativamente a los modelos de última generación en múltiples benchmarks:

Benchmarks de Alta Resolución: En tareas que requieren localización de objetos pequeños en imágenes de 2K-8K (como $V^*$ y HR-Bench), DeepEyes logró un aumento del 18.9% en $V^*$ y del 7.3% en HR-Bench-8K en comparación con Qwen2.5-VL-7B, superando incluso a pipelines complejos y modelos propietarios como GPT-4o en ciertas métricas.
Percepción y Razonamiento General: Logró el mejor rendimiento en MME-RealWorld-Lite, superando versiones de 7B y 32B de modelos base.
Grounding y Alucinaciones: Mejoró la precisión de anclaje (grounding) y redujo significativamente las alucinaciones al obligar al modelo a verificar visualmente sus suposiciones textuales.
Razonamiento Matemático: Mostró mejoras consistentes en benchmarks de razonamiento matemático visual (MathVista, MathVerse, etc.), demostrando que la percepción activa ayuda a resolver problemas abstractos complejos.
Generalización Zero-Shot: El modelo pudo integrar nuevas herramientas (como rotación de imágenes) solo mediante instrucciones del sistema, sin reentrenamiento, logrando mejoras en tareas de OCR rotado.

5. Significado e Impacto

El trabajo de DeepEyes representa un avance significativo hacia el razonamiento multimodal verdadero. Al demostrar que un modelo puede aprender a interactuar dinámicamente con la información visual (zoom, selección de regiones) mediante recompensas de resultado, se cierra la brecha entre la percepción y la cognición en IA.

Eficiencia: Elimina la necesidad de arquitecturas modulares complejas y costosas.
Interpretabilidad: El proceso de razonamiento intercalado (iMCoT) hace que la toma de decisiones del modelo sea más transparente y alineada con el proceso cognitivo humano.
Escalabilidad: La capacidad de mejorar el rendimiento simplemente aumentando el tamaño del modelo y la complejidad de los datos de razonamiento sugiere un camino claro para el desarrollo de agentes visuales más inteligentes y autónomos.

En conclusión, DeepEyes establece un nuevo paradigma donde la "percepción activa" no es un módulo añadido, sino una habilidad intrínseca aprendida que permite a los modelos de visión y lenguaje razonar de manera más profunda, precisa y robusta.

DeepEyes: Incentivizing "Thinking with Images" via Reinforcement Learning

1. El Problema: El Genio que no usa los ojos

2. La Solución: DeepEyes, el Detective con Lupa

3. ¿Cómo aprende a usar la lupa? (El Entrenamiento)

4. Las Tres Etapas del Aprendizaje

5. ¿Qué logra esto?

En resumen

Resumen Técnico: DeepEyes

1. El Problema

2. Metodología: DeepEyes

3. Contribuciones Clave

4. Resultados Experimentales

5. Significado e Impacto

Más como este

Model2Kernel: Model-Aware Symbolic Execution For Safe CUDA Kernels

Algorithmic Barriers to Detecting and Repairing Structural Overspecification in Adaptive Data-Structure Selection

Zero-Cost NDV Estimation from Columnar File Metadata

Persistence-based topological optimization: a survey

Multi-LLM Query Optimization