Thinking with Images as Continuous Actions: Numerical Visual Chain-of-Thought

Each language version is independently generated for its own context, not a direct translation.

¡Claro que sí! Imagina que tienes un robot muy inteligente (un modelo de lenguaje multimodal) al que le muestras una foto y le haces una pregunta, como: "¿Qué tiene en la mano el hombre de la izquierda?".

Para responder, el robot necesita "mirar" la parte correcta de la foto. Aquí es donde entra la historia de este papel, que propone una nueva forma de enseñarle a este robot a mirar.

El Problema: Dos formas "torpes" de mirar

Antes de la nueva idea, los robots usaban dos métodos para señalar partes de una imagen, y ambos tenían sus defectos:

El método de "Hablar en números" (Texto):
El robot intentaba escribir las coordenadas del recuadro como si fuera un texto normal, por ejemplo: ["4", "8", "2", "1"].
- El problema: Es como intentar medir la distancia entre dos ciudades usando solo letras del alfabeto. Si la respuesta correcta es "3.1" y el robot escribe "3.2", para el sistema son dos letras totalmente diferentes, aunque en la realidad estén muy cerca. Es como si dijera "cerca" y "lejos" como si fueran palabras opuestas, cuando en realidad son casi lo mismo. Además, los números se rompen en pedacitos sin sentido, lo que confunde al robot.
El método de "El mosaico rígido" (Parches):
El robot dividía la foto en un tablero de ajedrez gigante de cuadritos fijos y decía: "Mira el cuadrito número 5".
- El problema: Es como intentar recortar una foto con tijeras que solo cortan en cuadrados perfectos. Si el objeto que buscas es redondo o está en un ángulo raro, no encaja bien en el cuadrito. Además, cambiar el tamaño de los cuadritos requiere reconstruir todo el robot (cambiarle el cerebro), lo cual es muy difícil.

La Solución: NV-CoT (El "Lápiz Mágico")

Los autores proponen NV-CoT (Cadena de Pensamiento Visual Numérica). Imagina que en lugar de obligar al robot a escribir coordenadas o elegir cuadritos, le damos un lápiz mágico que puede dibujar un recuadro en cualquier lugar exacto de la foto, con una precisión milimétrica.

En lugar de decir "cuadro 5", el robot piensa: "Voy a dibujar un rectángulo que empieza en el punto X y termina en el punto Y".

¿Cómo funciona la magia?

De palabras a números reales: El robot ya no "adivina" una palabra de su diccionario. En su lugar, calcula un número real (como 42.5) que representa una posición exacta. Es como pasar de usar un mapa de papel con casillas a usar un GPS con coordenadas exactas.
El "aprendizaje" (Entrenamiento):
- En la escuela (Aprendizaje Supervisado): Cuando tienen las respuestas correctas, le enseñan al robot a ajustar su lápiz para que el recuadro coincida perfectamente con el objeto, usando una fórmula matemática que castiga los errores de forma suave (si te equivocas en un milímetro, no es un desastre, es un pequeño ajuste).
- En el entrenamiento (Aprendizaje por Refuerzo): Cuando no tienen las respuestas exactas, el robot prueba a dibujar muchos recuadros diferentes (algunos un poco a la izquierda, otros un poco a la derecha) y ve cuál le da la respuesta correcta a la pregunta. Si acierta, ¡se le da una recompensa! Esto le permite explorar y mejorar sin necesidad de que alguien le diga exactamente dónde está el objeto.

¿Por qué es mejor? (Las analogías)

Precisión: Es la diferencia entre decirle a un amigo "mira hacia el árbol de la esquina" (poco preciso) y decirle "mira hacia el árbol que está a 3.42 metros de la esquina" (exacto).
Velocidad: Como el robot no tiene que "pensar" en palabras extrañas para describir números, aprende más rápido y converge a la solución correcta en menos tiempo.
Flexibilidad: No está atado a un tablero de ajedrez. Puede apuntar a cualquier cosa, por pequeña o extraña que sea.

En resumen

Este papel nos dice que para que los robots entiendan mejor las imágenes, debemos dejar de obligarles a "hablar" en coordenadas raras o a mirar a través de ventanas cuadradas. En su lugar, debemos permitirles pensar directamente en números continuos, como si pudieran señalar con el dedo en una pantalla táctil.

El resultado es un robot que ve mejor, responde más rápido y comete menos errores al intentar entender lo que hay en una foto. ¡Es como darle al robot unos ojos de águila en lugar de unos prismáticos con lentes rotos!

Each language version is independently generated for its own context, not a direct translation.

Resumen Técnico: NV-CoT

1. El Problema

Los Modelos de Lenguaje Multimodal (MLLMs) recientes han comenzado a utilizar la "Cadena de Pensamiento Visual" (Visual Chain-of-Thought o Visual CoT) para realizar razonamiento basado en regiones de una imagen. Sin embargo, los enfoques existentes presentan dos limitaciones fundamentales:

Enfoques basados en texto: Serializan las coordenadas de las regiones como tokens de texto discretos (ej. ["x1", "y1", "x2", "y2"]). Esto genera:
- Desajuste de modalidad: Las coordenadas visuales son continuas, pero se predicen como texto discreto, ignorando la proximidad geométrica (un error de 0.1 en coordenadas se penaliza igual que un error grande si los tokens son diferentes).
- Fragmentación semántica: Los números se tokenizan en sub-tokens no relacionados, lo que dificulta la comparación numérica y el razonamiento, aumentando las alucinaciones.
Enfoques basados en parches (patches): Operan directamente sobre tokens visuales de alta granularidad.
- Limitación de granularidad: Están restringidos por la partición fija de la red de visión (backbone), lo que impide una selección de región precisa y flexible.
- Complejidad arquitectónica: Suelen requerir cambios arquitectónicos no triviales.

2. Metodología: NV-CoT

El artículo propone Numerical Visual Chain-of-Thought (NV-CoT), un marco que expande el espacio de acciones del MLLM desde tokens de vocabulario discretos a un espacio euclidiano continuo.

Componentes Clave:

Acciones Continuas: En lugar de generar texto, el modelo predice directamente coordenadas numéricas de cajas delimitadoras ( $[x_1, y_1, x_2, y_2]$ ) como acciones.
Arquitectura Mínima: Se extiende la cabecera estándar del LLM con cuatro cabezas lineales ligeras para predecir las coordenadas y una quinta para predecir una desviación estándar compartida. Esto evita cambios arquitectónicos masivos.
Políticas Estocásticas (Gaussianas y Laplace):
- Para la Ajuste Fino Supervisado (SFT), se utiliza una función de pérdida de regresión ( $\ell_2$ o $\ell_1$ ) para supervisar las coordenadas.
- Para el Aprendizaje por Refuerzo (RL), se reemplaza la política categórica de tokens por una política Gaussiana (o Laplace) sobre las coordenadas.
- Se introduce estocasticidad mediante el truco de reparametrización: el modelo predice la media ( $\mu$ ) y la desviación estándar ( $\sigma$ ) y muestrea las coordenadas ( $b = \mu + \sigma \epsilon$ ).
Compatibilidad con RL (GRPO): Esta formulación permite calcular relaciones de importancia (importance ratios) y penalizaciones KL de forma analítica, haciendo que NV-CoT sea compatible con algoritmos de optimización de políticas como GRPO (Group Relative Policy Optimization).

3. Contribuciones Clave

Expansión del Espacio de Acciones: NV-CoT transforma el razonamiento visual de una tarea de generación de texto a una tarea de control continuo, permitiendo la generación directa de coordenadas numéricas precisas.
Políticas de Coordenadas para RL: Se desarrollan políticas Gaussianas y Laplace con muestreo reparametrizado y relaciones de importancia analíticas, integrando la localización continua en algoritmos de RL modernos.
Validación Empírica: Demostración de que el razonamiento visual continuo supera a los métodos basados en texto y parches en precisión de localización, exactitud de la respuesta final y velocidad de convergencia.

4. Resultados Experimentales

Los experimentos se realizaron en tres benchmarks: V*Bench, HR-Bench 4K y HR-Bench 8K, comparando NV-CoT contra 8 modelos base (incluyendo Vis-CoT, DeepEyes, LVR, PaDT, etc.).

Rendimiento General: NV-CoT superó consistentemente a los modelos base tanto en configuraciones SFT como RL.
- En SFT (sobre Vis-CoT-7B), NV-CoT mejoró la precisión general en V*Bench en un +3.5% y en HR-Bench 4K en un +2.0%.
- En RL (sobre DeepEyes-7B), NV-CoT logró mejoras adicionales de +2.6% a +2.7% en los benchmarks principales.
Precisión de Localización: NV-CoT mejoró significativamente el IoU (Intersección sobre Unión) de las cajas delimitadoras, reduciendo la ambigüedad en la selección de regiones.
Eficiencia: El modelo convergió más rápido durante el entrenamiento en comparación con los métodos basados en texto.
Comparación de Políticas: La política Laplace (asociada a la pérdida $\ell_1$ ) mostró un rendimiento ligeramente superior a la política Gaussiana ( $\ell_2$ ), lo cual es consistente con hallazgos previos en regresión de cajas delimitadoras.
Análisis de Incertidumbre: Se observó que las trayectorias exitosas tenían valores de escala ( $\alpha$ ) más bajos, indicando que el modelo es más "seguro" (menos incierto) cuando localiza correctamente.

5. Significado e Impacto

NV-CoT representa un cambio de paradigma en cómo los MLLs interactúan con las imágenes para el razonamiento:

Resuelve el desajuste de modalidad: Al tratar las coordenadas como valores continuos reales en lugar de tokens discretos, se alinea mejor con la naturaleza geométrica de las imágenes.
Flexibilidad sin complejidad: Logra una precisión superior sin depender de particiones fijas de parches ni requerir modificaciones arquitectónicas profundas.
Aplicabilidad: Al ser compatible tanto con SFT como con RL, ofrece un marco unificado para mejorar la capacidad de los modelos de "pensar con imágenes", beneficiando aplicaciones downstream como la respuesta a preguntas visuales (VQA) y la lectura de documentos (OCR).

En conclusión, NV-CoT demuestra que tratar el razonamiento visual como un problema de acción continua es una vía más robusta, precisa y eficiente que los enfoques tradicionales basados en texto o parches fijos.

Thinking with Images as Continuous Actions: Numerical Visual Chain-of-Thought

El Problema: Dos formas "torpes" de mirar

La Solución: NV-CoT (El "Lápiz Mágico")

¿Por qué es mejor? (Las analogías)

En resumen

Resumen Técnico: NV-CoT

1. El Problema

2. Metodología: NV-CoT

3. Contribuciones Clave

4. Resultados Experimentales

5. Significado e Impacto

Más como este

DOne: Decoupling Structure and Rendering for High-Fidelity Design-to-Code Generation

Logic-Gated Time-Shared Feedforward Networks for Alternating Finite Automata: Exact Simulation and Learnability

CLPIPS: A Personalized Metric for AI-Generated Image Similarity

Runtime Burden Allocation for Structured LLM Routing in Agentic Expert Systems: A Full-Factorial Cross-Backend Methodology

Unified Multimodal Models as Auto-Encoders