LanteRn: Latent Visual Structured Reasoning

Each language version is independently generated for its own context, not a direct translation.

¡Hola! Imagina que tienes un amigo muy inteligente que es experto en resolver acertijos y describir cosas, pero cuando le muestras una foto, a veces se queda "atascado" en las palabras.

El artículo que vamos a explicar presenta a LanteRn (que suena como una linterna, ¡y eso es justo lo que hace!). Es un nuevo sistema diseñado para ayudar a las inteligencias artificiales a "pensar" mejor cuando miran imágenes.

Aquí te lo explico con una analogía sencilla:

1. El Problema: El "Traductor" Cansado

Imagina que tienes un fotógrafo experto (la parte visual de la IA) y un escritor muy elocuente (la parte de lenguaje).

Cómo funcionan ahora: El fotógrafo mira la foto, la describe en su mente y luego le grita al escritor una descripción larga y detallada: "Veo un perro marrón, con orejas caídas, sentado en un banco verde...". El escritor luego intenta resolver el acertijo basándose solo en esa descripción.
El fallo: A veces, la descripción no es suficiente. Si la pregunta es "¿Qué hay justo detrás de la rueda de la bici?", el escritor puede perderse en la descripción de texto y olvidar el detalle espacial exacto. Es como intentar armar un rompecabezas solo leyendo las instrucciones, sin ver las piezas.

2. La Solución de LanteRn: "Pensar con Imágenes Ocultas"

LanteRn le da al escritor una nueva habilidad: puede dejar de escribir y "pensar en imágenes" directamente.

En lugar de tener que describir todo con palabras, la IA puede insertar "pensamientos visuales comprimidos" (llamados representaciones latentes) en medio de su conversación.

La analogía: Imagina que el escritor, en lugar de decir "veo un perro", simplemente siente la imagen del perro en su mente por un segundo, como si tuviera un pequeño holograma interno. Ese holograma es el "pensamiento latente".
Lo genial: No necesita gastar energía describiendo cada pelo del perro en texto. Solo guarda la "esencia" visual en su memoria interna y sigue hablando. Es como tener una linterna que ilumina solo la parte de la foto que necesitas ver para resolver el problema, sin tener que pintar toda la foto de nuevo.

3. ¿Cómo aprende a hacerlo? (Los dos pasos de entrenamiento)

El paper explica que enseñaron a LanteRn en dos etapas, como si fuera un estudiante:

Etapa 1: El Entrenamiento con "Guía Maestra" (Ajuste Supervisado)

La situación: Al principio, la IA no sabe qué es ese "holograma mental".
El método: Los investigadores le mostraron miles de ejemplos donde un "profesor" (un sistema visual experto) le decía: "Mira esta parte de la foto, y guarda esa imagen exacta en tu mente".
El resultado: La IA aprendió a copiar esas imágenes mentales con mucha precisión. Ahora, cuando ve una bici, puede guardar mentalmente la imagen de la rueda sin decir una sola palabra sobre ella.

Etapa 2: El Entrenamiento con "Premios" (Aprendizaje por Refuerzo)

El problema: La IA era muy buena copiando imágenes, pero a veces guardaba detalles que no servían para resolver el acertijo (como el color del cielo, cuando lo que importaba era la sombra).
El método: Ahora, dejaron que la IA intentara resolver los acertijos sola. Si acertaba la respuesta, ¡recibía una "recompensa"! Si fallaba, no.
El cambio: La IA aprendió que no tiene que guardar cualquier imagen, sino solo las imágenes útiles para ganar. Aprendió a usar su "linterna" para iluminar exactamente lo que necesitaba para triunfar, volviéndose más inteligente y eficiente.

4. ¿Por qué es importante?

Hasta ahora, para que las IAs fueran mejores viendo fotos, teníamos que hacerlas más grandes y pesadas (como añadir más motores a un coche). LanteRn demuestra que podemos hacerlas más inteligentes sin hacerlas más pesadas, simplemente enseñándoles a pensar con imágenes internas en lugar de solo con palabras.

En resumen:
LanteRn es como darle a un detective una lupa mágica que le permite ver los detalles de la escena directamente en su mente, sin tener que escribir una novela para describirlos. Esto hace que resuelva los misterios visuales mucho más rápido y con mayor precisión.

¡Es un gran paso para que las máquinas no solo "hablen" sobre lo que ven, sino que realmente "vean" y piensen como nosotros!

Each language version is independently generated for its own context, not a direct translation.

Aquí tienes un resumen técnico detallado del artículo "LanteRn: Latent Visual Structured Reasoning", presentado en el Taller de Inteligencia Multimodal de ICLR 2026.

1. Planteamiento del Problema

Los Modelos Multimodales Grandes (LMMs) actuales, aunque exitosos en muchas tareas, presentan una limitación crítica en el razonamiento visual. La mayoría de estos sistemas operan bajo un paradigma de "pensar sobre imágenes" (thinking about images), donde la información visual se codifica una sola vez y todo el proceso de razonamiento subsiguiente se realiza exclusivamente en texto. Esto fuerza a comprimir información perceptual de alta dimensión en un medio simbólico de bajo ancho de banda (lenguaje natural), lo que resulta insuficiente para tareas que requieren comprensión espacial fina y estructural.

Las soluciones recientes de "pensar con imágenes" (thinking with images) intentan solucionar esto mediante dos enfoques:

Herramientas externas: Usar módulos de detección o recorte, lo que añade sobrecarga computacional y depende de herramientas predefinidas.
Generación de imágenes intermedias: Generar imágenes en el espacio de píxeles durante el razonamiento, lo cual es computacionalmente costoso y a menudo innecesario para la tarea.

El problema central es la falta de un mecanismo eficiente para que el modelo mantenga y manipule representaciones visuales continuas e internas durante el proceso de razonamiento sin depender de la generación explícita de píxeles ni de herramientas externas.

2. Metodología: El Framework LanteRn

LanteRn (Latent And Neural transformer for Reasoning) es un marco que permite a los LMMs intercalar razonamiento en lenguaje con representaciones visuales latentes compactas. El modelo realiza el razonamiento directamente en el espacio de características visuales latentes.

Arquitectura y Mecanismo

Base: Se construye sobre la arquitectura Qwen2.5-VL.
Tokens de Control: Se extiende el vocabulario con tres tokens especiales: <|lvr_start|>, <|lvr_sep|> y <|lvr_end|>.
Modos de Operación:
1. Modo Texto: Generación autoregresiva estándar de tokens discretos.
2. Modo Latente Visual: Al generar <|lvr_start|>, el modelo salta la cabeza de modelado de lenguaje y genera $K$ vectores continuos ( $z_t \in \mathbb{R}^d$ ) que representan "pensamientos" visuales internos. Estos vectores permiten al modelo atender a su propia información visual de alta dimensión sin verbalizarla.

Entrenamiento en Dos Etapas

El entrenamiento se divide en dos fases críticas para alinear las representaciones latentes con la utilidad de la tarea:

Fase 1: Ajuste Fino Supervisado (SFT) - Grounding

Objetivo: Anclar los estados latentes en características visuales perceptuales reales.
Estrategia: Se utiliza el codificador visual preentrenado del modelo base como "maestro". Para cada paso de razonamiento que se refiere a una región de interés (definida por cajas delimitadoras en los datos de entrenamiento), se extraen las características visuales de esa región.
Función de Pérdida: Se minimiza la pérdida de regresión (MSE) entre los vectores latentes generados por el modelo y las características agrupadas (pooled) del codificador visual. Esto obliga al modelo a "imaginar" visualmente el contenido necesario para responder, sin necesidad de describirlo en texto.

Fase 2: Aprendizaje por Refuerzo (RL) - Utilidad

Objetivo: Alinear el razonamiento latente libre con la utilidad de la tarea (precisión en la respuesta final), más allá de la fidelidad perceptual.
Algoritmo: Se utiliza GRPO (Group Relative Policy Optimization).
Desafío Técnico: El espacio de acción es híbrido (tokens discretos + vectores continuos). Para resolver esto, se emplea una técnica de "Replay de Estados Latentes": durante la actualización de la política, el modelo se fuerza a condicionar sobre los vectores latentes exactos generados durante la fase de muestreo (rollout). Esto estabiliza el entrenamiento al permitir que los gradientes fluyan a través de los estados latentes mientras se optimiza la probabilidad de los tokens de texto.
Recompensas:
1. Precisión: Recompensa binaria basada en la corrección de la respuesta final.
2. Formato: Recompensa estructural para asegurar el uso correcto de los delimitadores latentes y evitar que el modelo colapse a un razonamiento puramente textual.

3. Contribuciones Clave

Razonamiento Visual Latente Estructurado: Propone un mecanismo donde el razonamiento visual ocurre en el espacio latente continuo, evitando la generación costosa de imágenes en píxeles y la dependencia de herramientas externas.
Entrenamiento Híbrido: Introduce un pipeline de dos etapas (SFT para fidelidad perceptual + RL para optimización de utilidad) que permite al modelo aprender a "pensar" visualmente de manera abstracta y orientada a la tarea.
Mecanismo de Replay Latente: Desarrolla una solución técnica para aplicar RL en espacios de acción híbridos (texto + vectores continuos), asegurando la estabilidad del entrenamiento mediante la fijación de trayectorias latentes durante la actualización de la política.
Eficiencia Computacional: Demuestra que es posible lograr un rendimiento superior en tareas de razonamiento visual utilizando un modelo de 3B de parámetros con razonamiento latente, compitiendo con modelos mucho más grandes (7B+) sin necesidad de escalar masivamente los parámetros.

4. Resultados Experimentales

El modelo se evaluó en tres benchmarks centrados en la percepción: VisCoT, V ⋆ y Blink.

Comparativa SFT: Las variantes de LanteRn (SFT) superaron al modelo base (Qwen2.5-VL-3B) y mostraron mejoras significativas en tareas de localización de objetos y atribución directa (ej. BlinkOL subió de 0.45 a 0.52). Sin embargo, el rendimiento no fue monótono con el tamaño del bloque latente ( $K$ ), sugiriendo un equilibrio entre capacidad y eficiencia.
Impacto del RL: La aplicación de RL sobre la base SFT-8 produjo mejoras consistentes y significativas en todos los benchmarks, superando tanto al modelo base como a la variante de texto puro (NTP-RL).
- Mejoras Destacadas: En BlinkRP (razonamiento relacional), el rendimiento saltó de 0.68 (SFT) a 0.81 (RL). En V ⋆RP, mejoró de 0.57 a 0.67.
Conclusión de Resultados: Los resultados confirman que el RL es crucial para transformar las representaciones latentes de meras reconstrucciones perceptuales a herramientas de razonamiento abstracto y orientado a la tarea. LanteRn-RL logró un rendimiento comparable o superior a modelos de 7B en varias tareas, validando la eficiencia del enfoque.

5. Significado e Impacto

El trabajo de LanteRn representa un avance significativo hacia la inteligencia multimodal eficiente. Al demostrar que el razonamiento puede ocurrir dentro del espacio latente del modelo, se elimina la necesidad de costosas generaciones de imágenes intermedias o la integración de herramientas externas complejas.

Eficiencia: Ofrece una alternativa viable al escalado masivo de modelos para mejorar el razonamiento visual, logrando altos rendimientos con arquitecturas más pequeñas (3B).
Nueva Dirección de Investigación: Establece que las representaciones internas abstractas ("pensamientos visuales") son suficientes para tareas de razonamiento complejo, abriendo la puerta a futuros trabajos sobre bloques latentes dinámicos y visualización de estos estados internos.
Aplicabilidad: Este enfoque es prometedor para aplicaciones que requieren una comprensión visual fina y rápida, como análisis médico, robótica o asistencia para personas con discapacidad visual, donde la latencia y la precisión son críticas.

En resumen, LanteRn demuestra que permitir a los modelos "pensar con imágenes" en un espacio latente compacto es una vía superior y más eficiente para el razonamiento visual avanzado en comparación con los enfoques puramente textuales o basados en generación de píxeles.