Bridging Perception and Reasoning: Token Reweighting for RLVR in Multimodal LLMs

Each language version is independently generated for its own context, not a direct translation.

Imagina que tienes un detective muy inteligente (un modelo de Inteligencia Artificial) al que le muestras una foto de un partido de béisbol y le preguntas: "¿Qué evento es este?".

Para responder bien, este detective necesita hacer dos cosas al mismo tiempo:

Mirar la foto con lupa (Percepción): Ver que hay jugadores, que llevan uniformes con la palabra "American" y que el campo está bien cuidado.
Pensar como un abogado (Razonamiento): Conectar esas pistas para deducir: "Ah, si tienen uniformes especiales y están en fila, debe ser el Juego de las Estrellas de la MLB".

El Problema: El Detective se distrae

En el pasado, cuando entrenábamos a estos detectives con recompensas (como darles una golosina si aciertan), cometíamos un error de estrategia. Les decíamos: "¡Solo entrena tu ojo!" o "¡Solo entrena tu cerebro!".

Si solo entrenábamos el ojo, el detective veía los colores y las formas perfectamente, pero no sabía qué significaban. Decía: "Veo una camiseta azul" pero no entendía que eso significaba "Juego de las Estrellas".
Si solo entrenábamos el cerebro, el detective hacía un razonamiento lógico brillante, pero se inventaba cosas que no estaban en la foto. Decía: "Claro que es el Juego de las Estrellas" porque su lógica le decía que tenía sentido, aunque en la foto no hubiera ni un solo jugador.

El artículo dice que esto no funciona. La visión y el razonamiento están tan conectados que no puedes entrenar uno sin el otro. Si ignoras una parte, el detective falla.

La Solución: "Re-ponderar las Palabras Clave" (Token Reweighting)

Los autores proponen una técnica llamada ToR (Token Reweighting). Imagina que el detective escribe su respuesta palabra por palabra. No todas las palabras son igual de importantes.

El método ToR actúa como un entrenador personal muy atento que revisa el borrador del detective y le dice:

"Oye, cuando escribiste 'dos filas de jugadores', ¡eso es crucial! ¡Esa palabra depende totalmente de lo que ves en la foto! Dale más importancia a esa parte."

"Y cuando escribiste 'por lo tanto, es el Juego de las Estrellas', ¡eso es un gran salto lógico! ¡Esa palabra es donde tu cerebro está trabajando duro! Dale más importancia a esa parte también."

En lugar de tratar todas las palabras por igual (como hacía el método antiguo) o ignorar las que no eran "lógicas" o "visuales", este nuevo método identifica las palabras clave y les da un "volumen" más alto durante el entrenamiento.

La Analogía del Orquesta

Piensa en el modelo de IA como una orquesta:

Los tokens de percepción son los instrumentos de viento (trompetas, flautas) que traen el sonido del mundo real (la imagen).
Los tokens de razonamiento son los violines y el director que organizan la música en una historia coherente.

Antes, el director de orquesta (el algoritmo de entrenamiento) pedía a los vientos que tocaran solos y luego a los violines solos. El resultado era un caos: o solo ruido visual sin historia, o una historia bonita sin sonido real.

Con ToR, el director se da cuenta de que necesita que ambos grupos toquen juntos en los momentos clave. Cuando la música necesita describir una imagen, sube el volumen de los vientos. Cuando necesita contar una historia, sube el volumen de los violines. El resultado es una sinfonía perfecta donde la imagen y la lógica se apoyan mutuamente.

¿Qué logran con esto?

Al aplicar esta técnica simple pero inteligente:

El detective no alucina (no inventa cosas que no están en la foto).
El detective razona mejor (conecta las pistas correctamente).
Logran resultados estatales (los mejores del mundo) en pruebas de matemáticas visuales y comprensión de imágenes, superando a modelos mucho más grandes y complejos.

En resumen: El secreto no es hacer al detective más inteligente, sino enseñarle a escuchar a sus dos partes internas (ver y pensar) al mismo tiempo, dándoles el volumen justo cuando es necesario. ¡Y eso es lo que hace que ToR sea tan efectivo!

Each language version is independently generated for its own context, not a direct translation.

Resumen Técnico: Bridging Perception and Reasoning

1. El Problema: La Interdependencia no Optimizada

El artículo aborda un desafío fundamental al extender el Aprendizaje por Refuerzo con Recompensas Verificables (RLVR) a los Modelos de Lenguaje Grandes Multimodales (MLLMs).

Naturaleza del problema: Las respuestas generadas por los MLLMs intercalan inherentemente dos tipos de tokens:
1. Tokens de percepción: Aterrizan el contenido visual (ej. describir objetos, colores, texto en la imagen).
2. Tokens de razonamiento: Construyen cadenas de inferencia lógica y pasos de pensamiento.
Limitación actual: Los métodos existentes de RLVR (como GRPO o DAPO) suelen optimizar estas capacidades de forma aislada o tratan todos los tokens por igual.
Hipótesis central: La percepción y el razonamiento son capacidades interdependientes a nivel de token. Optimizar solo uno de los tipos (o ignorar su interacción) lleva a un rendimiento subóptimo:
- Optimizar solo razonamiento genera cadenas de pensamiento coherentes pero con fundamentos visuales erróneos.
- Optimizar solo percepción mantiene la fidelidad visual pero falla en integrar esa información en un razonamiento lógico coherente.

2. Metodología: Token Reweighting (ToR)

Los autores proponen ToR (Token Reweighting), una estrategia modular y "plug-and-play" que optimiza conjuntamente ambos tipos de tokens durante el entrenamiento con RLVR.

A. Identificación de Tokens Críticos
El método identifica dinámicamente los tokens importantes basándose en señales intrínsecas del modelo:

Tokens de Razonamiento: Se identifican mediante alta entropía predictiva. Siguiendo la idea de que los puntos de bifurcación en la cadena de pensamiento tienen alta incertidumbre, los tokens con mayor entropía se marcan como críticos para el razonamiento.
Tokens de Percepción: Se identifican mediante sensibilidad visual. Se calcula la diferencia en el log-probabilidad de un token cuando el modelo se condiciona con la imagen ( $I$ ) frente a un contexto de texto vacío ( $\emptyset$ ). Una gran diferencia indica que el token depende fuertemente de la entrada visual.

B. Mecanismo de Reponderación
En lugar de enmascarar gradientes (optimizando solo un subconjunto), ToR asigna pesos específicos a estos tokens en la función de pérdida de RLVR:

Se definen dos conjuntos de tokens: $T_r$ (razonamiento) y $T_p$ (percepción).
Se introducen parámetros de ponderación $\gamma_r$ y $\gamma_p$ en la función objetivo (ya sea GRPO o DAPO).
La fórmula modificada prioriza el cálculo de ventajas (advantages) para estos tokens críticos, mientras que los tokens no seleccionados reciben un peso de cero o reducido.
Objetivo: Equilibrar la reducción de la incertidumbre en el razonamiento con el fortalecimiento del anclaje visual (grounding).

3. Contribuciones Clave

Análisis Empírico de Interdependencia: Demostraron experimentalmente que la optimización selectiva (solo percepción o solo razonamiento) es inferior a la optimización completa, validando que estas capacidades están acopladas.
Estrategia ToR: Propusieron un método ligero que no requiere cambios en la arquitectura del modelo ni en los datos, sino una modificación en la estrategia de optimización de gradientes.
Generalización: El método funciona sobre algoritmos RLVR existentes (GRPO y DAPO) y es compatible con diferentes escalas de modelos y datos.
Selección de Proxy Óptima: En los apéndices, analizan diferentes métricas para identificar tokens de percepción y concluyen que la diferencia de log-probabilidad (logp-diff) es el mejor equilibrio entre fidelidad de anclaje visual y significado teórico de la información.

4. Resultados Experimentales

Los experimentos se realizaron utilizando el modelo Qwen2.5-VL-7B entrenado en el conjunto de datos Geometry3K y evaluado en múltiples benchmarks.

Rendimiento Superior:
- ToR-GRPO y ToR-DAPO superaron consistentemente a sus contrapartes base (GRPO y DAPO) en todos los benchmarks.
- Ejemplos de mejora:
  - En MathVerse: De 50.8 (GRPO) a 53.0 (ToR-GRPO).
  - En HalluBench (percepción): De 69.8 (GRPO) a 72.4 (ToR-GRPO).
  - En WeMath y MathVista, se observaron ganancias significativas en tareas de razonamiento matemático visual.
Ablación:
- Optimizar solo tokens de razonamiento o solo de percepción resultó en un rendimiento inferior al modelo base en varios casos, confirmando la necesidad de la optimización conjunta.
- Un peso de percepción ( $\gamma_p$ ) de 0.5 (con $\gamma_r=1.0$ ) mostró el mejor equilibrio.
Escalabilidad: El método mejoró el rendimiento tanto en modelos de 7B como en versiones más pequeñas (3B) y al escalar los datos de entrenamiento (de 2.1K a 39K muestras).

5. Significado e Impacto

Paradigma de Optimización: Este trabajo cambia la perspectiva de tratar la percepción y el razonamiento como módulos separados en los MLLMs, demostrando que deben ser optimizados de manera acoplada y simultánea a nivel de token.
Eficiencia: Al reponderar dinámicamente los tokens críticos, el entrenamiento se vuelve más eficiente, enfocando los recursos de aprendizaje donde realmente importan (puntos de decisión lógica y anclaje visual).
Aplicabilidad: Al ser un método "plug-and-play", ToR puede integrarse fácilmente en pipelines de RLVR existentes, ofreciendo una vía rápida para mejorar la capacidad de razonamiento multimodal sin necesidad de reentrenar desde cero o modificar arquitecturas complejas.

En conclusión, el artículo establece que el éxito de los MLLMs en tareas complejas depende de reconocer y potenciar la sinergia entre la comprensión visual y el razonamiento lógico, logrando un nuevo estado del arte (SOTA) mediante la reponderación inteligente de tokens.