Bridging Perception and Reasoning: Token Reweighting for RLVR in Multimodal LLMs

El artículo propone una estrategia de reponderación de tokens (ToR) que mejora el aprendizaje por refuerzo con recompensas verificables en modelos de lenguaje multimodal al optimizar dinámicamente la interdependencia entre los tokens de percepción visual y razonamiento, logrando así un rendimiento superior en tareas de razonamiento multimodal.

Jinda Lu, Junkang Wu, Jinghan Li, Kexin Huang, Shuo Yang, Guoyin Wang, Jiancan Wu, Xiang Wang, Xiangnan He

Publicado 2026-03-27
📖 4 min de lectura☕ Lectura para el café

Each language version is independently generated for its own context, not a direct translation.

Imagina que tienes un detective muy inteligente (un modelo de Inteligencia Artificial) al que le muestras una foto de un partido de béisbol y le preguntas: "¿Qué evento es este?".

Para responder bien, este detective necesita hacer dos cosas al mismo tiempo:

  1. Mirar la foto con lupa (Percepción): Ver que hay jugadores, que llevan uniformes con la palabra "American" y que el campo está bien cuidado.
  2. Pensar como un abogado (Razonamiento): Conectar esas pistas para deducir: "Ah, si tienen uniformes especiales y están en fila, debe ser el Juego de las Estrellas de la MLB".

El Problema: El Detective se distrae

En el pasado, cuando entrenábamos a estos detectives con recompensas (como darles una golosina si aciertan), cometíamos un error de estrategia. Les decíamos: "¡Solo entrena tu ojo!" o "¡Solo entrena tu cerebro!".

  • Si solo entrenábamos el ojo, el detective veía los colores y las formas perfectamente, pero no sabía qué significaban. Decía: "Veo una camiseta azul" pero no entendía que eso significaba "Juego de las Estrellas".
  • Si solo entrenábamos el cerebro, el detective hacía un razonamiento lógico brillante, pero se inventaba cosas que no estaban en la foto. Decía: "Claro que es el Juego de las Estrellas" porque su lógica le decía que tenía sentido, aunque en la foto no hubiera ni un solo jugador.

El artículo dice que esto no funciona. La visión y el razonamiento están tan conectados que no puedes entrenar uno sin el otro. Si ignoras una parte, el detective falla.

La Solución: "Re-ponderar las Palabras Clave" (Token Reweighting)

Los autores proponen una técnica llamada ToR (Token Reweighting). Imagina que el detective escribe su respuesta palabra por palabra. No todas las palabras son igual de importantes.

El método ToR actúa como un entrenador personal muy atento que revisa el borrador del detective y le dice:

"Oye, cuando escribiste 'dos filas de jugadores', ¡eso es crucial! ¡Esa palabra depende totalmente de lo que ves en la foto! Dale más importancia a esa parte."

"Y cuando escribiste 'por lo tanto, es el Juego de las Estrellas', ¡eso es un gran salto lógico! ¡Esa palabra es donde tu cerebro está trabajando duro! Dale más importancia a esa parte también."

En lugar de tratar todas las palabras por igual (como hacía el método antiguo) o ignorar las que no eran "lógicas" o "visuales", este nuevo método identifica las palabras clave y les da un "volumen" más alto durante el entrenamiento.

La Analogía del Orquesta

Piensa en el modelo de IA como una orquesta:

  • Los tokens de percepción son los instrumentos de viento (trompetas, flautas) que traen el sonido del mundo real (la imagen).
  • Los tokens de razonamiento son los violines y el director que organizan la música en una historia coherente.

Antes, el director de orquesta (el algoritmo de entrenamiento) pedía a los vientos que tocaran solos y luego a los violines solos. El resultado era un caos: o solo ruido visual sin historia, o una historia bonita sin sonido real.

Con ToR, el director se da cuenta de que necesita que ambos grupos toquen juntos en los momentos clave. Cuando la música necesita describir una imagen, sube el volumen de los vientos. Cuando necesita contar una historia, sube el volumen de los violines. El resultado es una sinfonía perfecta donde la imagen y la lógica se apoyan mutuamente.

¿Qué logran con esto?

Al aplicar esta técnica simple pero inteligente:

  1. El detective no alucina (no inventa cosas que no están en la foto).
  2. El detective razona mejor (conecta las pistas correctamente).
  3. Logran resultados estatales (los mejores del mundo) en pruebas de matemáticas visuales y comprensión de imágenes, superando a modelos mucho más grandes y complejos.

En resumen: El secreto no es hacer al detective más inteligente, sino enseñarle a escuchar a sus dos partes internas (ver y pensar) al mismo tiempo, dándoles el volumen justo cuando es necesario. ¡Y eso es lo que hace que ToR sea tan efectivo!

¿Ahogado en artículos de tu campo?

Recibe resúmenes diarios de los artículos más novedosos que coincidan con tus palabras clave de investigación — con resúmenes técnicos, en tu idioma.

Probar Digest →