Sparsity Forcing: Reinforcing Token Sparsity of MLLMs

El artículo presenta "Sparsity Forcing", un marco de entrenamiento post-RL que refuerza la esparsidad de tokens en modelos de lenguaje multimodal mediante recompensas conjuntas de eficiencia y precisión, logrando una reducción de tokens de hasta el 75% con una disminución mínima de la exactitud y mejoras significativas en la velocidad y memoria de inferencia.

Feng Chen, Yefei He, Lequan Lin, Chenhui Gou, Jing Liu, Bohan Zhuang, Qi Wu

Publicado 2026-03-02
📖 4 min de lectura☕ Lectura para el café

Each language version is independently generated for its own context, not a direct translation.

¡Claro que sí! Imagina que tienes un chef experto (el modelo de inteligencia artificial) que debe preparar un plato delicioso (responder una pregunta) basándose en una receta gigante llena de ingredientes (la imagen o el video).

El problema es que, a veces, la receta es tan larga y tiene tantos ingredientes que el chef se abruma, tarda horas en cocinar y gasta mucha energía, aunque la mayoría de esos ingredientes ni siquiera son necesarios para que el plato salga rico.

Aquí es donde entra el "Sparsity Forcing" (Forzamiento de Esparsidad) de este paper. Vamos a desglosarlo con analogías sencillas:

1. El Problema: El Chef que no sabe descartar

Los modelos actuales de visión y lenguaje (como Qwen2-VL) son muy inteligentes, pero cuando ven una imagen de alta resolución o un video largo, generan miles de "tokens" (pequeñas piezas de información, como palabras o píxeles).

  • La situación actual: El chef intenta revisar todos los ingredientes, incluso los que son solo decoración o ruido. Esto hace que la cocina se llene de humo (memoria) y el plato tarde mucho en salir (velocidad lenta).
  • Los intentos anteriores: Otros métodos intentaban ayudar al chef diciéndole: "Oye, ignora los ingredientes que parecen menos importantes". Pero el chef seguía siendo un poco indeciso y solo lograba ahorrar un 50% de ingredientes. Si intentabas quitar más, el plato se arruinaba.

2. La Solución: El Entrenador con un Silbato (Sparsity Forcing)

Los autores proponen un nuevo método de entrenamiento basado en Refuerzo (RL), que es como poner al chef a entrenar con un entrenador muy estricto pero inteligente.

En lugar de solo decirle "corta ingredientes", el entrenador hace lo siguiente:

  • El Juego de las Pruebas (Rollouts): El entrenador le pide al chef que prepare el mismo plato varias veces, pero con reglas diferentes cada vez:
    • Intento 1: Usa el 80% de los ingredientes.
    • Intento 2: Usa solo el 40%.
    • Intento 3: Usa solo el 20%.
  • La Recompensa Inteligente: Aquí está la magia. El entrenador no solo premia si el plato sabe bien (respuesta correcta), sino que premia doble si el plato sabe bien Y se hizo con muy pocos ingredientes.
    • Si el chef hace un plato delicioso con solo el 20% de ingredientes: ¡Puntos extra! (Recompensa alta).
    • Si el chef hace un plato delicioso pero usó el 80%: Puntos normales (Podía haber sido más eficiente).
    • Si el chef hace un plato horrible (respuesta incorrecta): Castigo, sin importar cuántos ingredientes usó.

3. El Resultado: Un Chef que aprende a ser "Espartano"

Después de miles de estas pruebas, el chef aprende una lección vital: "No necesito revisar todo el libro de recetas para saber qué poner en el plato. Solo necesito los ingredientes clave".

  • Aprendizaje dinámico: El chef no aprende una regla fija (como "siempre ignora el 50%"). Aprende a mirar la receta y decir: "Ah, en esta imagen solo necesito mirar los ojos del perro, el fondo no importa". En otra imagen, quizás necesita más detalles. Se adapta a cada situación.
  • El "Forzamiento": Al principio, el chef duda y quiere usar muchos ingredientes. Pero el entrenamiento le "fuerza" a encontrar el punto exacto donde deja de necesitar ingredientes extra sin arruinar el sabor.

4. ¿Qué logran con esto? (Los Números Mágicos)

Gracias a este entrenamiento, los resultados son impresionantes:

  • Menos ingredientes: Logran reducir los ingredientes necesarios de un 20% a un 75% menos. ¡El chef trabaja con una cuarta parte del trabajo!
  • Más rápido: La cocina se vuelve 3.3 veces más rápida.
  • Menos desorden: La memoria necesaria se reduce hasta en 3 veces.
  • Sabor intacto: Lo más increíble es que el plato sigue sabiendo igual de rico. La precisión no baja casi nada.

En resumen

Imagina que antes tenías que leer todo un periódico para encontrar una sola noticia importante. El método anterior te decía "lee solo la mitad del periódico".
Sparsity Forcing es como entrenar a un lector experto que, tras practicar mucho, sabe exactamente qué párrafo leer para entender la noticia, ignorando el resto del periódico sin perderse nada importante.

Es una forma de enseñar a la IA a ser más eficiente sin volverse tonta, permitiéndole procesar videos largos e imágenes complejas en segundos en lugar de minutos, usando mucha menos energía.

Recibe artículos como este en tu bandeja de entrada

Resúmenes diarios o semanales personalizados según tus intereses. Gists o resúmenes técnicos, en tu idioma.

Probar Digest →