Quant Experts: Token-aware Adaptive Error Reconstruction with Mixture of Experts for Large Vision-Language Models Quantization

Este trabajo presenta Quant Experts (QE), un método de cuantización post-entrenamiento para modelos de visión y lenguaje que utiliza una arquitectura de expertos mixtos adaptativa y consciente de los tokens para compensar dinámicamente los errores de cuantización mediante expertos compartidos y enrutados, mejorando así la precisión en diversos modelos y configuraciones sin necesidad de reentrenamiento completo.

Chenwei Jia, Baoting Li, Xuchong Zhang, Mingzhuo Wei, Bochen Lin, Hongbin Sun

Publicado 2026-03-02
📖 4 min de lectura☕ Lectura para el café

Each language version is independently generated for its own context, not a direct translation.

¡Hola! Imagina que tienes un genio de la lámpara (un modelo de Inteligencia Artificial gigante) que puede ver imágenes y entender textos, pero es tan enorme que no cabe en tu teléfono ni en tu computadora normal. Para poder usarlo, necesitamos "encogerlo" sin que pierda su magia.

El problema es que cuando intentas hacer este "encogimiento" (llamado cuantización), el genio empieza a olvidar cosas importantes o a cometer errores tontos.

Los autores de este papel, llamados Quant Experts (QE), han descubierto algo fascinante y han creado una solución inteligente. Aquí te lo explico con una analogía sencilla:

1. El Problema: El "Equipo de Limpieza" Rígido

Imagina que el genio tiene un equipo de limpieza (los canales de información) que debe mantener todo impecable.

  • Los métodos antiguos (como SmoothQuant o MBQ) enviaban a un solo supervisor a revisar todo el edificio. Este supervisor decía: "¡Oye, la puerta del pasillo 3 siempre está sucia, así que limpiaremos la puerta 3 con mucho cuidado todo el día!".
  • El error: A veces, la puerta del pasillo 3 está limpia, pero la puerta del pasillo 10 se ensucia repentinamente porque alguien pasó por ahí. Como el supervisor es fijo y no se adapta, el edificio se ensucia y el genio empieza a alucinar o a dar respuestas incorrectas.

2. La Observación Clave: "No todos los días son iguales"

Los investigadores se dieron cuenta de que la "suciedad" (los errores importantes) no es siempre la misma:

  • A veces, la suciedad depende de qué tipo de habitación es (si es una foto o si es texto).
  • Pero lo más importante: depende de quién entra a la habitación. Si entra un niño, ensuciará el suelo; si entra un adulto, ensuciará la mesa.
  • En el lenguaje de la IA: La importancia de ciertas partes de la red neuronal cambia según el "token" (la palabra o el fragmento de imagen que se está procesando en ese momento).

3. La Solución: "Quant Experts" (Los Expertos Cuánticos)

En lugar de un solo supervisor aburrido, QE crea un sistema de expertos dinámicos, como un equipo de limpieza de élite con dos tipos de trabajadores:

A. El "Experto Compartido" (El Supervisor General)

  • Qué hace: Hay ciertas puertas que siempre están sucias, sin importar quién entre (por ejemplo, la entrada principal).
  • La solución: Tienen un Experto Compartido (un adaptador de bajo rango) que se queda fijo y limpia esas zonas críticas todo el tiempo. Esto asegura que la base del edificio nunca se caiga.

B. Los "Expertos Enrutados" (Los Especialistas Móviles)

  • Qué hace: Para las zonas que se ensucian solo a veces (cuando entra un niño, o cuando aparece una imagen de un gato), necesitan ayuda específica.
  • La solución: Tienen un Director de Tráfico (un "Router" ligero).
    • Cuando el genio ve una imagen de un gato, el Director dice: "¡Eh, Experto Gato! ¡Tú sabes limpiar las manchas de gato!".
    • Cuando ve un texto matemático, dice: "¡Experto Matemáticas! ¡Tú te encargas de esto!".
  • Estos expertos son móviles y adaptables. No intentan limpiar todo, solo lo que necesitan en ese momento exacto.

4. ¿Cómo funciona en la vida real?

Imagina que estás usando tu teléfono para pedir un taxi:

  1. Sin QE: El sistema intenta comprimir la información y olvida que "taxi" significa "coche" en lugar de "avión" porque se equivocó al comprimir.
  2. Con QE:
    • El Experto Compartido asegura que la palabra "taxi" siempre se entienda como un vehículo.
    • El Director ve que estás en una ciudad con mucho tráfico y activa al Experto Tráfico para ajustar la ruta rápidamente.
    • Si luego cambias a una foto de un mapa, el Director activa al Experto Mapas para interpretar las líneas.

El Resultado Final

Gracias a este sistema de "Expertos" (una mezcla de un supervisor fijo y especialistas móviles):

  • El modelo se hace más pequeño (gasta menos memoria y batería).
  • Pero sigue siendo tan inteligente como el modelo gigante original.
  • Funciona incluso en modelos gigantes de 70 mil millones de parámetros, recuperando hasta un 5% más de precisión que los métodos anteriores en situaciones difíciles.

En resumen: En lugar de tratar a toda la Inteligencia Artificial como un bloque rígido, Quant Experts le da al modelo la capacidad de decir: "Hoy necesito ayuda de este experto para esta tarea específica, y de ese otro para lo demás". Es como pasar de tener un solo guardia de seguridad a tener un equipo de seguridad inteligente que sabe exactamente dónde actuar en cada momento.