The Model Knows Which Tokens Matter: Automatic Token Selection via Noise Gating

Each language version is independently generated for its own context, not a direct translation.

¡Claro que sí! Imagina que tienes un chef genio (el modelo de inteligencia artificial) que puede cocinar cualquier plato si le das los ingredientes correctos. Pero, a veces, le traes una montaña de ingredientes: 500 tomates, 500 cebollas y 500 pimientos, aunque para hacer la ensalada perfecta solo necesites 50.

El chef tiene que revisar todos esos ingredientes uno por uno antes de empezar a cocinar. Esto lo hace lento, le da dolor de cabeza y gasta mucha energía.

El papel que acabas de leer presenta una solución genial llamada AutoSelect. Aquí te explico cómo funciona, usando analogías sencillas:

1. El Problema: La "Mochila Llena de Basura"

Los modelos de visión y lenguaje (como los que ven fotos y te responden preguntas) reciben la imagen como si fueran miles de pequeños trozos (llamados "tokens").

La realidad: De esos miles de trozos, muchos son aburridos (como el cielo azul o una pared blanca). No aportan nada nuevo.
El problema actual: Los métodos antiguos intentan "tirar" los trozos aburridos antes de que el chef los vea. Pero hacerlo es como intentar adivinar qué tirar sin probarlo primero. A veces tiran algo importante por error, o gastan mucho tiempo decidiendo qué tirar.

2. La Idea Genial: El "Tubo de Agua con Filtro"

En lugar de tirar los ingredientes, AutoSelect imagina que la información viaja por un tubo de agua.

El presupuesto: Imagina que solo tienes un balde de agua (presupuesto de información) para regar el jardín. No puedes regar todas las plantas con el mismo caudal.
La solución: AutoSelect no corta el tubo. En su lugar, pone una válvula inteligente en cada trozo de información.
- Si el trozo es importante (como la cara de una persona), la válvula se abre al máximo: ¡toda el agua pasa!
- Si el trozo es aburrido (como el fondo de la foto), la válvula se cierra casi por completo y deja pasar solo un poco de "ruido" (como si fuera agua sucia o aire).

3. El Truco de Entrenamiento: "El Juego del Silencio"

Aquí está la parte más creativa. Para enseñarle al modelo a saber qué es importante, usan un truco llamado "Ruido Variance-Preserving" (Ruido que mantiene el volumen).

Imagina que estás en una fiesta y tienes que elegir a quién escuchar:

Método antiguo: Silenciar a la gente que no te interesa (cortar el micrófono).
Método AutoSelect: No cortas el micrófono, pero pones estática (ruido) en la voz de las personas que no son importantes.
- Si alguien cuenta algo aburrido, su voz se llena de estática. El chef (el modelo) se da cuenta: "¡Uy, esto suena mal! Debo ignorarlo".
- Si alguien cuenta algo importante, su voz está clara. El chef dice: "¡Esto es oro! Presta atención".

Durante el entrenamiento, el modelo aprende a asignar más "ancho de banda" (más agua, menos estática) a los ingredientes que realmente importan.

4. El "Denoiser": El Limpiador de Oídos

Como el ruido puede confundir al chef, hay un pequeño robot llamado "Denoiser" (Deshacedor de ruido) que solo trabaja durante el entrenamiento.

Su trabajo es limpiar la estática de las voces importantes y asegurarse de que la información no se mezcle entre sí (para que la voz del "aburrido" no robe información de la voz del "importante").
Lo mejor: Una vez que el modelo ha aprendido, ¡este robot se va a casa! Ya no hace falta.

5. El Resultado: Velocidad Relámpago

Cuando llega el momento de usar el modelo en la vida real (inference):

El modelo mira la imagen.
Su "cerebro" (el Scorer) dice rápidamente: "Estos 50 trozos son importantes, los otros 500 son basura".
Solo envía los 50 importantes al chef.
El chef cocina 5 veces más rápido porque no tiene que revisar la basura.

¿Por qué es tan bueno?

Es rápido: Solo tarda 0.69 milisegundos en decidir qué guardar (es más rápido que parpadear).
Es preciso: Mantiene el 96.5% de la inteligencia original. No pierde la capacidad de entender la foto.
Es flexible: Funciona con cualquier modelo de inteligencia artificial, no necesita ser reentrenado desde cero ni cambiar la arquitectura del chef.

En resumen:
AutoSelect es como tener un asistente personal que, en lugar de tirar la basura antes de que la veas, te dice exactamente qué mirar y te ayuda a ignorar lo demás, todo mientras el modelo "aprende" a distinguir lo importante de lo irrelevante jugando a un juego de "ruido y silencio". ¡Y al final, el modelo es mucho más rápido y sigue siendo muy inteligente!

Each language version is independently generated for its own context, not a direct translation.

Resumen Técnico: AutoSelect

1. El Problema

Los Modelos de Lenguaje y Visión (VLMs) modernos, como LLaVA o InstructBLIP, enfrentan un cuello de botella computacional severo debido a la gran cantidad de tokens visuales que generan al procesar imágenes de alta resolución o múltiples imágenes.

Costo Computacional: La complejidad de la autoatención en el Modelo de Lenguaje (LLM) escala cuadráticamente con la longitud de la secuencia. Los tokens visuales redundantes dominan tanto el costo de inferencia como el uso de memoria.
Limitaciones de los Métodos Actuales: Las técnicas de poda (pruning) existentes suelen basarse en señales proxy locales (magnitud de la atención, puntuaciones de similitud) o en heurísticas fijas. Estas métodos a menudo descartan tokens de manera "dura" (binaria) antes o durante la inferencia, lo que puede romper el flujo de gradientes durante el entrenamiento o requerir objetivos de pérdida auxiliares complejos. Además, muchos dependen de tokens específicos (como [CLS]) que no existen en arquitecturas modernas.

2. Metodología Propuesta: AutoSelect

Los autores reformulan el problema de la poda de tokens visuales como un problema de aprendizaje de representación con restricciones de capacidad. En lugar de eliminar tokens físicamente, modelan la interfaz entre el codificador visual y el LLM como un canal con ancho de banda limitado.

El marco de trabajo introduce dos módulos ligeros que se entrenan junto con un VLM congelado:

Evaluador (Scorer):
- Asigna una puntuación de importancia a cada token visual.
- Utiliza un operador Soft Top-K diferenciable para polarizar estas puntuaciones bajo un presupuesto fijo $K$ . Esto permite que el modelo aprenda qué tokens retener sin detener el flujo de gradientes.
Puerta de Ruido con Preservación de Varianza (VP Noise Gate):
- En lugar de descartar tokens de baja puntuación durante el entrenamiento, se mantiene la longitud de la secuencia completa.
- Se inyecta ruido gaussiano isotrópico en cada token de manera proporcional a su puntuación de importancia.
- Fórmula: $\tilde{x}_i = \sqrt{\alpha_i} x_i + \sqrt{1 - \alpha_i} \epsilon_i$ , donde $\alpha_i$ es la puntuación polarizada y $\epsilon_i$ es ruido.
- Objetivo: Esto crea una restricción de capacidad diferenciable. Los tokens importantes conservan su señal, mientras que los irrelevantes se corrompen con ruido, forzando al modelo a aprender a asignar el "ancho de banda" solo a la información crítica.
Denoiser (Deshacer Ruido) con Atención Diagonal:
- Un módulo ligero (un solo bloque de Transformer) que recupera las representaciones perturbadas de vuelta a la distribución esperada por el LLM congelado.
- Atención Diagonal: A diferencia de la autoatención global, este módulo utiliza una máscara de identidad, permitiendo que cada token se transforme independientemente. Esto evita que la información de los tokens importantes "se filtre" a los tokens ruidosos, manteniendo la integridad de la restricción de capacidad.
Fase de Inferencia:
- Se eliminan el inyección de ruido y el Denoiser.
- Se realiza una selección Hard Top-K estricta: solo se envían los $K$ tokens con mayor puntuación al LLM.
- Ventaja: No se reindexan los tokens; se mantienen sus índices de posición originales, asegurando que las incorporaciones de posición rotativa (RoPE) del LLM funcionen correctamente.

3. Contribuciones Clave

Reformulación del Problema: Cambiar la poda de tokens de una selección binaria a un problema de asignación de capacidad diferenciable, optimizado únicamente con la pérdida estándar de predicción del siguiente token (sin pérdidas auxiliares ni anotaciones extra).
Mecanismo de Entrenamiento No Intrusivo: Uso de una puerta de ruido que preserva la varianza y un Denoiser con atención diagonal, permitiendo el entrenamiento de extremo a extremo sin modificar los pesos del VLM base (Encoder, Proyector o LLM permanecen congelados).
Generalización y Eficiencia: El método funciona sin ajustes específicos de arquitectura en diferentes backbones (LLaVA, Qwen2.5-VL) y añade una sobrecarga de latencia casi nula en la inferencia.

4. Resultados Experimentales

El método se evaluó en 10 benchmarks estándar (GQA, MMBench, MME, etc.) y tres arquitecturas principales:

LLaVA-1.5-7B:
- Con una poda del 88.9% (reducción de 576 a 64 tokens), AutoSelect retiene el 96.5% de la precisión del modelo completo.
- Supera a los métodos más avanzados (como PRUNESID y HoloV) en retención de rendimiento bajo compresión extrema.
Eficiencia (Latencia):
- AutoSelect reduce el tiempo de prellenado del LLM (prefill) en 2.85x.
- La sobrecarga del módulo de poda es de solo 0.69 ms, significativamente menor que otros métodos (ej. PRUNESID tarda 43 ms).
Escalabilidad:
- En LLaVA-NeXT (2880 tokens), retiene el 96.1% del rendimiento con una reducción del 88.9%.
- En Qwen2.5-VL (arquitectura distinta, resolución nativa), supera a todos los baselines en todas las tasas de poda, demostrando independencia de la estructura de la cuadrícula de imágenes.
Análisis de Selección:
- Visualizaciones muestran que AutoSelect selecciona tokens que cubren regiones semánticamente ricas (rostros, texturas) y descartan regiones redundantes (fondos), mientras que los tokens descartados tienden a ser muy similares entre sí.

5. Significado e Impacto

AutoSelect demuestra que la poda de tokens no necesita depender de heurísticas fijas o señales de atención locales ruidosas. Al reformular el problema como una asignación de capacidad aprendida, el modelo descubre automáticamente qué tokens son esenciales para la tarea.

Eficiencia: Permite ejecutar VLMs en hardware con recursos limitados sin sacrificar significativamente la precisión.
Simplicidad: Al no requerir reentrenamiento del LLM ni pérdidas auxiliares complejas, es una solución "plug-and-play" fácil de integrar en pipelines existentes.
Futuro: Establece un nuevo paradigma donde la selección de información es un proceso continuo y diferenciable que converge hacia una selección discreta eficiente en la inferencia.

En resumen, AutoSelect ofrece un equilibrio superior entre velocidad y precisión, logrando aceleraciones masivas en la inferencia de VLMs manteniendo la mayor parte de su capacidad de razonamiento visual.

The Model Knows Which Tokens Matter: Automatic Token Selection via Noise Gating

1. El Problema: La "Mochila Llena de Basura"

2. La Idea Genial: El "Tubo de Agua con Filtro"

3. El Truco de Entrenamiento: "El Juego del Silencio"

4. El "Denoiser": El Limpiador de Oídos

5. El Resultado: Velocidad Relámpago

¿Por qué es tan bueno?

Resumen Técnico: AutoSelect

1. El Problema

2. Metodología Propuesta: AutoSelect

3. Contribuciones Clave

4. Resultados Experimentales

5. Significado e Impacto

Más como este

The Structure of Service Level Agreement of Slice-based 5G Network

Digital currency hardware wallets and the essence of money

Adaptive aggregation of Monte Carlo augmented decomposed filters for efficient group-equivariant convolutional neural network

Positionality in Σ_0^2 and a completeness result

Slightly Non-Linear Higher-Order Tree Transducers