The Model Knows Which Tokens Matter: Automatic Token Selection via Noise Gating

Each language version is independently generated for its own context, not a direct translation.

🎨 Le Problème : Un Buffet trop Chargé

Imaginez que vous avez un chef cuisinier génial (c'est le modèle d'intelligence artificielle, ou "LLM") capable de répondre à des questions complexes. Pour travailler, ce chef a besoin d'ingrédients visuels (les images) qu'on lui apporte sous forme de milliers de petits morceaux (les "tokens").

Le problème, c'est que pour une seule image, on lui donne souvent 576 petits morceaux.

Certains morceaux sont cruciaux : le visage d'une personne, un objet important, un texte clé.
D'autres sont inutiles : un bout de ciel bleu uniforme, un mur de bois, ou une ombre sans intérêt.

Actuellement, le chef doit goûter à tous les 576 morceaux, même les inutiles. Cela le ralentit énormément, le fatigue (consomme beaucoup d'énergie) et prend beaucoup de temps avant qu'il ne puisse vous donner sa réponse.

💡 La Solution : AutoSelect (Le "Sélectionneur Automatique")

Les chercheurs ont créé une nouvelle méthode appelée AutoSelect. Au lieu de simplement jeter les mauvais morceaux (ce qui est difficile à faire mathématiquement sans perdre de l'information), ils ont inventé un système plus intelligent.

Voici comment cela fonctionne, étape par étape :

1. Le "Juge de Paix" (Le Scorer)

Imaginez un petit assistant très rapide placé juste avant le chef. Son travail est de noter chaque morceau de l'image de 0 à 100.

Le visage ? 99/100.
Le ciel vide ? 5/100.

2. Le "Filtre à Bruit" (La porte bruyante)

C'est ici que la magie opère. Au lieu de supprimer les morceaux mal notés (ce qui casserait le flux d'information pendant l'entraînement), l'assistant les remplit de bruit.

Analogie : Imaginez que vous écoutez une conversation dans une pièce.
- Pour les mots importants (le visage), l'assistant baisse le volume du bruit de fond. Vous entendez tout parfaitement.
- Pour les mots inutiles (le ciel), l'assistant monte le volume du bruit à fond. Vous ne pouvez plus rien comprendre de ce qui est dit dans cette zone.

Pendant l'entraînement, le modèle apprend que pour réussir, il doit forcer l'attention sur les zones claires (les bons morceaux) et ignorer les zones bruyantes. C'est comme si on lui disait : "Tu as une bande passante limitée, utilise-la uniquement pour les choses importantes."

3. Le "Nettoyeur" (Le Denoiser)

Puisque le bruit a un peu "salé" l'information, un petit nettoyeur passe derrière pour remettre les choses en ordre, sans jamais mélanger les informations entre elles (pour éviter que le "bruit" d'un morceau ne contamine le "bon" morceau).

🚀 Le Résultat : La Course de Formule 1

Une fois l'entraînement terminé, le système devient encore plus efficace :

Le "filtre à bruit" et le "nettoyeur" disparaissent.
Le "Juge de Paix" garde ses notes.
Le chef ne reçoit plus que les meilleurs morceaux (par exemple, seulement 64 morceaux sur les 576 originaux).

Les avantages concrets :

Vitesse fulgurante : Le chef reçoit 90% de moins d'informations à traiter, donc il répond 2,85 fois plus vite.
Pas de perte de qualité : Même avec si peu de morceaux, le chef garde 96,5% de sa précision. Il ne rate rien d'important.
Peu de coût : Ajouter ce petit assistant ne prend que 0,69 milliseconde de temps de calcul (c'est à peine le temps de cligner des yeux).

🌟 En Résumé

Au lieu de dire "Jette les mauvais morceaux", AutoSelect dit : "Je vais rendre les mauvais morceaux si bruyants et inutiles que le modèle apprendra à ne les regarder que s'ils sont absolument nécessaires."

C'est comme si, au lieu de trier une valise avant de partir en voyage, on apprenait à l'ordinateur à ne porter que le poids de l'essentiel, tout en gardant la capacité de comprendre le monde entier. C'est plus rapide, plus économe en énergie, et tout aussi intelligent.

Each language version is independently generated for its own context, not a direct translation.

1. Problématique

Les modèles vision-langage (VLM) actuels, tels que LLaVA ou InstructBLIP, souffrent d'un goulot d'étranglement computationnel majeur dû au nombre élevé de tokens visuels générés par les encodeurs d'images (notamment pour les images haute résolution ou les vidéos).

Coût computationnel : La complexité de l'attention auto-associative (self-attention) dans le grand modèle de langage (LLM) croît de manière quadratique avec la longueur de la séquence. Les tokens visuels redondants dominent ainsi le temps d'inférence et la consommation mémoire.
Limites des méthodes existantes : Les méthodes d'élagage (pruning) actuelles reposent souvent sur des heuristiques locales (magnitude de l'attention, scores de similarité) ou des schedules prédéfinis. Elles traitent l'élagage comme une sélection binaire (garder/jeter) basée sur des signaux proxy, ce qui peut ignorer la question fondamentale : comment allouer globalement une capacité de représentation limitée pour maximiser les performances de raisonnement ? De plus, beaucoup nécessitent des objectifs auxiliaires, des annotations externes ou un ajustement fin intrusif du modèle de base.

2. Méthodologie : AutoSelect

Les auteurs proposent AutoSelect, un cadre qui reformule l'élagage des tokens visuels comme un problème d'apprentissage de représentation contraint par la capacité (capacity-constrained). Au lieu de supprimer physiquement des tokens, le modèle apprend à moduler le flux d'information de chaque token.

Architecture et Composants

Le cadre introduit deux modules légers insérés entre l'encodeur visuel (gelé) et le projecteur/LLM (gelé) :

Scorer (Notateur) : Un module apprenable qui attribue un score d'importance à chaque token visuel.
Denoiser (Débruiteur) : Un module léger qui restaure les représentations perturbées pour qu'elles correspondent à la distribution attendue par le LLM gelé.

Phase d'Entraînement (Différentiable)

L'objectif est d'optimiser le système avec la seule perte de prédiction du token suivant (next-token prediction), sans pertes auxiliaires.

Porte de bruit préservant la variance (VP Noise Gate) : Au lieu de supprimer les tokens à faible score, le système injecte du bruit gaussien isotrope dans chaque token. L'intensité du bruit est inversement proportionnelle au score d'importance ( $\alpha_i$ ) :
$\tilde{x}_i = \sqrt{\alpha_i} x_i + \sqrt{1 - \alpha_i} \epsilon_i$
où $\epsilon_i \sim \mathcal{N}(0, I)$ . Cela crée un goulot d'étranglement continu : les tokens peu importants perdent leur information (remplacée par du bruit), tandis que les importants sont préservés. La variance globale est maintenue pour éviter de déstabiliser le LLM gelé.
Sélection Soft Top-K : Les scores sont polarisés via un opérateur Soft Top-K différentiable (avec un paramètre de température $\tau$ ) pour simuler une contrainte de budget fixe $K$ .
Attention Diagonale dans le Denoiser : Pour empêcher les tokens "bruyants" (peu importants) de récupérer de l'information des tokens "propres" (importants) via l'attention globale, le Denoiser utilise une attention diagonale. Chaque token n'interagit qu'avec lui-même, garantissant que la contrainte de capacité est respectée sans fuite d'information.

Phase d'Inférence

Le bruit et le Denoiser sont supprimés.
Le Scorer attribue les scores, et une sélection Hard Top-K stricte conserve uniquement les $K$ tokens les plus importants.
Les indices de position originaux sont conservés pour assurer la compatibilité avec les embeddings de position (RoPE) du LLM.
Surcoût négligeable : Seule l'opération de sélection Top-K reste, ajoutant une latence minime.

3. Contributions Clés

Reformulation théorique : Passage d'une sélection binaire de tokens à un apprentissage de représentation contraint par la bande passante, optimisé uniquement par la perte standard de langage.
Mécanisme de porte de bruit (VP Noise Gate) : Remplacement de la décision binaire par une modulation continue de la capacité d'information, permettant un flux de gradients complet pendant l'entraînement et une convergence vers une sélection dure à l'inférence.
Généralisation et Efficacité : La méthode ne nécessite aucun ajustement de l'architecture du modèle de base, fonctionne sur différents backbones (LLaVA, Qwen2.5-VL) et ne nécessite pas de données d'annotation supplémentaires.

4. Résultats Expérimentaux

Les expériences ont été menées sur dix benchmarks VLM standards (GQA, MMBench, ScienceQA, etc.) avec trois architectures : LLaVA-1.5-7B, LLaVA-NeXT-7B et Qwen2.5-VL-7B.

Performance : Sur LLaVA-1.5-7B avec un taux d'élagage de 88,9 % (réduction de 576 à 64 tokens), AutoSelect conserve 96,5 % de la précision du modèle complet. Il surpasse les méthodes de l'état de l'art (comme PRUNESID, HoloV, DART) dans des conditions de compression extrême.
Efficacité (Latence) :
- Surcoût du module d'élagage : 0,69 ms (contre 43 ms pour PRUNESID).
- Accélération de la phase de préremplissage (prefill) du LLM : 2,85x.
- Temps total jusqu'au premier token (TTFT) réduit de 149 ms à 72,7 ms.
Généralisation : La méthode fonctionne sans modification spécifique sur LLaVA-NeXT (images haute résolution, 2880 tokens initiaux) et Qwen2.5-VL (longueur de séquence variable), démontrant une robustesse architecturale.
Analyse d'ablation :
- Le bruit préservant la variance (VP) surpasse l'atténuation simple d'échelle (scale gating) car il crée une contrainte de capacité plus stricte, forçant le Scorer à être plus discriminatif.
- L'attention diagonale est cruciale : l'attention globale permettrait aux tokens bruyants de "tricher" en récupérant de l'information des tokens importants, annulant la contrainte.

5. Signification et Impact

Ce travail démontre que l'élagage des tokens visuels peut être traité comme un problème d'allocation de capacité différentiable plutôt que comme un filtrage heuristique.

Avantage majeur : L'élimination des objectifs auxiliaires et des annotations coûteuses rend la méthode facilement déployable sur n'importe quel VLM pré-entraîné.
Efficacité : La combinaison d'une haute précision (96,5 % de rétention) et d'un surcoût d'inférence quasi nul (0,69 ms) en fait une solution pratique pour le déploiement de VLM sur des dispositifs aux ressources limitées ou pour des applications temps réel.
Vision : L'étude suggère que les modèles peuvent apprendre à identifier intrinsèquement les tokens pertinents pour une tâche donnée, remplaçant les critères de sélection statiques par une allocation dynamique et apprise de la bande passante informationnelle.