Stateful Token Reduction for Long-Video Hybrid VLMs

Cet article propose une méthode de réduction progressive et unifiée des tokens pour les modèles hybrides vidéo VLM, combinant des blocs d'attention et Mamba, afin d'accélérer significativement l'inférence tout en préservant la précision sur les vidéos longues.

Jindong Jiang, Amala Sanjay Deshmukh, Kateryna Chumachenko, Karan Sapra, Zhiding Yu, Guilin Liu, Andrew Tao, Pavlo Molchanov, Jan Kautz, Wonmin Byeon

Publié 2026-03-03
📖 5 min de lecture🧠 Analyse approfondie

Each language version is independently generated for its own context, not a direct translation.

🎬 Le Problème : Le Film Trop Long

Imaginez que vous avez un détective très intelligent (c'est l'IA, ou "VLM") à qui vous demandez de regarder un film de 2 heures pour répondre à une question précise.

Le problème, c'est que ce film est composé de milliers de petites images (des "tokens"). Si le détective essaie de regarder chaque image une par une, de la première à la dernière, il va :

  1. Mettre des heures à répondre (c'est trop lent).
  2. Se fatiguer et oublier les détails importants au milieu du film.

Jusqu'à présent, les chercheurs disaient : "Bon, on va juste jeter 75 % des images au début pour aller plus vite."
Mais c'était une mauvaise idée ! Souvent, on jetait une image qui semblait ennuyeuse au début, mais qui contenait la clé du mystère pour la fin du film. Résultat : le détective se trompait.

🧠 La Nouvelle Découverte : L'Architecture "Hybride"

Les auteurs de ce papier ont travaillé sur un nouveau type de détective, un hybride.

  • L'ancien modèle (Transformer) : C'est comme un détective qui lit tout le livre d'un coup, mais qui a une très mauvaise mémoire à court terme. S'il jette un mot, il ne peut plus jamais le récupérer.
  • Le nouveau modèle (Hybride Mamba-Transformer) : C'est un détective qui a une mémoire magique. Même s'il ne regarde pas chaque image en détail, il garde une "résumé mental" (un état latent) de ce qu'il a vu. Il peut résumer l'histoire en marchant.

🔍 L'Analyse : Pourquoi on ne peut pas jeter trop tôt

Les chercheurs ont observé deux choses fascinantes :

  1. La "Sparsité" (La rareté) : Dans chaque instant, seules quelques images sont vraiment importantes pour répondre à la question.
  2. L'Instabilité : Les images importantes changent tout le temps ! Ce qui est crucial à la minute 1 ne l'est peut-être plus à la minute 10.

Le piège : Si vous demandez au détective de jeter les images inutiles dès la première minute, il va se tromper car il ne sait pas encore quelles images seront importantes plus tard. C'est comme essayer de trier votre valise avant de savoir où vous allez !

💡 La Solution : La Réduction Progressive (Le "Low-to-High")

Au lieu de faire un gros tri brutal au début, les auteurs proposent une méthode intelligente en deux étapes :

  1. Le début du voyage (Couches basses) : On garde presque tout. On laisse le détective regarder le film tranquillement pour qu'il puisse remplir sa "mémoire magique" avec les résumés importants. On ne jette rien de précipité.
  2. La fin du voyage (Couches hautes) : Une fois que la mémoire est bien remplie et que le détective a compris le contexte, on commence à jeter agressivement les images inutiles. Comme il a déjà stocké l'essentiel dans sa mémoire, il ne perd rien d'important.

C'est comme si vous écoutiez un podcast : vous l'écoutez en entier d'abord pour comprendre l'histoire, et ensuite, vous ne gardez que les points clés pour en parler à un ami.

🛠️ Comment ça marche techniquement ? (Sans les maths)

Pour savoir quelles images garder, le détective utilise deux outils :

  • Pour les parties "Transformer" : Il regarde ce que la question (le texte) demande et voit quelles images y répondent directement.
  • Pour les parties "Mamba" (la mémoire) : C'est plus subtil. Comme le Mamba ne fait pas de "regard" direct, les chercheurs ont inventé un tricheur intelligent (un "proxy"). Ils ont créé une simulation qui imite le regard pour pouvoir aussi trier les images dans cette partie du cerveau.

🚀 Les Résultats : Vitesse + Précision

Grâce à cette méthode, ils ont obtenu des résultats incroyables :

  • Vitesse : Le détective répond 4 fois plus vite (comme passer d'une voiture de ville à une Ferrari).
  • Précision : Même en ne gardant que 25 % des images (75 % de réduction !), le détective donne presque la même réponse que s'il avait vu tout le film.
  • Amélioration : Si on entraîne un peu le détective avec cette méthode, il devient même meilleur que s'il avait vu tout le film, car il s'est habitué à se concentrer sur l'essentiel.

🏁 En Résumé

Ce papier nous dit : "Ne coupez pas les cheveux en quatre dès le début !"

Pour les films longs, il faut laisser l'IA construire sa compréhension globale avant de commencer à supprimer les détails. En utilisant la mémoire spéciale des nouveaux modèles hybrides et en réduisant les images progressivement (peu au début, beaucoup à la fin), on rend l'IA plus rapide, moins gourmande en énergie, et tout aussi intelligente.

C'est une victoire pour pouvoir regarder des films de 2 heures sur notre téléphone sans que ça prenne 10 minutes à charger !

Recevez des articles comme celui-ci dans votre boîte mail

Digests quotidiens ou hebdomadaires personnalisés selon vos intérêts. Résumés Gist ou techniques, dans votre langue.

Essayer Digest →