Separators in Enhancing Autoregressive Pretraining for Vision Mamba

Cette présentation introduit STAR, une méthode de préentraînement autorégressif innovante pour Vision Mamba qui utilise des séparateurs pour quadrupler la longueur des séquences d'entrée, permettant ainsi au modèle STAR-B d'atteindre une précision de 83,5 % sur ImageNet-1k en exploitant efficacement les dépendances à long terme.

Hanpeng Liu, Zidan Wang, Shuoxi Zhang, Kaiyuan Gao, Kun He

Publié 2026-03-05
📖 4 min de lecture☕ Lecture pause café

Each language version is independently generated for its own context, not a direct translation.

🎬 Le Titre : "STAR" – Le Grand Réunisseur d'Images

Imaginez que vous êtes un chef cuisinier très talentueux, capable de préparer des plats complexes à une vitesse fulgurante. C'est ce qu'est Mamba dans le monde de l'intelligence artificielle : un modèle très rapide et efficace pour analyser de longues séquences d'informations.

Mais jusqu'à présent, ce chef cuisinier avait un problème : on ne lui donnait que des petits plats individuels (une seule image à la fois) à analyser. Il ne pouvait pas utiliser toute sa vitesse pour manger un grand banquet.

Les auteurs de cet article, Hanpeng Liu et son équipe, ont inventé une nouvelle méthode appelée STAR (SeparaTors for AutoRegressive pretraining) pour résoudre ce problème. Voici comment ça marche, avec des analogies simples.


1. Le Problème : Le Chef qui mange seul 🍽️

Normalement, quand on entraîne une IA à reconnaître des images (comme des chats ou des voitures), on lui montre une image, puis on l'efface, puis on lui montre une autre. C'est comme si le chef cuisinier mangeait un petit sandwich, se lavait les mains, puis mangeait un autre sandwich.

Le modèle Mamba est spécial : il est conçu pour comprendre de très longues histoires (comme lire un livre entier d'un coup). Mais les méthodes actuelles le forcent à lire un seul mot à la fois. C'est du gaspillage !

2. La Solution STAR : Le "Séparateur Magique" 🪄

L'idée géniale de l'équipe est de dire : "Pourquoi ne pas mettre tous les sandwiches sur un seul grand plateau et les donner au chef en une seule fois ?"

C'est là qu'intervient le Séparateur (le "Separator").

  • L'analogie du Train : Imaginez que chaque image est un wagon de train. Si vous collez 8 wagons les uns aux autres sans rien entre eux, le chef ne sait plus où commence le wagon 1 et où finit le wagon 2. Tout devient une bouillie confuse.
  • Le Rôle du Séparateur : L'équipe ajoute un "wagon spécial" entre chaque image. Ce wagon est vide, mais il a un code secret (des points noirs et blancs en forme de diagonale). C'est comme un signal de gare qui dit : "Attention ! Fin du wagon précédent, début du nouveau !"

Grâce à ces séparateurs, le modèle peut maintenant avaler 8 images d'un seul coup (au lieu d'une seule), transformant une tâche courte en une longue séquence.

3. Comment ça marche en détail ? 🧩

  1. Découpage : Chaque image est découpée en petits morceaux (comme des pièces de puzzle).
  2. Regroupement : On assemble ces morceaux en petits groupes (des "clusters").
  3. L'ajout du Séparateur : Avant chaque groupe d'images, on insère ce "wagon spécial" (le séparateur) qui sert de frontière claire.
  4. La Lecture : Le modèle lit tout cela comme une longue histoire. Il apprend à prédire le prochain morceau de puzzle en se basant sur tout ce qui a été vu avant, y compris les images précédentes.

4. Pourquoi c'est une révolution ? 🚀

  • Plus de contexte : En voyant plusieurs images à la fois, le modèle apprend mieux les relations entre elles, même si elles sont différentes. C'est comme lire un chapitre entier d'un livre au lieu d'une seule phrase.
  • Meilleure performance : Grâce à cette méthode, leur modèle (appelé STAR-B) a obtenu un score de 83,5 % sur le test standard ImageNet (reconnaître des objets). C'est un score excellent, rivalisant avec les meilleurs modèles existants, tout en étant plus rapide et plus léger.
  • L'astuce du "Chef" : Ils ont aussi déplacé l'étiquette finale (le "class token") à la toute fin de la séquence. C'est comme dire au chef : "Ne donne ton verdict qu'après avoir vu tout le repas, pas au milieu !". Cela améliore encore la précision.

5. En résumé : La leçon à retenir 🌟

Imaginez que vous essayez d'apprendre à un enfant à lire.

  • L'ancienne méthode : Lui donner un mot, le faire répéter, effacer, donner le mot suivant.
  • La méthode STAR : Lui donner une phrase entière, avec des espaces clairs entre les mots, pour qu'il comprenne la structure de la phrase en une seule fois.

Les auteurs montrent que pour les modèles de type "Mamba" (qui sont faits pour les longues séquences), il faut arrêter de les forcer à travailler petit par petit. En ajoutant de simples séparateurs entre les images, on permet à l'IA de voir le "grand tableau", ce qui la rend plus intelligente, plus rapide et plus performante.

C'est une victoire pour l'efficacité : moins de calculs pour plus de résultats.