Joint Post-Training Quantization of Vision Transformers with Learned Prompt-Guided Data Generation

Each language version is independently generated for its own context, not a direct translation.

Imaginez que vous avez un chef cuisinier de classe mondiale (un Vision Transformer, ou ViT) capable de reconnaître n'importe quel objet sur une photo avec une précision incroyable. C'est un génie, mais il est aussi très gourmand : il a besoin d'une cuisine immense (beaucoup de mémoire) et de beaucoup d'énergie pour travailler.

Le problème, c'est que vous voulez emmener ce chef dans un petit camion de food-truck (un téléphone ou un appareil connecté). Il n'y a pas assez de place ni d'électricité pour son équipement de luxe.

La solution habituelle ? Lui apprendre à cuisiner avec des ingrédients de base (la quantification), en remplaçant les mesures précises au milligramme par des cuillères à café simples. Mais si vous faites ça brutalement, le chef perd ses talents et ses plats deviennent immangeables.

Voici comment cette nouvelle méthode, proposée par Shile Li et son équipe, résout le problème en deux étapes magiques :

1. La Rééducation Globale (Au lieu de réparer pièce par pièce)

L'analogie du puzzle :
Avant, pour adapter ce chef à la petite cuisine, on essayait de réparer chaque étage de sa cuisine séparément (un étage pour les légumes, un pour la viande, etc.). Le problème, c'est que les étages sont tous connectés : si vous changez la taille des casseroles à l'étage 1, cela affecte tout ce qui se passe à l'étage 10. Les anciennes méthodes ignoraient ces liens et le résultat était désastreux.

La nouvelle approche :
Cette équipe propose de rééduquer tout le chef en même temps. Ils ne regardent pas un étage isolé, mais l'ensemble de la cuisine. Ils ajustent doucement les quantités, les tailles des casseroles et les températures de tous les fours simultanément.

Le résultat : Même avec des ingrédients très simples (des nombres très petits, comme 3 ou 4 bits), le chef garde son génie. C'est comme si on lui apprenait à cuisiner avec des ustensiles en plastique, mais en ajustant sa technique pour qu'il soit aussi bon qu'avec de l'acier inoxydable.

2. Le Problème du "Manque de Recettes" (Données réelles)

Pour entraîner ce chef à cuisiner avec des ustensiles simples, il faut normalement lui montrer des milliers de photos réelles de chats, de voitures, de montagnes, etc. Mais souvent, on ne peut pas avoir ces photos (problèmes de confidentialité ou de stockage).

L'ancienne méthode (Les prompts basiques) :
On demandait à un robot dessinateur (une IA génératrice d'images) de faire des dessins en disant : "Dessine une photo de [objet]".

Le souci : Si vous demandez "un cerf-volant", le robot dessine toujours le même cerf-volant rouge, dans le même ciel bleu. C'est trop répétitif. De plus, si vous demandez "un héron", le robot ne sait pas si vous voulez l'oiseau ou la grue de chantier ! Le chef cuisinier s'entraîne sur des images trop similaires et ne sait pas s'adapter à la réalité.

La nouvelle méthode (Les "Prompts Appris") :
Au lieu de donner une seule instruction, l'équipe a créé une classe de petits instructeurs virtuels.

Imaginez que pour chaque objet (ex: "cerf-volant"), ils apprennent à l'IA à générer 20 versions différentes : un cerf-volant en papier, un en plastique, un dans un parc, un dans un champ, un vieux, un neuf, etc.
Ils utilisent un système de "feedback" : le chef (le modèle ViT) regarde les dessins. S'il dit "Ah non, ce n'est pas un cerf-volant, c'est un oiseau !", les instructeurs ajustent leur demande pour la prochaine fois.
Le résultat : Ils génèrent une bibliothèque de milliers de dessins diversifiés et parfaits, sans jamais avoir vu une seule vraie photo. C'est comme si le chef s'entraînait sur un catalogue de dessins animés si varié qu'il finit par mieux comprendre le monde réel que s'il avait vu quelques photos réelles.

En résumé, les trois grandes victoires de cette méthode :

Tout d'un coup : Ils ajustent toute la cuisine du chef en même temps, pas pièce par pièce. Cela permet de réduire la taille du modèle de façon extrême (jusqu'à utiliser des nombres très petits) sans perdre en précision.
Zéro photo réelle nécessaire : Grâce à leurs "instructeurs virtuels" (les prompts appris), ils créent des images d'entraînement si variées et intelligentes qu'elles remplacent parfaitement les vraies photos. C'est idéal pour la vie privée.
Rapidité : Tout cela se fait en une heure sur un seul ordinateur puissant. C'est rapide, efficace et prêt à être installé sur n'importe quel appareil portable.

En conclusion : Cette méthode permet de transformer un géant de l'intelligence artificielle, habitué aux super-ordinateurs, en un petit expert capable de fonctionner sur votre smartphone, le tout sans avoir besoin de voler vos photos personnelles pour l'entraîner. C'est de l'ingénierie culinaire numérique de haut niveau !

Each language version is independently generated for its own context, not a direct translation.

1. Problématique

Les Vision Transformers (ViT) ont démontré des performances exceptionnelles dans de nombreuses tâches de reconnaissance visuelle, mais leur déploiement sur des appareils aux ressources limitées (edge computing) est entravé par leurs exigences élevées en termes de calcul et de mémoire.

La quantification post-entraînement (PTQ) est une solution attrayante pour réduire la précision des poids et des activations sans nécessiter de réentraînement complet (contrairement à la quantification consciente de l'entraînement ou QAT). Cependant, l'application de la PTQ aux ViT pose des défis majeurs :

Dépendances complexes : Les mécanismes d'attention créent de fortes interdépendances entre les blocs, rendant les méthodes de reconstruction bloc par bloc (block-wise) inefficaces.
Distributions non gaussiennes : Les activations des ViT, en particulier après les couches softmax, présentent des distributions à queues lourdes avec des valeurs aberrantes (outliers) importantes, ce qui brise les hypothèses de distribution uniforme utilisées par les méthodes PTQ classiques (développées pour les CNN).
Manque de données étiquetées : La plupart des méthodes PTQ nécessitent un jeu de données de calibration étiqueté, ce qui peut poser des problèmes de confidentialité ou de disponibilité.
Limites des bits ultra-faibles : Aucune méthode PTQ précédente n'avait réussi à maintenir une précision acceptable sur les ViT avec des poids en très basse précision (ex: W1.58, soit des poids ternaires).

2. Méthodologie

Les auteurs proposent un cadre d'optimisation PTQ de bout en bout (end-to-end) qui optimise conjointement tous les paramètres de quantification sur l'ensemble du réseau, sans utiliser de données étiquetées.

A. Optimisation Conjointe de Bout en Bout

Contrairement aux approches séquentielles ou par blocs, cette méthode optimise globalement :

Paramètres de quantification : Pas de taille (step size), point zéro (zero-point) et paramètres de recalage par canal.
Recalage par canal (Channel-Wise Rescaling) : Inspiré de SmoothQuant et RepQ-ViT, une transformation affine apprenable ( $\alpha, \beta$ ) est appliquée aux activations avant la quantification pour lisser la dynamique entre les canaux, transférant la difficulté de quantification des activations vers les poids (plus stables).
Raffinement des poids : Un terme de raffinement ( $W_{refine}$ ) est ajouté aux poids quantifiés pour ajuster légèrement les poids par rapport à leur version pleine précision figée.
Fonction de perte : L'optimisation utilise une perte de distillation combinant :
1. Une perte de reconstruction des caractéristiques intermédiaires (MSE) entre les blocs du modèle pleine précision et du modèle quantifié.
2. Une divergence de Kullback-Leibler (KL) sur les logits finaux.
3. Une régularisation $L_1$ sur le raffinement des poids.
Efficacité : Le processus converge en 1 à 2,5 heures sur un seul GPU pour un modèle ViT-Small.

B. Stratégie de Calibration Sans Données (Data-Free)

Pour éliminer la dépendance aux données réelles, les auteurs introduisent une stratégie de génération d'images synthétiques basée sur Stable Diffusion Turbo guidée par des prompts appris.

Apprentissage Multi-Mode : Au lieu d'utiliser un seul prompt textuel manuel (ex: "une photo de "), le système apprend $M$ embeddings de prompts distincts par classe.
Objectifs d'optimisation des prompts :
1. Perte de classification : Les images générées doivent être correctement classées par un ViT pleine précision figé.
2. Diversité et Orthogonalité : Des pertes supplémentaires encouragent la diversité dans l'espace des embeddings textuels, des images générées, des caractéristiques du ViT et des cartes d'attention. Cela garantit que les prompts couvrent différents styles, arrière-plans et dispositions spatiales.
3. Stabilité : Un mécanisme de réinitialisation heuristique empêche les prompts de dériver sémantiquement hors de la classe cible.

3. Contributions Clés

Framework PTQ End-to-End pour ViT : Une méthode qui optimise conjointement tous les blocs et couches sans données étiquetées, surpassant les méthodes par blocs en exploitant les redondances inter-blocs.
Stratégie de Calibration Sans Données Avancée : Utilisation de Stable Diffusion Turbo avec des prompts multi-modes appris automatiquement pour générer des données de calibration diversifiées et sémantiquement correctes, remplaçant efficacement les données réelles.
Performance en Bits Ultra-Faibles : Première démonstration de résultats PTQ réussis sur ViT avec des poids en W1.58A8 (poids ternaires) tout en maintenant une précision robuste, un niveau de précision inédit pour la PTQ sur ViT.

4. Résultats Expérimentaux

Les expériences ont été menées sur ImageNet avec des modèles ViT, DeiT et Swin-T.

Précision (W4A4 et W3A3) : La méthode atteint des performances de pointe (State-of-the-Art), surpassant des méthodes concurrentes comme RepQ-ViT, FIMA-Q et APHQ-ViT.
- Exemple (ViT-S, W4A4) : 78,35 % de précision (avec données réelles) vs 77,61 % (avec données synthétiques), contre 76,68 % pour FIMA-Q.
Performance Extrême (W1.58A8) :
- Les méthodes existantes échouent ou chutent drastiquement (ex: RepQ-ViT ~0%, FIMA-Q ~4-45%).
- La méthode proposée maintient des scores élevés : 68,45 % (ViT-S) et 78,89 % (Swin-B) avec des données réelles, et 63,71 % / 75,51 % avec des données synthétiques.
Impact de la taille du jeu de calibration : La méthode bénéficie de l'augmentation de la taille du jeu de calibration (jusqu'à 10 000 images) avant de saturer, contrairement aux méthodes par blocs qui plafonnent rapidement.
Qualité des données synthétiques : Les prompts appris génèrent des images plus diversifiées et sémantiquement correctes que les prompts textuels manuels (résolvant les ambiguïtés comme "kite" = oiseau vs cerf-volant). Les visualisations t-SNE montrent que les caractéristiques des images synthétiques se rapprochent davantage de la distribution des données réelles.

5. Signification et Impact

Ce travail démontre que la quantification post-entraînement des Vision Transformers peut être rendue hautement efficace et robuste, même dans des scénarios de données absentes et de bits ultra-faibles.

Déploiement Edge : La capacité à quantifier à W1.58A8 ouvre la voie au déploiement de modèles ViT complexes sur des dispositifs embarqués aux ressources très limitées.
Indépendance aux Données : La stratégie de calibration sans données permet de déployer ces modèles dans des contextes où la confidentialité des données ou l'accès aux données d'entraînement est impossible.
Efficacité Computationnelle : Le processus d'optimisation rapide (1h sur un GPU) rend cette approche pratique pour l'industrie, évitant les cycles de réentraînement longs et coûteux de la QAT.

En résumé, cette recherche établit un nouveau standard pour la compression des modèles de vision par ordinateur, combinant optimisation globale et génération de données synthétiques intelligente pour surmonter les limitations actuelles de la PTQ.

Joint Post-Training Quantization of Vision Transformers with Learned Prompt-Guided Data Generation

1. La Rééducation Globale (Au lieu de réparer pièce par pièce)

2. Le Problème du "Manque de Recettes" (Données réelles)

En résumé, les trois grandes victoires de cette méthode :

1. Problématique

2. Méthodologie

A. Optimisation Conjointe de Bout en Bout

B. Stratégie de Calibration Sans Données (Data-Free)

3. Contributions Clés

4. Résultats Expérimentaux

5. Signification et Impact

Articles similaires

Conversational Successes and Breakdowns in Everyday Smart Glasses Use

EmbodMocap: In-the-Wild 4D Human-Scene Reconstruction for Embodied Agents

GVGS: Gaussian Visibility-Aware Multi-View Geometry for Accurate Surface Reconstruction

PyEncode: An Open-Source Library for Structured Quantum State Preparation

DOne: Decoupling Structure and Rendering for High-Fidelity Design-to-Code Generation