SiNGER: A Clearer Voice Distills Vision Transformers Further

Each language version is independently generated for its own context, not a direct translation.

🎤 SiNGER : La voix claire qui nettoie le bruit

Imaginez que vous voulez apprendre à un jeune chanteur (l'étudiant) à chanter comme un célèbre maestro (le professeur). C'est ce qu'on appelle la distillation de connaissances en intelligence artificielle : on essaie de transférer la sagesse d'un très gros modèle (le professeur) vers un petit modèle (l'étudiant) pour qu'il soit aussi intelligent, mais plus rapide et léger.

Le problème, c'est que le professeur, bien qu'expert, a parfois des tics de voix ou des grincements (ce qu'on appelle des "artefacts à haute norme").

1. Le Problème : Le Professeur qui crie trop fort

Dans les modèles de vision par ordinateur (les "yeux" de l'IA), il y a un phénomène bizarre : certaines parties de l'image (les "patchs") deviennent énormes en importance, comme si le professeur hurlait sur des détails insignifiants (un grain de poussière sur une photo) au lieu de chanter la mélodie principale (le visage d'une personne).

L'analogie : Imaginez que le professeur chante une belle aria, mais qu'à chaque fois qu'il passe sur un détail mineur, il pousse un cri strident.
La conséquence : Si l'étudiant essaie de copier le professeur mot pour mot, il va se concentrer sur ces cris stridents pour essayer de les imiter parfaitement. Il va oublier la mélodie, la structure et la beauté de la chanson. Résultat : l'étudiant devient mauvais, car il a appris à crier au lieu de chanter.

Les méthodes précédentes essayaient de résoudre ça en bouchant les oreilles de l'étudiant (en masquant aléatoirement les cris). Mais le problème, c'est que parfois, ce "cri" cachait une information importante ! En bouchant les oreilles, on perdait aussi de la musique.

2. La Solution : SiNGER, le "Mixeur Magique"

L'équipe derrière SiNGER a eu une idée géniale. Au lieu de boucher les oreilles, ils ont décidé de réparer la voix du professeur avant qu'il ne chante pour l'étudiant.

Ils ont créé un petit outil (un "adaptateur") qui agit comme un mixeur audio intelligent :

Il écoute le professeur.
Il identifie les cris stridents (les artefacts).
Il les baisse le volume sans toucher à la mélodie.

3. Comment ça marche ? (L'analogie du "Sous-silence")

C'est ici que la magie mathématique opère, mais restons simples.

Imaginez que la voix du professeur est un mélange de deux choses :

La Mélodie (l'information utile) : Ce qui est important pour reconnaître l'image.
Le Bruit (les artefacts) : Ce qui est inutile et dérangeant.

Le secret de SiNGER, c'est qu'il sait exactement où se trouve le bruit. Il utilise ce qu'on appelle un "espace nul" (nullspace).

L'analogie : Imaginez que vous avez un couloir (le modèle suivant). Si vous poussez un objet dans une direction précise (l'espace nul), il glisse sans toucher aux murs et sans faire bouger les meubles. Si vous le poussez dans une autre direction, il fait tomber tout le mobilier.
L'action de SiNGER : Il pousse le "bruit" (les cris) exactement dans cette direction "silencieuse" où il ne va rien casser. Il atténue le volume du bruit sans jamais toucher à la mélodie (l'information utile).

Ensuite, le professeur "nettoyé" chante pour l'étudiant. L'étudiant apprend une version claire, sans les grincements, mais avec toute la richesse de la chanson.

4. Les Résultats : Une voix plus pure

Grâce à cette méthode, les petits modèles (les étudiants) deviennent bien meilleurs :

Ils reconnaissent mieux les images (classification).
Ils comprennent mieux les scènes (segmentation, profondeur).
Ils sont plus robustes quand les conditions changent (lumière, angle).

C'est comme si, après avoir passé le professeur par un filtre de qualité, l'étudiant apprenait à chanter non pas en copiant les défauts, mais en capturant l'essence pure du talent.

En résumé

SiNGER est comme un ingénieur du son pour l'IA. Il ne supprime pas la musique pour enlever le bruit ; il utilise une astuce mathématique (l'espace nul) pour isoler le bruit et le faire disparaître, tout en préservant la beauté de la mélodie. Résultat : un petit modèle qui chante aussi bien qu'un grand, mais sans les grincements gênants. 🎶✨

Each language version is independently generated for its own context, not a direct translation.

1. Problématique : Les Artifacts à Haute Norme dans les Vision Transformers

Les Vision Transformers (ViT) sont devenus l'architecture de référence pour les modèles de fondation visuels. Cependant, les travaux récents (notamment Darcet et al., 2024 ; Wang et al., 2025) ont révélé un défaut critique : les représentations des tokens dans les ViT contiennent des artifacts à haute norme (outliers).

Origine : Ces artifacts résultent d'une accumulation de type "puissance itérée" à travers les blocs résiduels, alignant les tokens sur le vecteur singulier gauche dominant des poids pré-entraînés.
Impact sur la Distillation de Connaissances (KD) : Lors de la distillation d'un grand modèle (enseignant) vers un petit modèle (étudiant), la fonction de perte standard (erreur quadratique moyenne, MSE) est dominée par ces quelques tokens à haute norme.
- Cela crée un biais de gradient : l'optimisation se concentre sur la reproduction de ces artifacts au détriment des signaux informatifs (la structure des tokens "normaux").
- Conséquence : Les étudiants surajustent (overfit) aux artifacts, ce qui dégrade la qualité des représentations transférées et limite les gains de performance, en particulier sur des tâches complexes comme la segmentation ou l'estimation de profondeur.
Limites des méthodes existantes : Des approches antérieures comme ViTKD tentent de supprimer ces artifacts par masquage aléatoire des tokens de l'enseignant. Cependant, cette méthode est aveugle et supprime inévitablement des signaux informatifs, créant un compromis inhérent entre suppression d'artifacts et préservation d'information.

2. Méthodologie : SiNGER (Singular Nullspace-Guided Energy Reallocation)

Pour résoudre ce compromis, les auteurs proposent SiNGER, un cadre de distillation qui affine les caractéristiques de l'enseignant avant la transmission à l'étudiant, en supprimant les artifacts tout en préservant l'information sémantique.

A. Idée Centrale : Perturbation dans le Nullspace

L'approche repose sur une modification mathématique précise des caractéristiques de l'enseignant $F_l^T$ en un ensemble raffiné $\hat{F}_l^T = F_l^T + \Delta F_l^T$ .
L'objectif est double :

Supprimer les normes des outliers : Réduire la magnitude des patches à haute norme.
Préserver l'information : S'assurer que le passage de $\hat{F}_l^T$ à travers le bloc suivant de l'enseignant ( $W_{l+1}$ ) produit le même résultat que le passage de $F_l^T$ .

Mathématiquement, cela impose que la perturbation $\Delta F_l^T$ soit dans le nullspace gauche (left-nullspace) de la transformation du bloc suivant $W_{l+1}$ :
$\Delta F_l^T W_{l+1} = 0$
Cela garantit que la perturbation n'affecte pas la sortie du bloc suivant, préservant ainsi le flux d'information.

B. Implémentation via Adapter LoRA

Pour réaliser cette perturbation de manière efficace et légère :

Adapter LoRA : Un adaptateur basé sur LoRA (Low-Rank Adaptation) est attaché aux caractéristiques de l'enseignant. Il est initialisé avec les vecteurs singuliers gauches correspondant aux plus petites valeurs singulières de $W_{l+1}$ (approximé par linéarisation du bloc FFN).
Initialisation : L'initialisation dans le nullspace guide l'optimisation pour rester dans ce sous-espace, supprimant les outliers sans altérer la structure informative.
Fonction de Perte : L'entraînement combine trois termes :
1. Perte de Distillation ( $L_{KD}$ ) : Alignement entre les caractéristiques raffinées de l'enseignant et celles de l'étudiant.
2. Perte de Suppression d'Outliers ( $L_{outlier}$ ) : pénalise les normes excessives dans les caractéristiques raffinées.
3. Perte de Préservation d'Information ( $L_{info}$ ) : Utilise l'appariement de matrices de Gram pour garantir que la structure directionnelle des caractéristiques est conservée après le bloc suivant.

3. Contributions Clés

Cadre SiNGER : Une nouvelle méthode de distillation qui affine les signaux de l'enseignant via un adaptateur LoRA initialisé dans le nullspace, permettant une suppression ciblée des artifacts.
Analyse Théorique et Empirique : Identification et démonstration que le biais de gradient causé par les outliers dans les ViT dégrade le transfert de connaissances, et proposition d'une solution fondée sur la théorie des espaces nuls.
Performance Supérieure : Démonstration que SiNGER surpasse systématiquement les méthodes de base (FitNet, ViTKD) sur une variété de tâches en aval.
Interprétabilité : Production de cartes de caractéristiques plus claires et plus cohérentes, comme le montrent les visualisations qualitatives.

4. Résultats Expérimentaux

Les expériences ont été menées sur plusieurs benchmarks de classification, de segmentation sémantique, d'estimation de profondeur et de tâches à longue traîne.

Améliorations Globales : SiNGER obtient des gains significatifs par rapport aux étudiants non distillés et aux méthodes de distillation existantes.
- ImageNet-1K : +4.4% à +8.16% d'exactitude top-1 selon les configurations (ex: ViT-L $\to$ ViT-T).
- Tâches Denses : Gains majeurs sur la segmentation (ADE-20K, +4.5%) et l'estimation de profondeur (NYUd-v2, +8.7%).
- Robustesse : Amélioration notable sur les décalages de domaine (ImageNet-v2, ImageNet-R).
Qualité de Représentation :
- La distance de Gram (mesure de similarité structurelle) entre l'enseignant et l'étudiant est minimisée avec SiNGER, indiquant un transfert de relations de patches supérieur.
- Les cartes de caractéristiques visualisées montrent une suppression nette des "bruits" à haute norme tout en conservant les structures sémantiques.
Études d'Ablation :
- L'initialisation dans le nullspace est cruciale pour guider l'optimisation.
- La combinaison des pertes de suppression d'outliers et de préservation d'information est nécessaire pour obtenir les meilleurs résultats.
- La méthode est robuste aux variations d'hyperparamètres (rang $r$ et seuil de quantile $\alpha$ ).

5. Signification et Impact

Le travail SiNGER apporte une contribution fondamentale à la compression de modèles de fondation visuels. Il démontre que la simple réduction de la taille du modèle via la distillation n'est pas suffisante si les défauts structurels du modèle enseignant (les artifacts) ne sont pas corrigés.

Nouvelle Perspective : Au lieu de simplement "apprendre" de l'enseignant, SiNGER propose de "nettoyer" l'enseignant avant l'apprentissage, en exploitant les propriétés géométriques de l'espace de représentation (le nullspace).
Efficacité : La méthode ajoute une surcharge computationnelle minime (environ 1,2% de paramètres supplémentaires et 10% de temps d'entraînement) tout en offrant des gains de performance substantiels.
Généralité : Bien que conçue pour les ViT, le principe de suppression d'artifacts via des perturbations guidées dans le nullspace pourrait s'appliquer à d'autres architectures de modèles de fondation, ouvrant la voie à une compression de modèles plus fiable et plus interprétable.

En résumé, SiNGER offre une "voix plus claire" aux modèles de distillation en éliminant le bruit structurel qui entrave le transfert de connaissances, permettant ainsi aux petits modèles d'atteindre des performances proches de leurs homologues plus grands.