EVLF: Early Vision-Language Fusion for Generative Dataset Distillation

Each language version is independently generated for its own context, not a direct translation.

Imaginez que vous essayez d'enseigner à un élève très intelligent (une intelligence artificielle) à reconnaître des animaux, mais au lieu de lui montrer des milliers de photos de chiens, de chats et d'oiseaux, vous ne lui donnez qu'une toute petite boîte de 10 ou 20 images. C'est le défi de la distillation de données : créer un "mini-cours" ultra-complet à partir d'une bibliothèque entière.

Le problème, c'est que les méthodes actuelles pour créer ces mini-cours artificiels ont un défaut majeur. Voici comment l'article EVLF propose de régler ce problème avec une approche simple et élégante.

1. Le Problème : Le Chef d'Orchestre qui crie trop fort

Dans les méthodes précédentes (appelées "Fusion Tardive"), le processus ressemble à ceci :

On prend une image floue (comme un brouillard).
On commence à la nettoyer pour révéler l'image.
À la toute fin, on crie à l'ordinateur : "Attends ! C'est un chien !" (c'est le texte).

L'analogie : Imaginez un sculpteur qui commence à tailler une statue de marbre. Il travaille dur, façonne les muscles et les traits du visage. Mais au dernier moment, quelqu'un arrive et crie : "Non, ce n'est pas un humain, c'est un chien !" Le sculpteur panique et essaie de transformer le visage humain en museau de chien en quelques secondes. Le résultat ? Une statue bizarre, avec un corps humain mais un museau de chien, ou des textures étranges qui ressemblent à du texte plutôt qu'à de la fourrure. L'image est "correcte" pour l'étiquette (c'est un chien), mais elle ne ressemble pas à un vrai chien.

2. La Solution EVLF : La Conversation au Départ

L'équipe propose EVLF (Fusion Vision-Langage Précoce). Au lieu de crier les instructions à la fin, ils organisent une réunion avant même que le sculpteur ne prenne son marteau.

L'analogie : Avant de commencer à sculpter, on réunit le sculpteur (qui voit les formes) et le guide (qui connaît le chien) autour d'une table.

Le guide dit : "Voici à quoi ressemble un chien."
Le sculpteur dit : "Ok, je vois la texture de la fourrure et la forme des pattes."
Ensemble, ils créent un plan unique qui combine la vision du sculpteur et la connaissance du guide.

Ensuite, le sculpteur commence son travail. Il n'a plus besoin de crier "C'est un chien !" à la fin, car l'intention était déjà intégrée dans la matière même de l'image dès le début.

3. Comment ça marche concrètement ?

Dans le langage des ordinateurs, l'article décrit cela ainsi :

L'Encodeur (le sculpteur) transforme une photo réelle en une représentation mathématique (un "latent").
Le Texte (le guide) transforme le mot "Chien" en une autre représentation mathématique.
EVLF utilise un petit module intelligent (une "attention croisée") pour mélanger ces deux représentations immédiatement, avant que le processus de génération de l'image ne commence.

C'est comme si vous injectiez l'âme du mot "Chien" directement dans la pâte à modeler avant de commencer à la façonner.

4. Les Résultats : Des images plus réalistes et variées

Grâce à cette méthode, les images générées sont :

Plus fidèles : Elles ressemblent vraiment à des chiens, pas à des caricatures.
Plus variées : Comme le plan de départ est riche, l'ordinateur peut créer des chiens de différentes races, avec différentes fourrures, et non pas toujours le même chien "moyen".
Plus efficaces : Les modèles d'IA entraînés sur ces mini-ensembles d'images apprennent beaucoup mieux et plus vite.

En résumé

Imaginez que vous voulez apprendre à quelqu'un à cuisiner un gâteau.

L'ancienne méthode : Vous laissez la personne cuisiner le gâteau, et quand il est presque prêt, vous lui criez : "C'est un gâteau au chocolat !" Elle essaie alors désespérément d'ajouter du chocolat sur un gâteau déjà cuit. Le résultat est bizarre.
La méthode EVLF : Vous donnez à la personne la recette (le texte) et les ingrédients (l'image) dès le début. Elle mélange tout ensemble avant de mettre le gâteau au four. Le résultat est un gâteau parfait, avec le bon goût et la bonne texture.

EVLF est donc une astuce simple mais puissante qui permet de créer de meilleurs "cours accélérés" pour les intelligences artificielles, en s'assurant que le texte et l'image travaillent en équipe dès la première seconde, plutôt que de se battre à la dernière minute.

Each language version is independently generated for its own context, not a direct translation.

1. Problématique et Contexte

La distillation de jeux de données (Dataset Distillation - DD) vise à synthétiser un ensemble de données d'entraînement compact et informatif, permettant d'entraîner des modèles avec une précision élevée en utilisant un nombre de samples bien inférieur à l'original.

Récemment, les méthodes basées sur les modèles de diffusion (comme les LDMs et les DiTs) sont devenues dominantes pour cette tâche. Cependant, ces approches souffrent d'une limitation structurelle majeure :

Fusion Tardive (Late Fusion) : Dans les pipelines standards, les indices sémantiques (prompts textuels) sont injectés uniquement lors de la phase de débruitage (denoising), via des mécanismes d'attention croisée à l'intérieur du débruiteur.
Conséquences : Cette injection tardive provoque une sur-correction. Les signaux textuels dominent le processus génératif, écrasant les représentations latentes visuelles issues de l'encodeur. Cela conduit à la génération d'échantillons synthétiques qui respectent l'étiquette (label) mais qui manquent de fidélité visuelle, présentant des formes non naturelles, des textures ressemblant à du texte et des détails structurels simplifiés.

2. Méthodologie : EVLF (Early Vision-Language Fusion)

Pour résoudre ce problème, les auteurs proposent EVLF, une méthode qui déplace l'alignement vision-langage avant le début du processus de diffusion.

Architecture et Flux de Données

Encodage Initial :
- Une image $x$ est encodée par un encodeur VAE pour produire un latent visuel $z_{img}$ .
- L'étiquette de classe $y$ est encodée par un encodeur de texte pour produire une embedding textuelle $e_{text}$ .
Module de Fusion Précoce (Cross-Attention) :
- Au lieu d'attendre le débruiteur, un module d'attention croisée léger (Cross-Attention) fusionne $z_{img}$ et $e_{text}$ immédiatement après l'encodeur, avant l'injection de bruit.
- Les tokens visuels agissent comme requêtes (Queries) et les tokens textuels comme clés/valeurs (Keys/Values).
- Cela produit un latent fusionné $z_{fused}$ qui encode simultanément la structure visuelle locale et les directions sémantiques globales.
Processus Génératif :
- Le processus de diffusion commence à partir de $z_{fused}$ (au lieu d'un bruit pur ou d'un latent visuel non conditionné).
- Le débruiteur opère sur un point de départ qui intègre déjà le contexte sémantique, réduisant ainsi la nécessité d'une « force » excessive des prompts durant le débruitage.

Objectif d'Entraînement

Le module d'attention croisée est entraîné avec un double objectif pour garantir à la fois la fidélité visuelle et l'alignement sémantique :

Perte MSE ( $L_{MSE}$ ) : Minimise la distance entre le latent fusionné $z_{fused}$ et le latent visuel original $z_{img}$ pour préserver la structure visuelle.
Perte InfoNCE ( $L_{InfoNCE}$ ) : Alignement contrastif entre le latent fusionné (après projection) et les embeddings textuels de la même classe pour assurer la pertinence sémantique.
Objectif Final : $L_{CA} = \lambda_1 L_{InfoNCE} + \lambda_2 L_{MSE}$ .

Flexibilité (Plug-and-Play)

EVLF est conçu comme une solution modulaire. Elle peut être intégrée dans n'importe quel pipeline de distillation basé sur la diffusion possédant un encodeur, sans nécessiter de modifications des architectures de débruiteurs ou des programmes d'entraînement spécifiques. Un ajustement fin (fine-tuning) optionnel du débruiteur peut être effectué pour s'adapter à la nouvelle distribution des latents fusionnés.

3. Contributions Clés

Identification d'une limitation structurelle : Les auteurs mettent en évidence que l'injection de sémantique uniquement lors du débruitage conduit à une domination des prompts textuels et à une dégradation de la fidélité visuelle.
Proposition d'EVLF : Une méthode de fusion vision-langage précoce qui aligne les embeddings textuels et visuels à l'interface encodeur-backbone, permettant une co-évolution des indices sémantiques et visuels tout au long de la génération.
Compatibilité universelle : La méthode est « plug-and-play », compatible avec diverses architectures (LDM, DiT) et stratégies d'échantillonnage, sans modifier les fonctions de perte ou les structures de base.
Performances supérieures : Des expériences extensives montrent des améliorations constantes en termes de fidélité sémantique, de cohérence visuelle et de précision de classification en aval.

4. Résultats Expérimentaux

Les auteurs ont évalué EVLF sur plusieurs benchmarks (CIFAR-10/100, ImageNette, ImageWoof, ImageIDC, Tiny-ImageNet, ImageNet-1K) avec différents nombres d'images par classe (IPC) et architectures de modèles.

Amélioration de la Précision : EVLF surpasse systématiquement les méthodes de l'état de l'art (SOTA) comme D4M, MGD3, MinimaxDiffusion et les méthodes non-génératives (SRe2L, RDED).
- Exemple : Sur ImageWoof (données fines), avec IPC=10, EVLF améliore la précision de 2,7 % par rapport à la base sur ResNetAP-10.
- Exemple : Sur CIFAR-10 (IPC=10), EVLF bat D4M de 8,1 %.
Qualité Visuelle et Diversité :
- Les visualisations t-SNE montrent que les échantillons générés par EVLF couvrent une région plus large de la variété des données réelles, indiquant une meilleure diversité intra-classe.
- Les images synthétiques présentent des textures plus riches, des formes plus cohérentes et moins d'artefacts « dessinés » ou textuels par rapport aux méthodes à fusion tardive.
Apprentissage par Transfert : Les modèles pré-entraînés sur des jeux de données distillés avec EVLF (ImageNet-1K) obtiennent de meilleurs résultats lors du fine-tuning sur des tâches cibles (CIFAR, Dogs, Flowers), prouvant que les données synthétiques préservent mieux les sémantiques discriminatives.

5. Signification et Conclusion

Le papier EVLF apporte une contribution significative au domaine de la distillation de données en corrigeant un biais fondamental des approches génératives actuelles. En déplaçant l'alignement sémantique vers le début du pipeline (avant le débruitage), il permet de préserver l'intégrité des caractéristiques visuelles tout en guidant la génération vers la bonne classe.

Implications :

Efficacité : Permet de réduire drastiquement la taille des jeux de données d'entraînement sans sacrifier la performance des modèles.
Qualité des Données : Génère des données synthétiques plus réalistes et structurées, essentielles pour l'entraînement de modèles robustes.
Généralisation : La nature modulaire de la méthode facilite son adoption dans l'écosystème existant des modèles de diffusion, ouvrant la voie à des pipelines de distillation plus efficaces et plus stables.

En résumé, EVLF démontre que pour une distillation réussie, la sémantique ne doit pas simplement « corriger » l'image en cours de génération, mais doit être ancrée dans la représentation latente dès le départ.