Exploring Diffusion Models' Corruption Stage in Few-Shot Fine-tuning and Mitigating with Bayesian Neural Networks

Each language version is independently generated for its own context, not a direct translation.

Voici une explication simple et imagée de cette recherche, comme si nous en parlions autour d'un café.

Le Problème : L'Artiste qui perd ses repères

Imaginez que vous avez un super artiste peintre (c'est le modèle de diffusion, ou "DM") qui a passé des années à apprendre à peindre des millions de paysages, de chats et de voitures. Il est un génie, mais il ne connaît pas votre chat spécifique, "Moustache".

Vous voulez lui apprendre à peindre Moustache en lui montrant seulement quelques photos (c'est le "few-shot fine-tuning"). C'est une méthode rapide et économique.

Mais les chercheurs ont découvert un phénomène étrange et inattendu qui se produit pendant cet apprentissage :

Le début (La phase d'apprentissage) : L'artiste commence bien. Il regarde vos photos et commence à peindre un chat qui ressemble de plus en plus à Moustache. C'est super !
Le milieu (La "Phase de Corruption") : Soudain, quelque chose de bizarre arrive. L'artiste semble paniquer. Au lieu de peindre un beau chat, il commence à ajouter des taches de bruit, des motifs étranges et du "grésillement" sur la toile. Le résultat devient moche et illisible. C'est comme si l'artiste avait oublié comment peindre et commençait à gribouiller frénétiquement.
La fin (Le surapprentissage) : Si vous continuez à le forcer, il arrête de gribouiller, mais il ne fait plus rien d'autre que copier exactement la photo originale de Moustache. Il a perdu sa créativité : il ne peut plus peindre Moustache dans un parc ou avec un chapeau, il ne peut que recopier la photo.

Les chercheurs appellent cette phase du milieu la "Phase de Corruption". C'est le moment où le modèle "casse" avant de se figer.

La Cause : Une bibliothèque trop petite

Pourquoi cela arrive-t-il ?
Imaginez que l'artiste a une bibliothèque mentale immense (sa distribution d'apprentissage). Quand il apprend Moustache avec seulement 3 photos, il essaie de réduire sa bibliothèque pour ne garder que ces 3 images.

Le problème, c'est que la bibliothèque devient trop petite et trop rigide.

Quand l'artiste essaie de peindre quelque chose de nouveau (par exemple, Moustache avec un chapeau), il ne trouve pas de référence dans sa petite bibliothèque.
Au lieu de dire "Je ne sais pas", il invente des choses au hasard pour combler les trous. Ces inventions aléatoires sont les motifs bruyants (le bruit) que l'on voit sur les images. C'est comme si un musicien qui ne connaît que 3 notes essayait de jouer un solo complexe et finissait par faire des bruits de grincement.

La Solution : L'Artiste "Bayésien" (Le Peintre qui doute)

Pour régler ce problème, les chercheurs ont eu une idée brillante : utiliser des Réseaux de Neurones Bayésiens (BNN).

Au lieu de donner à l'artiste une seule réponse fixe pour chaque situation, on lui apprend à douter et à explorer plusieurs possibilités.

L'analogie du peintre :
- Sans BNN : L'artiste dit : "Je suis sûr à 100% que Moustache a ces poils gris." S'il se trompe, il panique et gribouille.
- Avec BNN : L'artiste dit : "Je pense que Moustache a des poils gris, mais il pourrait aussi avoir des poils blancs, ou être un peu plus rond." Il explore un plus large éventail de possibilités.

En introduisant cette petite dose d'incertitude (du "bruit" contrôlé) pendant l'entraînement, on empêche l'artiste de se refermer sur une seule image. On l'oblige à rester ouvert et flexible.

Le Résultat : Un équilibre parfait

Grâce à cette méthode, trois choses magiques se produisent :

Plus de gribouillages : La "Phase de Corruption" disparaît. L'artiste ne panique plus.
Plus de qualité : Les images sont plus belles et plus réalistes.
Plus de diversité : L'artiste peut maintenant peindre Moustache dans n'importe quelle situation (avec un chapeau, dans la neige, en train de dormir) sans perdre la ressemblance avec le vrai chat.

En résumé

Les chercheurs ont découvert que quand on apprend trop vite à une IA avec peu d'exemples, elle se fige et commence à faire des erreurs bizarres (du bruit). Pour la sauver, ils lui ont appris à garder un peu de flexibilité (comme un humain qui admet qu'il ne sait pas tout).

C'est comme si on apprenait à un élève à faire du vélo : au lieu de lui dire "tiens-toi parfaitement droit" (ce qui le fait tomber dès qu'il y a un vent), on lui apprend à garder l'équilibre en bougeant un peu. Résultat : il roule mieux, plus longtemps, et sans tomber !

Cette méthode est gratuite (elle ne coûte pas plus cher à l'usage) et fonctionne avec toutes les techniques actuelles de personnalisation d'images. C'est une victoire pour rendre l'IA plus intelligente et plus fiable.

Each language version is independently generated for its own context, not a direct translation.

Titre : Exploration de la phase de corruption des modèles de diffusion lors du fine-tuning few-shot et atténuation par les réseaux de neurones bayésiens

1. Problématique

Le fine-tuning (ajustement fin) à peu d'exemples (few-shot) des Modèles de Diffusion (DM) est crucial pour personnaliser la génération d'images avec un coût de calcul réduit. Cependant, les auteurs identifient un phénomène inattendu et néfaste lors de ce processus, qu'ils nomment « phase de corruption » (corruption stage).

Le phénomène : Lors du fine-tuning, la fidélité des images générées par rapport aux images d'entraînement suit une trajectoire non monotone :
1. Une amélioration initiale rapide.
2. Une détérioration soudaine où la similarité avec les images d'entraînement chute et où des motifs bruyants (noisy patterns) apparaissent sur les images générées.
3. Une récupération ultérieure de la fidélité, mais qui conduit inévitablement à un surapprentissage (overfitting) sévère, où le modèle ne peut plus générer que des copies exactes des images d'entraînement, perdant ainsi sa capacité de diversité.
Cause racine : L'analyse théorique suggère que cette corruption provient d'une distribution d'apprentissage trop restreinte. Dans un contexte few-shot, le modèle apprend une distribution trop étroite autour des échantillons limités, ce qui amplifie les erreurs de prédiction de bruit lors des étapes intermédiaires de la diffusion, créant ces artefacts.

2. Méthodologie

Pour comprendre et résoudre ce problème, les auteurs proposent une approche en deux temps : une modélisation heuristique et une solution basée sur les réseaux de neurones bayésiens (BNN).

A. Modélisation Heuristique

Les auteurs modélisent le processus de fine-tuning (d'abord en one-shot, puis généralisé) en approximeant les distributions par des lois gaussiennes.

Ils montrent que l'erreur de prédiction ( $\delta_t$ ) dépend de la confiance du modèle ( $\sigma_1$ ) à régénérer l'échantillon d'entraînement.
Pendant la phase de corruption, la distribution apprise est trop étroite mais l'incertitude ( $\sigma_1$ ) est encore élevée, ce qui entraîne une amplification du bruit et la génération de motifs corrompus.
À mesure que l'entraînement progresse, $\sigma_1$ diminue, éliminant la corruption mais menant à un surapprentissage total.

B. Solution : Réseaux de Neurones Bayésiens (BNN)

Pour contrer la distribution restreinte, les auteurs intègrent des BNN dans le processus de fine-tuning.

Principe : Au lieu de traiter les paramètres du modèle comme des valeurs fixes, les BNN les modélisent comme des variables aléatoires (distributions). Cela force le modèle à apprendre une distribution plus large et plus robuste, agissant comme une augmentation de données implicite.
Formulation de la perte : L'objectif d'apprentissage est décomposé en deux termes :
1. Espérance de la perte de diffusion ( $L_{DM}$ ) : Calculée sur la distribution des paramètres.
2. Terme de régularisation ( $L_r$ ) : Une divergence KL qui maintient la distribution apprise proche de la distribution a priori du modèle pré-entraîné.
- La perte totale est : $W^* = \arg \min_W \mathbb{E}_{\theta \sim Q_W(\theta)} [L_{DM}] + \lambda L_r$ .
Inférence : Lors de la génération (inférence), les paramètres sont remplacés par leurs valeurs moyennes ( $\mu_\theta$ ). Cela garantit aucun coût supplémentaire par rapport aux méthodes classiques, rendant la solution compatible avec le déploiement industriel.
Compatibilité : La méthode est conçue pour fonctionner avec des techniques existantes comme DreamBooth, LoRA et OFT, en n'appliquant les BNN qu'à un sous-ensemble de paramètres (ex: couches linéaires ou normalisation) pour réduire les coûts computationnels.

3. Contributions Clés

Observation et définition de la « phase de corruption » : Identification d'un cycle de performance anormal (amélioration $\to$ dégradation avec bruit $\to$ surapprentissage) spécifique au few-shot sur les DM.
Modélisation théorique : Démonstration que la cause fondamentale est la contrainte de la distribution apprise, expliquant mathématiquement l'émergence et la disparition des artefacts.
Innovation méthodologique : Application des BNN pour élargir implicitement la distribution d'apprentissage sans coût d'inférence, offrant un compromis contrôlable entre fidélité et diversité via le paramètre $\lambda$ .
Validation expérimentale : Preuve que la méthode fonctionne sur différents modèles (SD v1.4, v1.5, v2.0), différentes tâches (génération orientée objet et sujet) et différentes architectures de fine-tuning.

4. Résultats Expérimentaux

Les expériences ont été menées sur les ensembles de données DreamBooth (objets) et CelebA-HQ (visages), comparant les méthodes avec et sans BNN.

Amélioration des métriques : L'ajout de BNN améliore significativement :
- La fidélité au texte (Clip-T).
- La fidélité à l'image (Dino, Clip-I).
- La qualité de l'image (Clip-IQA).
- La diversité de génération (LPIPS), grâce à l'introduction de stochasticité contrôlée.
Réduction de la corruption : Les images générées ne présentent plus les motifs bruyants observés lors de la phase de corruption classique.
Étude utilisateur : Dans une étude avec 101 participants, les modèles avec BNN ont été préférés dans la quasi-totalité des cas (jusqu'à 75% de préférence) pour la qualité d'image, l'alignement avec le texte et la fidélité au sujet, tant dans les meilleurs cas que dans les cas moyens.
Efficacité : L'application de BNN uniquement sur les couches de normalisation (LN/GN) permet d'obtenir de fortes performances avec une modification de seulement ~0,02% des paramètres.

5. Signification et Impact

Cet article apporte une contribution majeure à la compréhension des dynamiques d'entraînement des modèles de diffusion en contexte few-shot.

Théorique : Il éclaire le mécanisme de la « phase de corruption », un problème jusqu'alors mal compris, en le liant à la largeur de la distribution apprise.
Pratique : La méthode proposée est simple à intégrer, ne nécessite pas de données supplémentaires, n'ajoute aucun coût à l'inférence et est compatible avec les pipelines de fine-tuning actuels.
Perspective : Elle ouvre la voie à des applications d'IA personnalisée plus robustes, capables de générer des images de haute qualité et diversifiées sans risque de dégradation visuelle ou de surapprentissage excessif.

En résumé, l'utilisation des Réseaux de Neurones Bayésiens agit comme un régulateur efficace qui élargit l'espace d'apprentissage, éliminant la phase de corruption et permettant un fine-tuning plus stable et performant.