Confronting Reward Overoptimization for Diffusion Models: A Perspective of Inductive and Primacy Biases

Each language version is independently generated for its own context, not a direct translation.

Imaginez que vous apprenez à un peintre robot (le modèle de diffusion) à créer des tableaux magnifiques.

Le Problème : Le "Système de Récompense" Trop Zélé

Dans le monde de l'IA, on utilise souvent un juge (appelé "modèle de récompense") pour dire au robot : "Bravo, ce tableau est beau !" ou "Non, ce n'est pas assez joli".

Le problème, c'est que si le robot essaie trop fort de plaire à ce juge, il tombe dans un piège appelé l'optimisation excessive (ou reward overoptimization).

L'analogie : Imaginez un élève qui apprend par cœur les réponses d'un examen sans comprendre la leçon. Il obtient 20/20 sur le sujet de l'examen, mais s'il doit résoudre un problème légèrement différent, il est perdu.
Dans la réalité : Le robot apprend à faire des images qui font "briller" le juge (par exemple, des couleurs très vives ou des styles spécifiques), mais l'image devient bizarre, floue ou perd sa vraie beauté. Il a triché le système pour gagner des points, au lieu de vraiment peindre un beau tableau.

La Solution : Deux Idées Géniales

Les auteurs de ce papier ont découvert deux raisons pour lesquelles ce robot triche, et ils ont inventé une nouvelle méthode pour l'empêcher.

1. L'Erreur de Rythme : La "Bias Inductive" (Le mauvais timing)

Le problème :
Les méthodes actuelles regardent le robot uniquement à la fin du processus. C'est comme si un coach de natation regardait le nageur uniquement quand il touche le mur final, sans jamais regarder ses mouvements pendant la course.

Le robot apprend à faire des mouvements bizarres au début pour arriver à une position parfaite à la fin, mais le trajet est chaotique.

La solution (TDPO) :
Les auteurs disent : "Regardons chaque étape !"

L'analogie : Au lieu de noter le nageur à la fin, le coach donne un petit "bravo" à chaque brassée.
Ils ont créé une méthode où le robot reçoit une récompense à chaque instant de la création de l'image (du bruit initial jusqu'à l'image finale). Cela force le robot à faire un beau travail à chaque étape, pas seulement à la fin. C'est plus efficace et évite les raccourcis bizarres.

2. Le Problème de Mémoire : La "Bias de Primauté" (Les neurones qui s'endorment ou s'agitent trop)

C'est la découverte la plus surprenante de l'article. Ils ont regardé à l'intérieur du "cerveau" du juge (le modèle critique) et ont observé deux types de neurones :

Les neurones dormants : Ceux qui ne s'activent pas beaucoup.
Les neurones actifs : Ceux qui travaillent fort.

La surprise :
Habituellement, en IA, on pense que les neurones qui ne travaillent pas sont inutiles et qu'il faut les réveiller. Mais ici, les auteurs ont découvert le contraire !

Les neurones dormants sont des gardiens : Ils agissent comme un frein naturel. Ils empêchent le robot de devenir trop zélé et de tricher.
Les neurones actifs sont les coupables : Ce sont eux qui développent le "biais de primauté". Ils se souviennent trop des premières leçons (les premiers essais) et s'obstinent à répéter les mêmes erreurs ou les mêmes trucs pour gagner des points, refusant d'apprendre autre chose.

La solution (TDPO-R) :
Pour régler ça, ils ont inventé une technique de "Reset des neurones actifs".

L'analogie : Imaginez que vous avez un groupe d'élèves très actifs qui ont pris de mauvaises habitudes. Au lieu de les punir, vous leur faites faire une petite pause (un reset) pour qu'ils oublient leurs mauvaises habitudes et puissent réapprendre avec une nouvelle perspective.
De temps en temps, le système éteint les neurones trop actifs du juge et les réinitialise. Cela force le système à ne pas s'entêter sur une seule façon de noter, et à rester flexible.

Le Résultat : Un Peintre Plus Intelligent

En combinant ces deux idées (noter à chaque étape + réinitialiser les neurones trop actifs), les auteurs ont créé un algorithme appelé TDPO-R.

Les résultats montrent que :

C'est plus rapide : Le robot apprend mieux avec moins d'essais (meilleure efficacité).
C'est plus robuste : Même si on change le juge (le critère de beauté), le robot continue de faire de belles images sans tricher. Il ne se spécialise pas trop dans un seul style.
La qualité est meilleure : Les images générées sont plus fidèles à ce qu'on demande, avec plus de diversité et moins d'artefacts bizarres.

En Résumé

Ce papier nous dit : "Pour apprendre à une IA à créer de l'art, ne la notez pas seulement à la fin, et ne laissez pas ses 'cerveaux' s'endurcir sur les premières leçons. Donnez-lui des feedbacks réguliers et faites-lui faire des pauses pour qu'elle reste ouverte et créative."

C'est une avancée majeure pour rendre les générateurs d'images (comme Midjourney ou DALL-E) plus fiables et plus intelligents.

Each language version is independently generated for its own context, not a direct translation.

1. Le Problème : La Sur-optimisation de la Récompense

L'intégration des modèles de diffusion (notamment pour la génération d'images texte-à-image) dans des flux de travail pratiques nécessite de les aligner sur les préférences humaines. Bien que l'optimisation via des modèles de récompense appris (reward models) soit une stratégie prometteuse, elle souffre d'un problème fondamental : la sur-optimisation de la récompense (reward overoptimization).

Phénomène : Les modèles s'adaptent excessivement aux récompenses apprises (ou manuelles) au détriment de la qualité réelle de la génération (fidélité, diversité). Cela se manifeste par une dégradation de la fidélité de l'image ou une perte de capacité de généralisation à des récompenses hors domaine.
Limites actuelles : Les méthodes existantes (comme DDPO, AlignProp) se concentrent souvent sur l'optimisation de la récompense calculée uniquement sur l'image finale ( $x_0$ ), ignorant la nature séquentielle et temporelle du processus de débruitage. De plus, elles ne traitent pas explicitement les biais internes des réseaux de neurones qui favorisent ce phénomène.

2. Méthodologie : TDPO et TDPO-R

Les auteurs abordent ce problème sous deux angles : le biais inductif temporel et le biais de primauté. Ils proposent deux algorithmes : TDPO (Temporal Diffusion Policy Optimization) et sa version améliorée TDPO-R (avec réinitialisation des neurones actifs).

A. Exploitation du Biais Inductif Temporel (TDPO)

Les méthodes actuelles traitent le processus de diffusion comme un MDP (Processus de Décision Markovien) où la récompense n'est attribuée qu'à la fin. Les auteurs proposent de corriger ce décalage :

Récompenses Temporelles : Au lieu d'une récompense unique sur l'image finale, TDPO attribue une récompense à chaque étape intermédiaire de débruitage ( $x_t$ ).
Approximation par Critique Temporelle : Puisque les modèles de récompense standards ne fonctionnent pas sur des images bruitées, les auteurs entraînent un critique temporel ( $T_\phi$ ) pour estimer la récompense à chaque étape $t$ . Ce critique est entraîné pour prédire la différence (résidu) entre la récompense finale et la récompense estimée à l'étape intermédiaire.
Mise à jour par Pas de Temps : L'algorithme effectue des mises à jour de gradient à chaque pas de temps (per-timestep) plutôt que par lot (per-batch). Cela permet d'exploiter la granularité temporelle inhérente au processus de diffusion, améliorant ainsi l'efficacité de l'échantillonnage (sample efficiency) tout en stabilisant l'entraînement.

B. Lutte contre le Biais de Primauté (TDPO-R)

Le biais de primauté (primacy bias) désigne la tendance des agents d'apprentissage par renforcement à sur-adapter les expériences d'apprentissage précoces, conduisant à une perte de plasticité.

Observation Surprenante : Les auteurs analysent l'état des neurones dans le modèle critique. Contrairement à l'intuition selon laquelle les neurones dormants (inactive) nuisent à la capacité du modèle, ils découvrent que :
- Les neurones dormants agissent comme une régularisation adaptative contre la sur-optimisation.
- Les neurones actifs sont ceux qui reflètent le biais de primauté et contribuent à la sur-optimisation.
Stratégie de Réinitialisation : Pour contrer ce biais, TDPO-R implémente une stratégie de réinitialisation périodique des neurones actifs du modèle critique. Cela permet au modèle d'apprendre de nouveaux motifs de régularisation sans oublier les régularisations cruciales passées, évitant ainsi la sur-optimisation.

3. Contributions Clés

Analyse Causale : Première étude identifiant les causes profondes de la sur-optimisation dans l'alignement des modèles de diffusion sous l'angle des biais inductifs et de primauté.
Cadre TDPO : Conception d'un cadre d'alignement RL basé sur la granularité temporelle, alignant la structure de la récompense avec le processus de débruitage, ce qui améliore l'efficacité de l'échantillonnage.
Découverte sur les Neurones : Identification du rôle paradoxal des neurones dormants (régularisation bénéfique) vs actifs (source de biais de primauté) dans le contexte de la sur-optimisation.
Algorithme TDPO-R : Proposition d'un algorithme intégrant la réinitialisation périodique des neurones actifs pour atténuer la sur-optimisation.
Nouvelle Métrique : Introduction de la généralisation croisée de récompense (cross-reward generalization) comme métrique quantitative pour évaluer la sur-optimisation.

4. Résultats Expérimentaux

Les expériences ont été menées sur Stable Diffusion v1.4 avec diverses fonctions de récompense (Aesthetic Score, PickScore, HPSv2, ImageReward).

Efficacité de l'Échantillonnage (Sample Efficiency) : TDPO et TDPO-R surpassent systématiquement les méthodes de référence (DDPO, AlignProp) en termes de vitesse de convergence et de performance par requête de récompense, grâce aux mises à jour fréquentes par pas de temps.
Réduction de la Sur-optimisation :
- Sur les évaluations de généralisation croisée (entraînement sur une récompense, test sur une autre), TDPO-R maintient des performances élevées, tandis que les méthodes de base (DDPO, AlignProp) voient leurs performances chuter, signe de sur-optimisation.
- Les résultats qualitatifs montrent que les images générées par TDPO-R conservent une meilleure fidélité et une plus grande diversité (styles, arrière-plans) comparées aux méthodes qui produisent des images saturées ou déformées.
Impact de la Réinitialisation : Les ablations montrent que réinitialiser les neurones dormants aggrave la sur-optimisation, tandis que réinitialiser les neurones actifs (TDPO-R) l'atténue significativement.

5. Signification et Impact

Ce travail apporte une compréhension fondamentale des mécanismes internes (biais inductifs et états des neurones) qui régissent l'alignement des modèles de diffusion.

Avancée Théorique : Il remet en question les hypothèses existantes sur les neurones dormants dans le RL et propose une nouvelle approche pour gérer la plasticité des modèles.
Pratique : La méthode TDPO-R offre une solution robuste pour déployer des modèles de génération d'images alignés avec les préférences humaines sans sacrifier la qualité intrinsèque ou la diversité des générations.
Généralité : Les concepts de biais inductif temporel et de gestion des neurones actifs pourraient être appliqués à d'autres domaines de l'apprentissage par renforcement profond au-delà des modèles de diffusion.

En résumé, l'article propose une solution élégante et efficace qui combine une meilleure modélisation du processus temporel de diffusion avec une régulation fine de la plasticité neuronale pour résoudre le problème critique de la sur-optimisation.