Score-Guided Proximal Projection: A Unified Geometric Framework for Rectified Flow Editing

Each language version is independently generated for its own context, not a direct translation.

🎨 Le "Guide de Randonnée" pour l'Intelligence Artificielle

Imaginez que vous avez une Intelligence Artificielle (IA) très talentueuse, capable de dessiner des tableaux magnifiques à partir de rien. C'est comme un peintre génial qui connaît par cœur le "monde des images réalistes".

Mais parfois, vous voulez lui donner une consigne précise : "Prends cette photo de chat, mais transforme-le en lion, tout en gardant la même pose."

C'est là que ça coince. Les méthodes actuelles ont deux gros problèmes :

Elles sont trop rigides : Si vous leur demandez de changer le chat en lion, elles refusent de bouger la moindre moustache par peur de faire une erreur. Le résultat ressemble à un chat avec une crinière de lion collée dessus (c'est ce qu'ils appellent le "verrouillage géométrique").
Elles sont trop instables : Si vous essayez de les forcer à changer, elles paniquent, tremblent et finissent par produire de la bouillie incompréhensible.

🚀 La Solution : SGPP (Le Compas de Randonnée)

Les auteurs de ce papier, Vansh Bansal et James Scott, proposent une nouvelle méthode appelée SGPP (Projection Proximale Guidée par le Score).

Pour comprendre comment ça marche, imaginons que l'IA ne dessine pas sur une feuille blanche, mais qu'elle se promène dans un paysage imaginaire.

1. Le Paysage (La "Manifold")

Imaginez que toutes les images réalistes (les chats, les lions, les voitures) vivent sur une autoroute sinueuse qui traverse un immense désert.

Si vous êtes sur l'autoroute, tout est beau et réaliste.
Si vous sortez de l'autoroute pour aller dans le désert, vous tombez sur des images bizarres, floues ou illisibles (le "désordre").

Le problème des anciennes méthodes, c'est qu'elles essayaient de rester exactement sur la ligne de l'autoroute, même si cela les empêchait de tourner pour aller vers le lion. Ou alors, elles sautaient dans le désert et ne savaient plus comment revenir.

2. Le Problème du "Verrouillage Géométrique"

Les anciennes méthodes disaient : "Reste collé à la ligne de départ !"
Résultat : Si vous partez d'un chat et voulez un lion, l'IA reste collée à la forme du chat. Elle ne peut pas s'écarter assez pour dessiner la nouvelle crinière. C'est comme essayer de changer de voiture en restant assis sur le siège conducteur sans bouger les jambes.

3. La Magie de SGPP : Le "Tapis Élastique"

SGPP change la donne en introduisant un concept génial : la variance proximale (ou le "tapis élastique").

Au lieu de dire "Reste exactement sur la ligne", SGPP dit :

"Tu dois rester près de la ligne de l'autoroute, mais tu as le droit de t'éloigner un peu pour faire tes virages."

La Sécurité (Le Tapis) : L'IA sait qu'elle ne doit pas s'éloigner trop du chemin réaliste. Si elle commence à dériver vers le désert (vers une image bizarre), une force invisible (comme un élastique) la ramène doucement vers l'autoroute. C'est ce qu'ils appellent la "contraction normale". Cela garantit que l'image ne devient jamais une bouillie.
La Liberté (Le Virage) : Parce que l'élastique n'est pas une corde rigide, l'IA a de la marge pour dessiner les nouvelles formes (la crinière du lion) sans casser la structure du chat.

🎛️ Le Bouton de Réglage (Le "Soft Guidance")

La grande force de cette méthode, c'est qu'elle offre un bouton de contrôle (appelé $\sigma_p$ ) que vous pouvez tourner :

Bouton à fond (0) : C'est la méthode rigide d'avant. L'IA ne bouge pas, elle copie-colle l'image d'origine. Très fidèle, mais pas créative.
Bouton au milieu (0.2) : C'est le "Sweet Spot". L'IA garde la pose et le fond du chat, mais elle a assez de liberté pour transformer le visage en lion. C'est le compromis parfait.
Bouton très ouvert (0.5+) : L'IA devient très libre. Elle garde juste une vague idée de l'image de départ et invente des détails totalement nouveaux.

🏁 En Résumé

Ce papier nous dit que pour modifier une image avec une IA, il ne faut pas être un dictateur (trop rigide) ni un anarchiste (trop libre). Il faut être un guide de randonnée expérimenté.

L'ancienne méthode : "Marche exactement sur mes traces, sinon tu tombes !" (Résultat : rien ne change).
La nouvelle méthode (SGPP) : "Reste sur le sentier principal, mais n'aie pas peur de t'éloigner un peu pour contourner un rocher ou découvrir une nouvelle vue. Je te tiens par la main avec un élastique pour que tu ne te perdes jamais."

C'est une méthode qui fonctionne sans avoir besoin d'entraîner de nouveaux modèles (c'est "sans entraînement"), en utilisant simplement la géométrie intelligente de l'IA existante pour trouver le juste équilibre entre fidélité (garder l'original) et réalisme (créer quelque chose de nouveau).

Each language version is independently generated for its own context, not a direct translation.

1. Problématique

Les modèles de Flot Rectifié (Rectified Flow - RF) ont atteint des performances de pointe en génération d'images grâce à des trajectoires de transport plus directes et efficaces que les modèles de diffusion classiques. Cependant, leur contrôle pour des tâches inverses précises (comme l'édition sémantique ou la restauration d'images aveugle) reste un défi majeur.

Les approches actuelles se divisent en deux catégories, chacune présentant des limitations fondamentales :

Édition basée sur l'inversion (ex: RF-Inversion) : Ces méthodes imposent une "guidance dure" en forçant la trajectoire de génération à retracer rigidement le chemin d'inversion du bruit de l'image source. Cela entraîne un "verrouillage géométrique" (geometric locking) : le modèle ne peut pas s'écarter suffisamment du chemin original pour accommoder des changements sémantiques importants ou corriger des corruptions hors distribution (OOD), limitant ainsi la créativité et la correction d'erreurs majeures.
Échantillonnage postérieur et contraintes de variété (ex: DPS, MCG) : Des méthodes comme le Diffusion Posterior Sampling (DPS) tentent d'optimiser une vraisemblance conditionnelle. Bien que théoriquement solides, elles nécessitent la rétropropagation à travers le Jacobien du réseau de débruitage, ce qui est computationalement coûteux et instable, surtout à des niveaux de bruit élevés. Les méthodes de projection explicite (MCG) sont souvent fragiles en pratique.

Le cœur du problème réside dans le compromis fidélité-distorsion : comment préserver l'identité de l'entrée tout en assurant que la sortie reste réaliste (sur la variété de données apprise) ?

2. Méthodologie : SGPP

Les auteurs proposent SGPP (Score-Guided Proximal Projection), un cadre unifié qui comble le fossé entre l'optimisation déterministe et l'échantillonnage stochastique.

Formulation de l'objectif

SGPP reformule la tâche de récupération comme un problème d'optimisation proximale sur une variété dépendante du temps. Ils définissent un potentiel d'énergie dynamique $J_t(x_t)$ qui équilibre deux termes :

Potentiel de fidélité : $\frac{1}{2\sigma_p^2(t)} \|x_t - (1-t)x_{ref}\|^2$ . Ce terme ancre la trajectoire à l'image de référence $x_{ref}$ .
Potentiel génératif : $-\log p_t(x_t)$ . Ce terme est dérivé du champ de score pré-entraîné du Flot Rectifié, assurant le réalisme.

La mise à jour principale (règle de gradient) est donnée par :
$x_{k+1} = x_k + \eta_k \left( s_\psi(x_k, t_k) - \frac{x_k - (1-t_k)x_{ref}}{(1-t_k)^2\sigma_p^2 + t_k^2} \right)$
où $s_\psi$ est le score pré-entraîné et $\sigma_p$ est un paramètre de variance proximale.

Analyse Géométrique et Théorique

L'apport théorique majeur réside dans l'analyse de la géométrie du champ de score RF par rapport à la variété de données $M_t$ :

Décomposition du Score : Le score RF est décomposé en une force de restauration normale (qui contracte la distance vers la variété) et un drift tangentiel (qui suit la structure de la variété).
Contraction Normale (Proposition 3.3) : Les auteurs prouvent que le flot de gradient de SGPP possède une propriété de contraction normale. Cela garantit géométriquement que les entrées hors distribution sont "rattrapées" (snapped) sur la variété de données valide, éliminant l'instabilité observée dans DPS.
Équivalence MAP : Le point fixe de ce système dynamique correspond exactement à l'estimateur MAP (Maximum A Posteriori) contraint à la variété. Contrairement à MCG qui nécessite une projection explicite coûteuse, SGPP implémente cette contrainte implicitement via le champ de score lui-même.

De l'Optimisation à l'Échantillonnage

Pour éviter les résultats lissés (typiques de l'optimisation vers le mode) et récupérer la diversité et les textures haute fréquence, les auteurs proposent une version stochastique (SGPP-SDE) qui échantillonne la distribution postérieure complète plutôt que de converger vers un seul mode.

3. Contributions Clés

Cadre Unifié : SGPP unifie l'édition par inversion (RF-Inversion) et l'échantillonnage postérieur. Ils démontrent que RF-Inversion est un cas limite de SGPP où la variance proximale $\sigma_p \to 0$ (guidage dur).
Guidage "Soft" (Flexible) : En relaxant le paramètre $\sigma_p$ ( $\sigma_p > 0$ ), SGPP introduit un guidage doux. Cela permet à la trajectoire générative de s'écarter de manière flexible du chemin d'inversion rigide pour satisfaire des contraintes sémantiques tout en restant géométriquement sûr (sur la variété).
Stabilité Théorique : Preuve de la propriété de contraction normale, garantissant la stabilité sans besoin de calculs de Jacobien instables ou de projections explicites.
Méthode Zero-Shot et Sans Entraînement : SGPP ne nécessite ni réseaux auxiliaires, ni ajustement de prompts, ni inversion explicite. Il réutilise la fonction de score pré-entraînée comme un "oracle géométrique".

4. Résultats Expérimentaux

Les auteurs valident SGPP sur deux régimes :

Validation Géométrique (2D) : Sur une distribution "two-moons", SGPP démontre une convergence robuste. Contrairement à DPS (instable à haut bruit) et RF-Inversion (verrouillage géométrique total), SGPP projette efficacement les points hors distribution sur la variété tout en permettant une exploration stochastique correcte.
Édition Sémantique (Zero-Shot) : En utilisant le modèle FLUX pour transformer un chat en lion :
- RF-Inversion échoue à changer la structure globale (le chat reste un chat avec une texture de lion) à cause du verrouillage géométrique.
- SGPP avec guidage doux ( $\sigma_p = 0.2$ ) permet de générer les changements structurels nécessaires (crinière, museau) tout en préservant la pose et le fond de l'image source.
Compromis Fidélité-Réalisme : Le paramètre $\sigma_p$ agit comme un bouton de contrôle continu. Une valeur faible ( $\sigma_p \to 0$ ) donne une reconstruction stricte, tandis qu'une valeur plus élevée permet une liberté générative pour halluciner des détails réalistes absents de l'entrée.

5. Signification et Impact

Ce travail est significatif car il résout le dilemme fondamental de l'édition d'images génératives : la tension entre la préservation de l'identité (fidélité) et la capacité de modification sémantique (réalisme).

Théorique : Il fournit une justification géométrique rigoureuse pour les méthodes d'édition, reliant les flux de score à la géométrie des variétés et prouvant la stabilité des méthodes basées sur le score sans Jacobien.
Pratique : SGPP offre une solution robuste, efficace et facile à mettre en œuvre pour des tâches inverses complexes (restauration, édition) sans coût de calcul supplémentaire lié à la rétropropagation ou à l'entraînement de modèles supplémentaires. Il établit un nouveau standard pour le contrôle des modèles de Flot Rectifié en introduisant un mécanisme de "tolérance géométrique" via la variance proximale.