FOZO: Forward-Only Zeroth-Order Prompt Optimization for Test-Time Adaptation

Each language version is independently generated for its own context, not a direct translation.

Imagine que vous avez un expert en reconnaissance d'images, un "chef cuisinier" numérique nommé ViT (Vision Transformer), qui a passé des années à apprendre à cuisiner avec des ingrédients parfaits et frais (les données d'entraînement).

Maintenant, imaginez que ce chef doit travailler dans un restaurant très spécial où les ingrédients arrivent en continu, mais ils sont souvent abîmés, sales ou de marques inconnues (c'est ce qu'on appelle le décalage de distribution ou distribution shift). Le problème ? Le chef ne peut pas aller dans sa cuisine pour réapprendre à cuisiner de zéro (il n'a pas le temps ni l'énergie pour faire une "rétropropagation", c'est-à-dire un gros travail de réajustement interne). Il doit s'adapter en temps réel, juste en regardant les nouveaux plats qui arrivent.

C'est là qu'intervient le papier que vous avez soumis, qui propose une méthode appelée FOZO. Voici comment cela fonctionne, expliqué simplement avec des analogies :

1. Le Problème : Trop de bruit, pas de temps

Les méthodes actuelles pour aider le chef à s'adapter ont deux gros défauts :

Les méthodes classiques (avec rétropropagation) : Elles demandent au chef de tout démonter, de réécrire ses recettes internes et de recalculer chaque ingrédient. C'est trop lent, ça consomme trop d'énergie (mémoire) et ça ne marche pas sur les petits appareils (comme un téléphone ou un drone).
Les anciennes méthodes "sans rétropropagation" : Elles essaient d'ajuster le chef sans le démonter, mais elles sont souvent lentes et inefficaces, comme essayer de trouver le bon assaisonnement en goûtant au hasard pendant des heures.

2. La Solution FOZO : Le "Guide de Cuisine" Magique

FOZO propose une approche nouvelle et intelligente : l'Optimisation d'Ordre Zéro en Avant-Seulement.

Au lieu de changer les recettes du chef (les poids du modèle), FOZO lui donne un petit guide de cuisine (appelé "Prompt") qu'il peut modifier à la volée.

L'analogie du guide : Imaginez que le chef a un carnet de notes. FOZO ne touche pas à la cuisine elle-même, il écrit juste des petites notes sur le carnet ("Aujourd'hui, c'est un peu brumeux, mets un peu plus de sel").
L'astuce "Ordre Zéro" : Comment savoir si la note est bonne ? FOZO utilise une technique de "tâtonnement intelligent". Il dit au chef : "Essayons de cuisiner avec un peu plus de sel, puis avec un peu moins, et voyons ce qui donne le meilleur résultat." Il ne regarde que le résultat final (le plat), sans avoir besoin de savoir pourquoi chimiquement ça a marché. C'est comme ajuster le volume d'une radio en écoutant juste le son, sans ouvrir la radio pour toucher aux fils.

3. Le Secret de FOZO : Le "Rythme de Danse" Dynamique

Le vrai génie de FOZO, c'est sa capacité à gérer le chaos. Les ingrédients arrivent de manière imprévisible (parfois très sales, parfois juste un peu poussiéreux).

Le problème du bruit : Si vous essayez d'ajuster votre assaisonnement quand il y a trop de bruit (ingrédients très abîmés), vous risquez de vous tromper et de gâcher le plat.
La solution de FOZO (Perturbation Dynamique) : FOZO agit comme un danseur expérimenté.
- Au début (ou quand c'est très chaotique) : Il fait de grands pas (grande perturbation). Il ose essayer des choses radicales pour sortir de la mauvaise zone et trouver une nouvelle direction. C'est comme quand on tourne en rond dans une forêt : on fait de grands pas pour sortir du buisson.
- Quand ça se stabilise : Il commence à faire des petits pas (perturbation qui diminue). Il affine son assaisonnement avec précision pour obtenir le plat parfait.
- Le retour en arrière : Si le chef sent que le plat devient mauvais (le bruit augmente), FOZO reprend immédiatement de grands pas pour se réorienter.

4. Pourquoi c'est génial ?

Économie d'énergie : Comme FOZO ne touche pas aux recettes internes du chef, il consomme très peu de mémoire et d'énergie. C'est parfait pour les petits appareils (drones, téléphones, voitures autonomes).
Rapidité : Il s'adapte beaucoup plus vite que les autres méthodes "sans rétropropagation". Dans les tests, il a atteint un niveau de précision supérieur en moins de temps.
Robustesse : Même si le chef travaille sur des appareils où les ingrédients sont "compressés" (modèles quantifiés, comme des images en basse qualité), FOZO continue de bien fonctionner.

En résumé

FOZO, c'est comme donner à un expert un compas intelligent et dynamique plutôt que de lui demander de redessiner toute sa carte.

Il ne change pas le cœur du système (les poids du modèle).
Il ajuste seulement le "point de départ" (le prompt) en testant intelligemment.
Il sait quand être audacieux (grands pas) et quand être précis (petits pas) pour naviguer dans un monde changeant et imprévisible.

C'est une solution idéale pour faire fonctionner l'intelligence artificielle dans le monde réel, là où les conditions changent tout le temps et où l'énergie est limitée.

Each language version is independently generated for its own context, not a direct translation.

1. Problématique : L'Adaptation au Moment du Test (TTA)

L'adaptation au moment du test (Test-Time Adaptation - TTA) vise à ajuster dynamiquement des modèles pré-entraînés face à des décalages de distribution de données (distribution shifts) rencontrés lors du déploiement réel, sans accès aux étiquettes des données de test.

Les approches actuelles souffrent de limitations majeures :

Méthodes basées sur la rétropropagation (Backpropagation) : Bien qu'efficaces (ex: TENT, EATA), elles nécessitent un calcul de gradient coûteux en mémoire et en puissance de calcul, les rendant inadaptées aux dispositifs embarqués à ressources limitées ou aux modèles quantisés (boîte noire).
Méthodes sans rétropropagation (Forward-Only) : Des méthodes récentes comme FOA (Forward-Only Adaptation) ou ZOA tentent de contourner ce problème. Cependant, FOA utilise des algorithmes évolutionnaires (CMA-ES) qui convergent lentement sur des espaces de haute dimension, tandis que ZOA modifie directement les paramètres internes du modèle, ce qui est impossible si les poids sont figés ou quantisés.

Le défi principal : Développer une méthode de TTA qui soit à la fois efficace en mémoire (pas de rétropropagation), rapide à converger, et capable de s'adapter à des flux de données hors distribution (OOD) instables.

2. Méthodologie : FOZO (Forward-Only Zeroth-Order Optimization)

Les auteurs proposent FOZO, un paradigme novateur qui combine l'optimisation de prompts (invites) visuels avec une estimation de gradient d'ordre zéro, ne nécessitant que des passes avant (forward passes).

A. Optimisation de Prompts par Ordre Zéro

Au lieu de mettre à jour les poids du modèle, FOZO optimise un ensemble de prompts appris (vecteurs d'entrée) injectés dans le premier étage d'un Vision Transformer (ViT).

Estimation de Gradient (SPSA) : Pour éviter la rétropropagation, FOZO utilise l'estimateur de gradient stochastique par perturbation simultanée (Simultaneous Perturbation Stochastic Approximation - SPSA).
Mécanisme : Pour un lot de données de test, le modèle effectue deux passes avant : une avec le prompt perturbé positivement ( $P + \epsilon Z$ ) et une avec le prompt perturbé négativement ( $P - \epsilon Z$ ), où $Z$ est un bruit gaussien. La différence des pertes permet d'estimer la direction du gradient.
Avantage : Cela élimine le besoin de stocker les activations pour la rétropropagation, réduisant drastiquement l'empreinte mémoire.

B. Fonction de Perte Unsupervisée

Pour guider l'optimisation sans étiquettes, FOZO minimise une fonction de perte composite :

Alignement des Statistiques de Caractéristiques (Deep-Shallow Alignment) : Le modèle aligne les statistiques (moyenne et variance) des activations du token [CLS] des couches profondes et peu profondes du modèle de test avec celles du domaine source pré-calculées. Cela assure que la représentation interne reste cohérente malgré le changement de domaine.
Minimisation de l'Entropie : Encourage le modèle à faire des prédictions confiantes sur les données de test.

C. Schéma de Perturbation Dynamique

Un défi majeur de l'optimisation d'ordre zéro sur des flux de données OOD est l'instabilité des estimations de gradient. FOZO introduit une stratégie de perturbation dynamique pour le paramètre d'échelle $\epsilon_t$ :

Exploration vs Exploitation : Au début de l'adaptation ou lors d'un changement de domaine détecté (fluctuation de perte), $\epsilon_t$ est grand pour permettre une exploration large et éviter les minima locaux.
Décroissance : À mesure que l'optimisation se stabilise, $\epsilon_t$ décroît dynamiquement pour assurer une convergence précise vers un optimum.
Preuve de Convergence : Les auteurs prouvent théoriquement que cette méthode converge sous l'hypothèse d'un rang effectif local faible ( $r$ -effective rank) de la matrice hessienne, montrant que la complexité de convergence dépend de $r$ et non de la dimension totale des paramètres $d$ .

3. Contributions Clés

Nouveau Paradigme FOZO : Introduction d'une méthode d'adaptation TTA "Forward-Only" basée sur l'optimisation de prompts par ordre zéro, évitant toute mise à jour des poids du modèle et toute rétropropagation.
Stratégie de Perturbation Dynamique : Proposition d'un mécanisme adaptatif pour l'échelle de perturbation, résolvant le compromis exploration/exploitation dans des flux de données non stationnaires, avec une preuve théorique de convergence.
Efficacité et Généralisation : Démonstration que FOZO fonctionne efficacement sur des modèles quantifiés (INT8) et dans des scénarios d'adaptation continue, là où les méthodes basées sur le gradient échouent ou sont trop coûteuses.
Performance SOTA : FOZO surpasse les méthodes existantes (FOA, ZOA) et rivalise avec des méthodes basées sur la rétropropagation tout en étant beaucoup plus légère.

4. Résultats Expérimentaux

Les expériences ont été menées sur ImageNet-C (corruptions), ImageNet-R (style artistique) et ImageNet-Sketch (croquis), avec un modèle ViT-Base.

Performance sur ImageNet-C (Niveau 5) :
- FOZO atteint 59,52% de précision Top-1 avec seulement 2 passes avant, surpassant FOA (58,13%) et ZOA (58,56%).
- Dans une configuration équitable (28 passes avant), FOZO atteint 62,67%, dépassant toutes les méthodes "Forward-Only" et se rapprochant des méthodes basées sur la rétropropagation (comme EATA à 61,35% ou DeYO à 60,76%), tout en utilisant beaucoup moins de mémoire.
Efficacité Mémoire et Temps :
- FOZO consomme significativement moins de mémoire GPU (environ 831 MiB) que les méthodes basées sur la rétropropagation (souvent > 5000 MiB).
- Il converge plus rapidement que FOA et ZOA, atteignant 65% de précision en 66% du temps nécessaire aux autres méthodes.
Modèles Quantifiés (INT8) :
- Sur des modèles quantifiés (PTQ4ViT), FOZO obtient 58,00% de précision, surpassant nettement FOA (57,07%) et ZOA (56,91%), prouvant sa capacité à fonctionner sur du matériel contraint.
Adaptation Continue et Mixte :
- FOZO maintient sa supériorité dans des scénarios d'adaptation continue (changement de domaine sans réinitialisation) et dans des scénarios de "mixed shifts" (flux de données mélangés aléatoirement).

5. Signification et Impact

L'article FOZO représente une avancée significative pour le déploiement de l'IA dans des environnements réels et contraints :

Déploiement Embarqué : En éliminant la rétropropagation et en réduisant l'empreinte mémoire, FOZO rend l'adaptation en temps réel possible sur des dispositifs edge (FPGA, mobiles) où la mémoire et la puissance de calcul sont limitées.
Robustesse aux Modèles Quantifiés : La capacité de FOZO à fonctionner sur des modèles quantifiés (INT8) est cruciale pour l'efficacité énergétique et la vitesse d'inférence sur le matériel moderne.
Théorie et Pratique : La combinaison d'une preuve de convergence théorique solide (basée sur le rang effectif) et de résultats empiriques supérieurs valide l'approche d'optimisation d'ordre zéro comme une alternative viable et compétitive aux méthodes de gradient traditionnelles pour la TTA.

En résumé, FOZO propose une solution efficace, légère et robuste pour adapter les modèles de vision par ordinateur aux changements de distribution en temps réel, comblant le fossé entre les performances théoriques et les contraintes pratiques du déploiement industriel.