FOZO: Forward-Only Zeroth-Order Prompt Optimization for Test-Time Adaptation

Each language version is independently generated for its own context, not a direct translation.

FOZO: De Slimme Reisgids voor AI

Stel je voor dat je een zeer ervaren gids hebt die alle straten van Amsterdam uit zijn hoofd kent. Hij is getraind op kaarten van de stad, maar op een dag moet hij een groep toeristen leiden door een stad die er totaal anders uitziet: de straten zijn veranderd, er zijn nieuwe gebouwen, en het regent pijpenstelen. Dit is wat er gebeurt met een AI-model in de echte wereld. Het is getraind op "schone" data, maar in de echte wereld komen er steeds nieuwe, vreemde situaties (zoals wazige foto's, andere stijlen of onbekende objecten).

Deze situatie heet Test-Time Adaptation (TTA): het vermogen van een model om zich ter plekke aan te passen terwijl het aan het werk is.

Het Probleem: De Zware Rugzak

De meeste huidige methoden om AI aan te passen, werken als een student die voor een examen leert door alles uit zijn hoofd te herhalen en te corrigeren.

Hoe het nu werkt: De AI kijkt naar een fout, berekent precies waar hij het mis had (via een ingewikkeld proces genaamd backpropagation), en past zijn "hersenen" (de gewichten) aan.
Het nadeel: Dit is zwaar werk. Het vereist enorme rekenkracht en veel geheugen. Op een kleine telefoon of een goedkope chip (zoals in een slimme camera) is dit vaak onmogelijk. Het is alsof je een zware rugzak met boeken moet dragen terwijl je probeert te rennen.

Daarnaast zijn er methoden die geen zware rugzak dragen, maar die zijn vaak te traag of niet slim genoeg om de juiste kant op te gaan. Ze lopen vast in een labyrint.

De Oplossing: FOZO (De Slimme Snuffelaar)

De onderzoekers van dit paper hebben FOZO bedacht. Dit staat voor Forward-Only Zeroth-Order Optimization. Klinkt ingewikkeld, maar het is eigenlijk heel slim en simpel.

1. Geen Zware Rugzak (Forward-Only)
In plaats van de hele route terug te lopen om te zien waar de fout zat (backpropagation), doet FOZO iets anders. Het kijkt alleen vooruit.

De Analogie: Stel je voor dat je in het donker een berg op loopt. De oude methode is alsof je elke stap terugloopt om te checken of je niet op een steen hebt gestapt. FOZO is alsof je gewoon doorloopt, maar je voelt met je voeten of de grond zacht of hard is, en past je pas op die basis je stapgrootte aan. Je gebruikt alleen je "vooruitkijkende" vermogen. Dit bespaart enorm veel energie en geheugen.

2. Het Gokken met een Gids (Zeroth-Order)
Omdat FOZO geen gedetailleerde kaart heeft van de hellingen (geen gradiënten), moet het gokken.

De Analogie: Stel je voor dat je een blindeman bent die een nieuwe kamer verkent. Hij stoot met een stokje links en rechts (dit noemen ze perturbatie). Als het links harder klinkt dan rechts, weet hij: "Ah, daar is een muur, ik ga rechts."
FOZO doet precies dit: het probeert een klein beetje de instellingen te veranderen (een "prompt" toe te voegen), kijkt of het resultaat beter is, en past zich dan aan. Het is een slimme vorm van "proberen en fouten maken", maar dan heel snel.

3. De Dynamische Stok (Dynamische Perturbatie)
Dit is het magische deel van FOZO.

Het probleem: Als je in het begin te voorzichtig bent met je stokje, loop je misschien vast in een kleine kuil (een lokaal minimum). Als je te wild slaat, loop je tegen de muur.
De oplossing: FOZO heeft een dynamische stok.
- Aan het begin: Als de situatie onzeker is (nieuwe data), gebruikt hij een lange stok. Hij slaat flink om de kamer te verkennen en grote fouten te vinden.
- Later: Zodra hij begint te begrijpen waar hij is, wordt de stok korter. Hij maakt nu heel kleine, precieze aanpassingen om perfect te lopen.
- Dit zorgt ervoor dat FOZO snel leert, maar ook heel nauwkeurig wordt.

4. De Twee Oren (Verliesfunctie)
FOZO luistert naar twee dingen om te weten of hij goed doet:

De Voorspelling: Is het antwoord zeker? (Als de AI twijfelt, moet hij leren).
De Statistieken: Klinkt de "stem" van de AI nog steeds als die van de oorspronkelijke training? FOZO vergelijkt de diepe en ondiepe lagen van het model om te zorgen dat het niet "vergeet" wat het al wist, terwijl het leert.

Waarom is dit geweldig?

De onderzoekers hebben FOZO getest op moeilijke taken (zoals het herkennen van auto's in sneeuw of mist).

Resultaat: FOZO is sneller dan de beste bestaande methoden.
Efficiëntie: Het verbruikt veel minder energie en geheugen. Het werkt zelfs goed op modellen die al "geknijpt" zijn (gequantiseerd), wat betekent dat het perfect is voor kleine apparaten zoals smartphones of drones.
Conclusie: FOZO is als een slimme, energieke gids die zonder zware rugzak door elke nieuwe stad kan lopen, snel de weg vindt, en de toeristen veilig en snel naar hun bestemming brengt.

Kort samengevat: FOZO laat AI leren terwijl het werkt, zonder zware computers nodig te hebben, door slim te "gokken" en zich continu aan te passen aan de veranderende wereld.

Each language version is independently generated for its own context, not a direct translation.

Probleemstelling

Deep learning-modellen presteren vaak slecht in de echte wereld door verschuivingen in de data-distributie tussen het trainings- en testmoment (distribution shifts). Test-Time Adaptation (TTA) is een paradigma om pre-trained modellen dynamisch aan te passen aan ongelabelde testdata om de generalisatie te verbeteren.

Bestaande TTA-methoden hebben echter twee grote beperkingen:

Backpropagation-gebaseerde methoden (zoals TENT, EATA): Deze vereisen hoge rekenkracht en geheugenomvang om gradients te berekenen en modelgewichten bij te werken. Dit maakt ze ongeschikt voor apparaten met beperkte resources (zoals edge devices) of voor scenario's waar modelgewichten vastgezet zijn (bijv. gequantiseerde modellen of black-box modellen).
Backpropagation-vrije methoden: Traditionele aanpakken zonder backpropagation (zoals het aanpassen van normalisatielagen of output-statistieken) hebben vaak beperkte aanpassingscapaciteiten. Nieuwere methoden die prompts gebruiken (zoals FOA), maken gebruik van evolutionaire algoritmen (CMA-ES) die inefficiënt zijn bij hoge dimensies, wat leidt tot trage convergentie en suboptimale prestaties.

Er is dus een dringende behoefte aan een TTA-methode die geen backpropagation vereist, geheugenefficiënt is, snel convergeert en werkt op gequantiseerde modellen.

Methodologie: FOZO

De auteurs stellen FOZO (Forward-Only Zeroth-Order Optimization) voor, een nieuw paradigma voor TTA dat uitsluitend gebruikmaakt van de forward pass (voorwaartse propagatie) en zeroth-order optimalisatie.

1. Zeroth-Order Prompt Optimalisatie

In plaats van modelgewichten aan te passen, optimaliseert FOZO een set van leerbare visuele prompts die aan de input van een Vision Transformer (ViT) worden toegevoegd.

Gradiëntschatting: Omdat er geen backpropagation is, worden gradients geschat via SPSA (Simultaneous Perturbation Stochastic Approximation).
Mechanisme: Voor elke testbatch worden de prompts licht verstoord in een positieve ( $P + \epsilon Z$ ) en negatieve ( $P - \epsilon Z$ ) richting. Door het verschil in verlies (loss) tussen deze twee forward passes te meten, wordt een schatting van de gradient verkregen zonder de interne gradients van het model te hoeven berekenen.
Efficiëntie: Dit vereist slechts een paar forward passes en minimaliseert het geheugengebruik, omdat er geen gradients voor het volledige model hoeven worden opgeslagen.

2. Dynamische Perturbatie Strategie

Een uitdaging bij zeroth-order optimalisatie op OOD-data (Out-of-Distribution) is dat gradiëntschattingen onbetrouwbaar kunnen zijn door ruis.

FOZO introduceert een dynamisch vervallend perturbatie-schema ( $\epsilon_t$ ).
Principe: In de vroege stadia van adaptatie of bij grote distributiesverschuivingen wordt een grotere perturbatie gebruikt om de zoekruimte te verkennen (exploratie) en lokale minima te ontvluchten. Naarmate de optimalisatie stabiliseert, neemt $\epsilon_t$ af om nauwkeurige convergentie te garanderen.
Reset: Als de loss plotseling stijgt (indicatie van een nieuwe domeinverschuiving), wordt $\epsilon_t$ opnieuw ingesteld op de initiële waarde om de adaptatie te versnellen.

3. Unsupervised Loss Functie

Omdat testdata ongelabeld is, combineert FOZO twee objectieven:

Entropy Minimization: Het minimaliseren van de voorspelling-entropy om zelfverzekerde voorspellingen te stimuleren.
Deep-Shallow Feature Alignment: Het aligneren van de statistieken (gemiddelde en variantie) van de [CLS]-token activaties in zowel de vroege (shallow) als late (deep) lagen van het model met de bron-domein statistieken. Dit zorgt voor robuustere feature-representaties.

4. Theoretische Convergentie

De auteurs bewijzen theoretisch dat FOZO convergeert onder de aanname van een lokale $r$ -effectieve rang (local $r$ -effective rank). Dit betekent dat de convergentiesnelheid afhankelijk is van de effectieve rang van de Hessiaan ( $r$ ) en niet van de totale parameterdimensie ( $d$ ), wat de methode zeer efficiënt maakt voor grote modellen.

Belangrijkste Bijdragen

Nieuw Paradigma: Introductie van FOZO, een forward-only TTA-methode die zeroth-order optimalisatie toepast op leerbare prompts, waardoor backpropagation volledig wordt vermeden.
Dynamische Perturbatie: Een strategie om de optimalisatie te stabiliseren en te versnellen in dynamische datastromen, met een theoretisch onderbouwd bewijs van convergentie.
Efficiëntie en Generalisatie: De methode werkt uiterst efficiënt op gequantiseerde modellen (INT8) en vereist minder geheugen en rekenkracht dan bestaande methoden.
Uitgebreide Validatie: Uitgebreide experimenten op diverse benchmarks (ImageNet-C, ImageNet-R, ImageNet-Sketch) en in continue adaptie-scenario's.

Resultaten

FOZO werd getest op de ImageNet-C dataset (met 5 korruptie-niveaus) en vergeleken met state-of-the-art (SOTA) methoden.

Prestaties: FOZO bereikte 59,52% Top-1 nauwkeurigheid op ImageNet-C (level 5) met slechts 2 forward passes. Dit is een verbetering ten opzichte van de vorige SOTA forward-only methode FOA (58,13%) en ZOA (58,56%).
Convergentie: FOZO convergeert sneller dan FOA en ZOA. Het bereikt een nauwkeurigheid van 65% in slechts 66% van de tijd die FOA en ZOA nodig hebben.
Resource Usage:
- Geheugen: FOZO gebruikt aanzienlijk minder GPU-geheugen (831 MiB) vergeleken met backpropagation-methoden (bijv. TENT gebruikt 5495 MiB).
- Parameters: Er worden slechts 2304 parameters bijgewerkt (de prompts), wat veel minder is dan bij methoden die normalisatielagen aanpassen.
Gequantiseerde Modellen: FOZO presteert uitstekend op 8-bit gequantiseerde ViT-modellen, waar backpropagation-methoden vaak falen of niet kunnen worden toegepast.
Continue Adaptie: In scenario's waar domeinen continu wisselen zonder herinitialisatie, behoudt FOZO zijn superioriteit, wat aantoont dat het robuust is tegen plotselinge distributiesverschuivingen.

Significantie

FOZO biedt een praktische en schaalbare oplossing voor Test-Time Adaptation in real-world scenario's.

Edge Computing: Door het ontbreken van backpropagation en het lage geheugengebruik is het ideaal voor implementatie op apparaten met beperkte rekenkracht (zoals drones, mobiele telefoons en IoT-apparaten).
Black-box en Gequantiseerde Modellen: Het maakt adaptatie mogelijk op modellen waarvan de interne gradients niet toegankelijk zijn of die al geoptimaliseerd zijn voor inferentie (quantized).
Toekomstperspectief: De combinatie van zeroth-order optimalisatie met dynamische perturbatie opent nieuwe wegen voor efficiënt en robuust online leren in veranderende omgevingen, zonder de noodzaak van zware hardware-upgrades.

Kortom, FOZO lost het fundamentele compromis op tussen adaptatiekwaliteit en implementatie-efficiëntie, waardoor het een sterke kandidaat is voor de volgende generatie robuuste AI-systemen.