FOZO: Forward-Only Zeroth-Order Prompt Optimization for Test-Time Adaptation

Each language version is independently generated for its own context, not a direct translation.

Imagine que você tem um carro de corrida muito sofisticado (um modelo de Inteligência Artificial) que foi treinado em uma pista de testes perfeita, com asfalto novo e tempo ensolarado. Ele é o melhor do mundo nessa condição.

Mas, de repente, você precisa dirigir esse mesmo carro em uma estrada de terra cheia de buracos, com chuva forte e neblina (o mundo real, onde os dados mudam). O carro começa a patinar e a perder a direção.

Aqui entra o problema que o artigo FOZO tenta resolver: como fazer esse carro se adaptar à nova estrada sem precisar de uma oficina gigante, sem desmontar o motor inteiro e sem gastar horas de tempo?

O Problema: As Soluções Antigas

Até agora, havia duas formas principais de tentar consertar o carro na hora:

O Mecânico Pesado (Métodos com "Backpropagation"): Eles tentam desmontar o motor, trocar peças e recalibrar tudo. Funciona bem, mas exige muita força, muito tempo e uma oficina enorme (muita memória e poder de computação). Em celulares ou dispositivos pequenos, isso é impossível. Além disso, eles podem "esquecer" como dirigir na pista original.
O Ajuste Rápido (Métodos sem Gradiente): Eles apenas apertam alguns parafusos ou mudam o espelho retrovisor. É rápido e leve, mas muitas vezes não é suficiente para lidar com buracos profundos na estrada. O carro continua patinando.

A Solução: FOZO (O "GPS de Ajuste Fino")

Os autores propõem o FOZO (Forward-Only Zeroth-Order Optimization). Pense nele como um GPS inteligente que ajusta a direção do volante em tempo real, sem precisar mexer no motor.

Aqui está como ele funciona, usando analogias simples:

1. O "Sopro" de Teste (Otimização de Ordem Zero)

Imagine que você está dirigindo no escuro e quer saber se deve virar para a esquerda ou para a direita para evitar um buraco.

O método antigo (CMA-ES/FOA): Tentava adivinhar o melhor caminho jogando muitas moedas e analisando padrões complexos. Era lento e muitas vezes errava o caminho.
O método FOZO: Ele faz algo muito simples. Ele "sopra" levemente o volante para a esquerda e vê o que acontece. Depois, "sopra" levemente para a direita e vê.
- Se virar para a esquerda o carro fica mais estável, ele mantém a direção.
- Se virar para a direita for melhor, ele ajusta.
- A mágica: Ele faz isso sem precisar "olhar para trás" (sem backpropagation), apenas observando o resultado imediato. É como sentir o chão com os pés em vez de desenhar um mapa complexo.

2. O "Volume Dinâmico" (Perturbação Dinâmica)

Aqui está o segredo do FOZO.

No começo, quando você entra na estrada de terra, você não sabe onde estão os buracos. Então, o FOZO faz sopros grandes (muda a direção bastante) para explorar o terreno e encontrar o caminho seguro rapidamente.
Conforme o carro começa a andar melhor e a estrada fica mais previsível, o FOZO diminui os sopros para ajustes bem finos e precisos.
Analogia: É como afinar um violão. No início, você gira a chave com força para chegar perto da nota certa. Quando está quase lá, você gira milimetricamente para não desafinar. O FOZO faz isso automaticamente: "explora" muito no início e "explora" pouco no final para garantir precisão.

3. O "Espelho Duplo" (Função de Perda)

Para saber se o carro está indo bem, o FOZO usa dois espelhos:

O Espelho da Confiança: Ele verifica se o carro está "confiante" na direção que está tomando (minimizando a entropia). Se o carro estiver indeciso, ele ajusta.
O Espelho da Memória: Ele compara como o carro está se comportando agora com como ele se comportava na pista original. Ele tenta alinhar as "vibrações" do carro (estatísticas das camadas profundas e superficiais) para que ele não se sinta estranho na nova estrada.

Por que isso é revolucionário?

O FOZO é como um piloto de rally que não precisa de mecânicos.

Leve: Ele roda em dispositivos fracos (como celulares ou chips de baixo custo) porque não precisa de memória pesada.
Rápido: Ele se adapta mais rápido que os métodos antigos que só usam "sopros" (como o FOA).
Robusto: Funciona até mesmo se o carro estiver "envelhecido" ou com peças de plástico (modelos quantizados, usados para economizar energia).

O Resultado

Nos testes, o FOZO conseguiu dirigir o carro de corrida na estrada de terra com muito mais precisão do que os concorrentes, usando menos tempo e menos recursos. Ele provou que, às vezes, para se adaptar ao mundo real, você não precisa de um motor de foguete (backpropagation); você só precisa de um bom senso de direção e ajustes inteligentes em tempo real.

Resumo em uma frase: O FOZO é um método inteligente que ajusta a IA na hora da execução, sentindo o terreno com toques leves e dinâmicos, sem precisar de computadores gigantes para fazer o trabalho.

Each language version is independently generated for its own context, not a direct translation.

Resumo Técnico: FOZO

1. O Problema

A Adaptação em Tempo de Teste (TTA - Test-Time Adaptation) é crucial para permitir que modelos de aprendizado profundo lidem com deslocamentos na distribuição de dados (distribution shifts) encontrados em cenários do mundo real. No entanto, as abordagens atuais enfrentam limitações significativas:

Métodos Baseados em Backpropagation: Técnicas como TENT e EATA exigem retropropagação (backpropagation), o que demanda alto poder computacional e memória, tornando-os inviáveis para dispositivos de ponta (edge devices) com recursos limitados ou modelos quantizados onde os pesos são fixos.
Métodos sem Backpropagation (Forward-Only): Abordagens existentes, como FOA (Forward-Only Adaptation) e ZOA, tentam contornar a retropropagação, mas apresentam deficiências:
- O FOA utiliza o algoritmo CMA-ES para otimizar prompts de entrada. Devido à alta dimensionalidade dos prompts, o CMA-ES sofre de convergência lenta e estimativas de atualização imprecisas.
- O ZOA otimiza parâmetros de camadas de normalização, o que pode não ser aplicável em cenários onde os componentes internos do modelo são imutáveis (caixa-preta).
Desafio de Otimização: A otimização de prompts em fluxos de dados fora da distribuição (OOD) é instável, pois as estimativas de gradiente tornam-se pouco confiáveis devido ao ruído e às mudanças bruscas de domínio.

2. Metodologia: FOZO

Os autores propõem o FOZO (Forward-Only Zeroth-Order Optimization), um paradigma novo e prático para TTA que não requer retropropagação. A metodologia baseia-se em três pilares principais:

A. Otimização de Prompt de Ordem Zero (Zeroth-Order)
Em vez de calcular gradientes exatos via backpropagation, o FOZO estima o gradiente dos prompts aprendíveis usando Estimativa de Gradiente de Ordem Zero baseada no método SPSA (Simultaneous Perturbation Stochastic Approximation).

Para cada lote de dados de teste, o modelo realiza duas passagens para frente (forward passes): uma com o prompt perturbado positivamente ( $P + \epsilon Z$ ) e outra negativamente ( $P - \epsilon Z$ ).
O gradiente é estimado comparando as perdas dessas duas passagens, eliminando a necessidade de armazenar o grafo de computação para a retropropagação.

B. Esquema de Perturbação Dinâmica
Para resolver o problema de estimativas de gradiente imprecisas em fluxos de dados OOD, o FOZO introduz uma estratégia de perturbação dinâmica para o parâmetro de escala de perturbação ( $\epsilon_t$ ).

Exploração vs. Exploração: Inicialmente, ou quando detecta mudanças bruscas de domínio (aumento na perda), o $\epsilon_t$ é mantido alto para permitir a exploração e escapar de mínimos locais.
Decaimento: À medida que a otimização se estabiliza, $\epsilon_t$ decai dinamicamente para garantir uma convergência precisa.
Reinício: Se a perda flutuar significativamente (indicando um novo domínio), $\epsilon_t$ é reiniciado para o valor inicial.

C. Função de Perda Não Supervisionada
Como os dados de teste não possuem rótulos, o FOZO otimiza uma função de perda composta por dois termos:

Minimização de Entropia: Encoraja previsões confiantes no domínio alvo.
Alinhamento de Estatísticas de Recursos (Deep-Shallow Aligning): Alinha as estatísticas (média e variância) dos tokens [CLS] das camadas rasas e profundas do modelo com as estatísticas pré-computadas do domínio de origem. Isso garante que a representação interna do modelo permaneça consistente com o treinamento original.

3. Contribuições Principais

Novo Paradigma de TTA: Introdução do FOZO, um método de adaptação apenas com passagem para frente (forward-only) baseado em otimização de ordem zero, que evita a atualização de pesos do modelo principal, focando apenas em prompts de entrada.
Estratégia de Perturbação Dinâmica: Proposição de um esquema adaptativo para o tamanho da perturbação, que equilibra a exploração inicial e a convergência estável, provado teoricamente para garantir convergência sob o pressuposto de fluxo de dados TTA.
Análise Teórica de Convergência: Prova formal de que o método converge, demonstrando que a taxa de convergência depende do rank efetivo local ( $r$ ) da função de perda e não da dimensionalidade total dos parâmetros ( $d$ ), superando as limitações teóricas de métodos de ordem zero clássicos.
Validação em Cenários Reais: Demonstração robusta da eficácia do método em modelos quantizados (INT8) e em cenários de adaptação contínua, onde as fronteiras de domínio são desconhecidas.

4. Resultados Experimentais

Os experimentos foram conduzidos em benchmarks padrão: ImageNet-C (corrupções), ImageNet-R (estilos artísticos) e ImageNet-Sketch (desenhos).

Desempenho em Modelos de Precisão Completa:
- No ImageNet-C (nível 5, 5k imagens), o FOZO alcançou 59,52% de acurácia Top-1.
- Superou o estado da arte em métodos forward-only: FOA (58,13%) e ZOA (58,56%).
- Convergência mais rápida: O FOZO atingiu 65% de acurácia usando apenas 66% do tempo de execução necessário para o FOA e ZOA.
Eficiência Computacional:
- O FOZO consome significativamente menos memória de GPU (apenas ~831 MiB) em comparação com métodos baseados em backpropagation (que consomem >5000 MiB).
- Atualiza apenas 2.304 parâmetros (os prompts), enquanto métodos como ZOA atualizam mais de 26.000 parâmetros.
Modelos Quantizados (INT8):
- Em modelos ViT quantizados (8-bit), onde a retropropagação é inviável, o FOZO alcançou 58,00% de acurácia média, superando o FOA (57,07%) e ZOA (56,91%).
Adaptação Contínua e Mista:
- O método demonstrou robustez superior em cenários de mudança de domínio contínua e em cenários de "mudanças mistas" (dados de múltiplos domínios intercalados aleatoriamente), mantendo alta estabilidade.

5. Significado e Impacto

O FOZO representa um avanço significativo para a implantação de IA em dispositivos com recursos limitados (edge computing, IoT, dispositivos móveis).

Viabilidade de Implantação: Ao eliminar a necessidade de backpropagation e reduzir drasticamente o uso de memória e parâmetros atualizáveis, o FOZO torna a adaptação em tempo real viável em hardware que anteriormente não suportava TTA.
Robustez em Caixas-Pretas: A capacidade de adaptar modelos sem modificar seus pesos internos ou acessar gradientes internos torna o método aplicável a modelos proprietários ou quantizados.
Eficiência Teórica e Prática: A combinação de uma prova teórica de convergência baseada em rank efetivo com uma estratégia de perturbação dinâmica oferece uma solução que é tanto matematicamente fundamentada quanto empiricamente superior às abordagens atuais.

Em resumo, o FOZO estabelece um novo padrão para adaptação em tempo de teste eficiente, equilibrando alta precisão, baixo custo computacional e robustez em cenários dinâmicos e restritos.