TTP: Test-Time Padding for Adversarial Detection and Robust Adaptation on Vision-Language Models

Each language version is independently generated for its own context, not a direct translation.

Imagine que você tem um super-herói da visão chamado CLIP. Ele foi treinado lendo milhões de livros e vendo milhões de fotos. Ele é incrível: se você mostrar uma foto de um gato e perguntar "o que é isso?", ele acerta quase 100% das vezes, mesmo que nunca tenha visto aquele gato específico antes.

Mas, como todo super-herói, ele tem uma fraqueza secreta: o "truque do ilusionista".

O Problema: O Truque do Ilusionista (Ataques Adversariais)

Imagine que um vilão pega uma foto de um cachorro e, com um lápis mágico, faz pequenas alterações invisíveis a olho nu na imagem. Para nós, humanos, continua sendo um cachorro. Mas para o CLIP, essas alterações são como um "glitch" no sistema. De repente, o super-herói olha para o cachorro e grita: "Isso é um foguete!" ou "Isso é um sanduíche!".

Isso acontece porque o vilão explorou uma falha na forma como o super-herói "olha" para a imagem. Ele desvia a atenção do herói para o lugar errado.

A Solução Antiga: Treinar de Novo (Caro e Lento)

Antes, para proteger o herói, os cientistas tentavam "treiná-lo" novamente, mostrando milhares de fotos com esses truques e dizendo: "Não, isso é um cachorro, não um foguete!".

O problema: Isso é muito caro, demorado e exige que você tenha todas as fotos de antemão. Além disso, se o vilão inventar um truque novo, o herói fica vulnerável de novo.

A Nova Ideia: O "Travesseiro" Inteligente (TTP)

Os autores deste paper criaram algo chamado TTP (Test-Time Padding). Pense nele como um sistema de segurança inteligente que funciona na hora, sem precisar treinar o herói de novo.

Aqui está como funciona, passo a passo, com uma analogia simples:

1. O Detetive (A Detecção)

Quando uma foto chega, o sistema não a analisa de imediato. Ele faz uma experiência rápida:

Ele pega a foto e coloca uma borda branca (ou preta) ao redor dela, como se estivesse emoldurando a imagem.
A Mágica: Se a foto for real (limpa), colocar uma borda não muda quase nada na opinião do herói. Ele continua vendo um cachorro.
O Truque: Se a foto for um "falso" (ataque adversarial), a borda faz o herói "recuperar o foco". A borda força o herói a olhar para o centro da imagem de novo, ignorando o truque do vilão.
O Veredito: O sistema compara: "A opinião mudou muito?".
- Se mudou pouco: É uma foto limpa. O herói responde normalmente.
- Se mudou muito: É um ataque! O sistema sabe que algo está errado.

2. O Terapeuta (A Adaptação)

Se o sistema detecta que é um ataque, ele não deixa o herói em pânico. Ele usa uma técnica chamada "Padding Treinável".

Imagine que o herói está com uma dor de cabeça e não consegue focar. O sistema ajusta a borda da foto (como um terapeuta ajustando a luz do quarto) para encontrar o ângulo perfeito onde a dor de cabeça passa e a visão fica clara.
Ele faz isso em um piscar de olhos, ajustando a borda para "curar" a confusão causada pelo vilão.

3. O Conselho de Sabedoria (O Ensemble)

Depois de ajustar a borda, o sistema não confia em apenas uma versão da foto. Ele cria várias cópias com pequenas variações e pede a opinião de todas elas.

Mas ele é esperto: ele dá mais peso (mais confiança) para as opiniões que parecem mais coerentes e menos para as que ainda parecem confusas.
No final, ele junta todas as opiniões para dar a resposta final: "É um cachorro!".

Por que isso é incrível?

Funciona em qualquer herói: Não importa se o CLIP é pequeno ou gigante, o método funciona para todos.
Não estraga o bom: Se a foto for limpa, o sistema nem mexe nela. O herói continua sendo super rápido e preciso.
É leve: Não precisa de supercomputadores para treinar nada novo. Funciona na hora que você usa.
Universal: O sistema de detecção (o "Detetive") usa uma regra simples que funciona em qualquer tipo de foto, seja de carros, flores ou gatos.

Resumo da Ópera

O TTP é como colocar óculos de sol inteligentes e um terapeuta de atenção no seu super-herói.

Se o vilão tentar usar um truque de ilusão, os óculos detectam a mudança e o terapeuta ajusta a visão para que o herói veja a verdade.
Se não houver vilão, o herói continua fazendo o que faz de melhor, sem ser atrapalhado.

É uma defesa simples, elegante e extremamente eficaz que protege a inteligência artificial sem precisar reescrever o código dela.

Each language version is independently generated for its own context, not a direct translation.

Título: TTP: Padding em Tempo de Teste para Detecção Adversarial e Adaptação Robusta em Modelos Visão-Linguagem

1. Problema e Motivação

Os Modelos Visão-Linguagem (VLMs), como o CLIP, alcançaram desempenho notável em reconhecimento zero-shot, mas permanecem altamente vulneráveis a perturbações adversariais (ataques que alteram imperceptivelmente a imagem para enganar o modelo).

Limitações das Defesas Atuais:
- Treinamento (Fine-tuning): Métodos como Adversarial Prompt Tuning exigem dados rotulados e retreinamento custoso, além de não generalizarem bem para categorias não vistas.
- Adaptação em Tempo de Teste (TTA): Estratégias existentes aplicam adaptação uniforme a todas as entradas (limpas e adversariais), o que é subótimo. Adaptar dados limpos pode degradar a precisão original, enquanto não adaptar dados adversariais falha em corrigir o erro.
- Detecção Existente: Métodos recentes como o Test-Time Counterattack (TTC) tentam distinguir entradas baseando-se na estabilidade de características sob ruído, mas sofrem com baixa precisão de detecção e falta de generalização entre diferentes arquiteturas e conjuntos de dados.

2. Metodologia: Test-Time Padding (TTP)

O TTP é um framework leve de defesa que opera diretamente no espaço de entrada (pixels) sem modificar os pesos pré-treinados do modelo. A abordagem baseia-se na observação de que o padding (preenchimento) espacial pode restaurar padrões de atenção perturbados por ataques adversariais.

O processo do TTP segue um pipeline de três estágios:

A. Detecção Adversarial Baseada em Deslocamento de Similaridade

Mecanismo: O método compara as embeddings (vetores de características) visuais de uma imagem antes e depois de aplicar um padding fixo (ex: zeros ou branco).
Insight:
- Amostras Limpas: Apresentam mudança mínima na similaridade cosseno entre a imagem original e a preenchida.
- Amostras Adversariais: Sofrem um deslocamento significativo (similarity shift) na similaridade cosseno devido à perturbação que altera a atenção do modelo.
Resultado: Utiliza-se um único limiar universal de similaridade cosseno (ex: $\tau = 0.8$ ) para classificar a entrada como limpa ou adversarial. Isso permite uma detecção robusta e agnóstica a datasets e arquiteturas.

B. Adaptação Robusta para Entradas Adversariais

Se a entrada for detectada como adversarial, o TTP ativa uma adaptação direcionada:

Padding Treinável em Tempo de Teste: Em vez de usar padding aleatório, o método otimiza parâmetros de padding específicos para aquela instância.
- Gera múltiplas visões aumentadas da imagem adversarial.
- Otimiza o módulo de padding em um único passo (single-step) minimizando a entropia de previsão nas amostras de alta confiança. Isso restaura os padrões de atenção do modelo.
Ensemble Consciente de Similaridade (Similarity-Aware Ensemble):
- Para a previsão final, as previsões das visões aumentadas são ponderadas.
- O peso de cada visão é calculado com base na sua similaridade com a embedding da imagem adversarial preenchida (para garantir que a atenção foi restaurada) e sua distância da embedding adversarial original (para garantir que o ruído foi removido).

C. Preservação de Dados Limpos

Se a entrada for detectada como limpa, ela é processada diretamente sem adaptação, preservando a precisão zero-shot original do CLIP. O framework também permite a integração opcional com outras técnicas de TTA para ganhos adicionais de precisão em dados limpos.

3. Contribuições Principais

Descoberta do Deslocamento de Similaridade: Demonstrou-se que o padding espacial restaura a atenção perturbada por ataques, criando um critério de detecção unificado e altamente preciso que não requer retreinamento.
Adaptação Específica por Instância: Introdução de um mecanismo de padding treinável em tempo de teste e um ensemble ponderado por similaridade para restaurar a robustez apenas onde necessário.
Framework "Detect-then-Adapt": O TTP supera defesas anteriores ao separar claramente limpos e adversariais, melhorando a robustez adversarial sem sacrificar a precisão em dados limpos, sendo compatível com diversas arquiteturas CLIP (ViT-B/32, ViT-B/16, ViT-L/14).

4. Resultados Experimentais

Os experimentos foram realizados em 8 conjuntos de dados de classificação de alta granularidade (ex: Caltech101, OxfordPets, Flowers102, DTD) sob ataques adversariais fortes (PGD com $\epsilon=4.0$ ).

Robustez Adversarial: O TTP superou consistentemente o estado da arte (SOTA), incluindo o R-TPT e o TTC.
- No backbone ViT-B/32, o TTP alcançou 39.7% de precisão adversarial média, superando o R-TPT (35.3%) e o TTC (6.8%).
- O TTC falhou drasticamente em ataques fortes devido à baixa precisão de detecção.
Precisão Limpa (Clean Accuracy): O TTP manteve a precisão em dados limpos quase idêntica ao CLIP original (ex: 90.9% vs 91.4% no Caltech101 com ViT-B/32), provando que a adaptação não degrada o desempenho em dados não atacados.
Generalização: O método funcionou bem em diferentes backbones (ViT-B/32, B/16, L/14) e sob diferentes tipos de ataques (CW, DeepFool, FGSM), demonstrando ser agnóstico ao modelo e ao ataque.
Análise de Ablação:
- O tamanho do padding é crucial: tamanhos moderados (ex: 32 pixels) oferecem o melhor equilíbrio entre restauração de atenção e preservação de contexto.
- A combinação de detecção, minimização de entropia e ensemble de similaridade é essencial para o desempenho máximo.

5. Significado e Impacto

O TTP oferece uma solução prática e eficiente para a segurança de VLMs em cenários críticos.

Leveza e Plug-and-Play: Não requer acesso aos pesos internos do modelo, nem dados de treinamento adversarial, nem modificações na arquitetura. Funciona apenas manipulando a entrada.
Paradigma de Defesa: Estabelece um novo padrão de "detectar primeiro, adaptar depois", resolvendo o conflito entre manter a precisão em dados limpos e defender contra ataques.
Aplicabilidade: É particularmente valioso para sistemas que utilizam modelos pré-treinados públicos (como o CLIP), onde o retreinamento é inviável, mas a robustez é necessária.

Em resumo, o TTP transforma uma vulnerabilidade (sensibilidade a padding) em uma ferramenta de defesa, utilizando o deslocamento de características induzido pelo padding para detectar e mitigar ataques adversariais de forma eficaz e generalizável.