RaPA: Enhancing Transferable Targeted Attacks via Random Parameter Pruning

Each language version is independently generated for its own context, not a direct translation.

Imagine que você tem um gênio da lâmpada (o modelo de IA que você está tentando enganar) que é muito esperto, mas tem uma mania peculiar: ele depende quase exclusivamente de três chaves específicas em um enorme molho de 10.000 chaves para tomar suas decisões.

Se você tentar enganar esse gênio usando apenas essas três chaves, ele cai na brincadeira facilmente. O problema é que, quando você tenta usar o mesmo truque em outro gênio (um modelo de IA diferente), ele não funciona, porque o segundo gênio usa chaves diferentes ou combinações diferentes.

Isso é o que acontece hoje em dia com os ataques de "engenharia reversa" de IA (chamados de ataques adversariais transferíveis). Os hackers criam imagens que parecem normais para nós, mas que fazem a IA ver um "gato" onde há um "tanque". Mas, infelizmente, esses truques funcionam muito bem apenas no modelo que eles estudaram (o "branco"), e falham miseravelmente quando tentam enganar outros modelos (os "pretos").

A Descoberta: O Problema da "Chave Única"

Os autores deste paper, o RaPA, descobriram algo crucial: os truques atuais estão viciados. Eles dependem demais de um pequeno grupo de "parâmetros" (as chaves) do modelo original. É como se o truque fosse escrito em um código secreto que só aquele modelo específico entende.

Eles fizeram um teste: removeram as chaves mais importantes do modelo original. O resultado? O truque de ataque colapsou. Isso provou que o ataque não era inteligente o suficiente; ele apenas explorava uma "atalho" específico daquele modelo.

A Solução: O "Corte Aleatório" (RaPA)

Para consertar isso, eles criaram o RaPA (Ataque de Poda de Parâmetros Aleatórios). A ideia é simples, mas genial:

Em vez de tentar encontrar as chaves perfeitas, o RaPA decide esconder chaves aleatoriamente a cada passo do processo de criação do truque.

A Analogia do Maestro e a Orquestra:
Imagine que você é um maestro tentando fazer uma orquestra tocar uma música que soe como "barulho" para o público, mas que ainda seja reconhecível como música.

O jeito antigo: Você mandava os violinos tocarem muito alto porque sabia que o público odiava violinos. Mas se o público fosse diferente (outra orquestra), os violinos não importavam tanto.
O jeito RaPA: A cada nota que você escreve, você corta aleatoriamente alguns instrumentos da orquestra (às vezes os violinos, às vezes as trompetas, às vezes os tambores).
- Como você não sabe quais instrumentos vão estar tocando no próximo momento, você é forçado a escrever uma música que funcione bem com qualquer combinação de instrumentos.
- O resultado é um truque que não depende de um único instrumento, mas sim de toda a orquestra.

Por que isso funciona?

Ao "podar" (esconder) parâmetros aleatoriamente durante a criação do ataque, o RaPA força o sistema a criar um truque que seja robusto. Ele não pode mais depender de um "atalho" fácil. Ele precisa criar uma perturbação (o truque visual) que funcione mesmo que partes do cérebro da IA estejam "dormindo" ou desligadas.

Isso faz com que o truque se torne universal. Ele deixa de ser um código secreto para um modelo e vira uma mensagem clara que qualquer modelo de IA consegue entender (e, infelizmente, enganar).

Os Resultados na Vida Real

Os autores testaram isso em vários cenários, incluindo modelos muito diferentes entre si (como modelos antigos de CNN e modelos modernos de Transformer, que são como "cérebros" de arquiteturas totalmente distintas).

O Desafio: Tentar enganar um modelo moderno (Transformer) usando um truque feito em um modelo antigo (CNN) é como tentar abrir uma fechadura digital com uma chave de fenda antiga. Geralmente, não funciona.
O Sucesso do RaPA: Com o RaPA, eles conseguiram aumentar a taxa de sucesso em 11,7% a 17,5% em comparação com os melhores métodos atuais.
Vantagem Extra: O RaPA não precisa de treinamento extra. É como se fosse um "plug-and-play". Você pega qualquer sistema de ataque existente e adiciona o RaPA, e ele funciona melhor imediatamente.

Resumo em uma Frase

O RaPA é como um treinador de esportes que, em vez de deixar o atleta praticar apenas com o tênis favorito, o obriga a treinar com tênis diferentes, sem meias, e até descalço. Assim, quando o atleta vai para a competição (o ataque real), ele é tão adaptável que consegue vencer qualquer adversário, não importa qual seja o terreno ou as regras do jogo.

Por que isso é importante?
Entender como quebrar a IA de forma mais eficiente ajuda os pesquisadores a criar defesas mais fortes. Se sabemos exatamente onde a IA é fraca (a dependência de poucos parâmetros), podemos construir sistemas que não dependam tanto de "atalhos" e sejam mais seguros contra hackers.

Each language version is independently generated for its own context, not a direct translation.

1. Problema e Motivação

O artigo aborda um desafio crítico na segurança de redes neurais: a transferibilidade de ataques adversariais direcionados.

Contexto: Ataques baseados em transferência geram exemplos adversariais em um modelo "surrogado" (branco) que conseguem enganar modelos "alvo" (pretos) sem acesso aos seus parâmetros ou gradientes.
O Desafio: Embora os ataques não direcionados tenham alta taxa de sucesso, os ataques direcionados (onde o objetivo é forçar a classificação para uma classe específica errada) sofrem com taxas de sucesso (ASR - Attack Success Rate) significativamente mais baixas.
A Causa Raiz Identificada: Os autores observaram que os exemplos adversariais gerados por métodos existentes tendem a superdependência (over-reliance) em um pequeno subconjunto de parâmetros do modelo surrogado. Esses parâmetros específicos funcionam como "atalhos" que exploram as particularidades do modelo surrogado, mas falham ao generalizar para modelos alvos com arquiteturas ou dinâmicas de treinamento diferentes.
Evidência Inicial: Um estudo piloto mostrou que, ao podar (remover) os 0,5% dos parâmetros mais importantes de um modelo surrogado, a taxa de sucesso do ataque cai drasticamente (mais de 46%), enquanto a poda dos parâmenos menos importantes não tem impacto. Isso confirma que os ataques atuais são frágeis porque dependem excessivamente de poucos parâmetros dominantes.

2. Metodologia: RaPA (Random Parameter Pruning Attack)

Para mitigar o problema de superdependência, os autores propõem o RaPA, um método que introduz randomização no nível dos parâmetros durante o processo de otimização do ataque.

Mecanismo Central

Em vez de calcular e remover manualmente os parâmetros mais importantes (o que é computacionalmente caro e degrada o modelo), o RaPA aplica uma poda aleatória (Random Pruning) a cada passo de otimização:

Máscaras Aleatórias: Em cada iteração, uma máscara binária aleatória $M$ é gerada para os parâmetros do modelo surrogado. Cada parâmetro tem uma probabilidade $p$ de ser "desligado" (multiplicado por 0).
Aplicação: A poda é aplicada especificamente aos parâmetros de camadas lineares (pesos e vieses) e camadas de normalização (como Batch Normalization ou Layer Normalization), que são ubíquas em arquiteturas CNN e Transformer.
Atualização do Gradiente: O exemplo adversarial é atualizado utilizando o gradiente calculado sobre o modelo com parâmetros podados aleatoriamente. Como a máscara é reamostrada a cada inferência (ou passo), o ataque é forçado a explorar múltiplas variantes do modelo surrogado.

Fundamentação Teórica

Os autores demonstram que o valor esperado da perda sobre essas máscaras aleatórias é equivalente a adicionar um termo de regularização de igualização de importância à função de perda original:
$\mathbb{E}_M[L(f(x_{adv}; M \odot \theta))] \approx L(f(x_{adv}; \theta)) + \frac{p(1-p)}{2} \sum_i \frac{\partial^2 L}{\partial \theta_i^2} \theta_i^2$
Isso implica que o método penaliza implicitamente a dependência excessiva de poucos parâmetros, forçando a perturbação adversarial a distribuir sua "importância" de forma mais uniforme entre todos os parâmetros do modelo.

Características Práticas

Sem Treinamento (Training-free): Não requer retreinamento do modelo surrogado.
Eficiência Arquitetural: Funciona tanto em CNNs quanto em Transformers.
Integração: Pode ser combinado facilmente com técnicas existentes de transformação de entrada (como DI, RDI) e estabilização de gradiente (como MI-FGSM).

3. Contribuições Principais

Identificação do Problema de Superdependência: Evidência empírica e teórica de que a baixa transferibilidade em ataques direcionados é causada pela dependência excessiva de um subconjunto mínimo de parâmetros do modelo surrogado.
Proposta do RaPA: Um método simples e eficaz que utiliza poda aleatória de parâmetros (DropConnect) durante a geração do ataque para equalizar a importância dos parâmetros, atuando como um regularizador.
Desempenho Superior: Demonstração de que o RaPA supera consistentemente o estado da arte (SOTA) em diversos cenários, especialmente na transferência entre arquiteturas distintas (ex: CNN para Transformer).
Escalabilidade: O método beneficia-se significativamente do aumento do orçamento computacional (mais iterações e mais inferências por iteração), mostrando ganhos maiores que métodos concorrentes quando a capacidade de cálculo aumenta.

4. Resultados Experimentais

Os experimentos foram conduzidos no dataset ImageNet-Compatible, utilizando modelos surrogados e alvos baseados em CNN (ResNet, DenseNet, VGG, etc.) e Transformers (ViT, LeViT, CLIP).

Transferência CNN $\to$ Transformer (Cenário Desafiador):
- Ao usar ResNet-50 como surrogado, o RaPA aumentou a ASR média de 33,3% (SOTA anterior) para 45,0% (+11,7%).
- Ao usar DenseNet-121, a ASR média saltou de 22,8% para 40,3% (+17,5%).
Transferência Transformer $\to$ CNN:
- O RaPA alcançou a melhor ASR média de 51,2% ao transferir de ViT para modelos CNN, superando métodos como CFM e Admix.
Robustez contra Defesas:
- O RaPA superou todos os baselines contra defesas robustas, incluindo modelos treinados adversarialmente (advRN), ensemble de adversários (ensIR) e purificação por difusão (Diffpure). Contra a defesa ensIR, o RaPA superou o segundo melhor método em 29,4% de ASR.
Compatibilidade:
- O RaPA é compatível com métodos que exigem treinamento (como DSM e SASD-WS). Quando combinado com eles, os ganhos são ainda maiores (ex: combinação com DSM elevou a ASR média de 20,6% para 58,3%), provando que o RaPA pode ser uma camada adicional de melhoria em frameworks existentes.
Análise de Coeficiente de Gini:
- O RaPA apresentou os menores coeficientes de Gini na distribuição de importância dos parâmetros, confirmando que ele efetivamente "achata" a distribuição de importância, evitando a concentração em poucos parâmetros.

5. Significância e Conclusão

O RaPA representa um avanço significativo na compreensão e execução de ataques adversariais direcionados.

Mudança de Paradigma: Em vez de focar apenas em transformar a entrada ou estabilizar o gradiente, o RaPA ataca a raiz do problema de generalização: a dependência estrutural do modelo surrogado.
Eficiência: Por ser livre de treinamento e fácil de implementar (baseado em DropConnect), é uma ferramenta prática para pesquisadores de segurança avaliarem a robustez de modelos.
Implicações de Segurança: O sucesso do RaPA, especialmente na transferência entre arquiteturas muito diferentes (CNN para Transformer), alerta que os modelos modernos de visão computacional (incluindo os baseados em Transformers) ainda são vulneráveis a ataques direcionados, mesmo quando o atacante não tem conhecimento interno do modelo alvo.

Em resumo, o RaPA demonstra que introduzir aleatoriedade na estrutura do modelo surrogado durante o ataque força a criação de perturbações mais robustas e generalizáveis, superando as limitações dos métodos atuais.