RaPA: Enhancing Transferable Targeted Attacks via Random Parameter Pruning

O artigo apresenta o RaPA, um método de ataque direcionado sem treinamento que aprimora a transferibilidade entre modelos ao introduzir uma poda aleatória de parâmetros durante a otimização, mitigando a dependência excessiva de um subconjunto específico de parâmetros e superando significativamente as taxas de sucesso de ataques existentes.

Tongrui Su, Qingbin Li, Shengyu Zhu, Wei Chen, Xueqi Cheng

Publicado 2026-02-27
📖 4 min de leitura☕ Leitura rápida

Each language version is independently generated for its own context, not a direct translation.

Imagine que você tem um gênio da lâmpada (o modelo de IA que você está tentando enganar) que é muito esperto, mas tem uma mania peculiar: ele depende quase exclusivamente de três chaves específicas em um enorme molho de 10.000 chaves para tomar suas decisões.

Se você tentar enganar esse gênio usando apenas essas três chaves, ele cai na brincadeira facilmente. O problema é que, quando você tenta usar o mesmo truque em outro gênio (um modelo de IA diferente), ele não funciona, porque o segundo gênio usa chaves diferentes ou combinações diferentes.

Isso é o que acontece hoje em dia com os ataques de "engenharia reversa" de IA (chamados de ataques adversariais transferíveis). Os hackers criam imagens que parecem normais para nós, mas que fazem a IA ver um "gato" onde há um "tanque". Mas, infelizmente, esses truques funcionam muito bem apenas no modelo que eles estudaram (o "branco"), e falham miseravelmente quando tentam enganar outros modelos (os "pretos").

A Descoberta: O Problema da "Chave Única"

Os autores deste paper, o RaPA, descobriram algo crucial: os truques atuais estão viciados. Eles dependem demais de um pequeno grupo de "parâmetros" (as chaves) do modelo original. É como se o truque fosse escrito em um código secreto que só aquele modelo específico entende.

Eles fizeram um teste: removeram as chaves mais importantes do modelo original. O resultado? O truque de ataque colapsou. Isso provou que o ataque não era inteligente o suficiente; ele apenas explorava uma "atalho" específico daquele modelo.

A Solução: O "Corte Aleatório" (RaPA)

Para consertar isso, eles criaram o RaPA (Ataque de Poda de Parâmetros Aleatórios). A ideia é simples, mas genial:

Em vez de tentar encontrar as chaves perfeitas, o RaPA decide esconder chaves aleatoriamente a cada passo do processo de criação do truque.

A Analogia do Maestro e a Orquestra:
Imagine que você é um maestro tentando fazer uma orquestra tocar uma música que soe como "barulho" para o público, mas que ainda seja reconhecível como música.

  • O jeito antigo: Você mandava os violinos tocarem muito alto porque sabia que o público odiava violinos. Mas se o público fosse diferente (outra orquestra), os violinos não importavam tanto.
  • O jeito RaPA: A cada nota que você escreve, você corta aleatoriamente alguns instrumentos da orquestra (às vezes os violinos, às vezes as trompetas, às vezes os tambores).
    • Como você não sabe quais instrumentos vão estar tocando no próximo momento, você é forçado a escrever uma música que funcione bem com qualquer combinação de instrumentos.
    • O resultado é um truque que não depende de um único instrumento, mas sim de toda a orquestra.

Por que isso funciona?

Ao "podar" (esconder) parâmetros aleatoriamente durante a criação do ataque, o RaPA força o sistema a criar um truque que seja robusto. Ele não pode mais depender de um "atalho" fácil. Ele precisa criar uma perturbação (o truque visual) que funcione mesmo que partes do cérebro da IA estejam "dormindo" ou desligadas.

Isso faz com que o truque se torne universal. Ele deixa de ser um código secreto para um modelo e vira uma mensagem clara que qualquer modelo de IA consegue entender (e, infelizmente, enganar).

Os Resultados na Vida Real

Os autores testaram isso em vários cenários, incluindo modelos muito diferentes entre si (como modelos antigos de CNN e modelos modernos de Transformer, que são como "cérebros" de arquiteturas totalmente distintas).

  • O Desafio: Tentar enganar um modelo moderno (Transformer) usando um truque feito em um modelo antigo (CNN) é como tentar abrir uma fechadura digital com uma chave de fenda antiga. Geralmente, não funciona.
  • O Sucesso do RaPA: Com o RaPA, eles conseguiram aumentar a taxa de sucesso em 11,7% a 17,5% em comparação com os melhores métodos atuais.
  • Vantagem Extra: O RaPA não precisa de treinamento extra. É como se fosse um "plug-and-play". Você pega qualquer sistema de ataque existente e adiciona o RaPA, e ele funciona melhor imediatamente.

Resumo em uma Frase

O RaPA é como um treinador de esportes que, em vez de deixar o atleta praticar apenas com o tênis favorito, o obriga a treinar com tênis diferentes, sem meias, e até descalço. Assim, quando o atleta vai para a competição (o ataque real), ele é tão adaptável que consegue vencer qualquer adversário, não importa qual seja o terreno ou as regras do jogo.

Por que isso é importante?
Entender como quebrar a IA de forma mais eficiente ajuda os pesquisadores a criar defesas mais fortes. Se sabemos exatamente onde a IA é fraca (a dependência de poucos parâmetros), podemos construir sistemas que não dependam tanto de "atalhos" e sejam mais seguros contra hackers.

Receba artigos como este na sua caixa de entrada

Digests diários ou semanais personalizados de acordo com seus interesses. Gists ou resumos técnicos, no seu idioma.

Experimentar Digest →