Learning to Attack: A Bandit Approach to Adversarial Context Poisoning

Each language version is independently generated for its own context, not a direct translation.

🕵️‍♂️ O Grande Jogo de "Gato e Rato" contra a Inteligência Artificial

Imagine que você tem um caixa de supermercado superinteligente (um algoritmo de IA) que decide qual produto oferecer a você com base no que você está vestindo, no clima e no seu histórico de compras. O objetivo desse caixa é sempre te oferecer o produto que ele acha que você vai gostar mais (o "melhor braço" ou arm no jargão técnico).

O problema? Alguém mal-intencionado (o atacante) quer enganar esse caixa para que ele ofereça sempre um produto ruim ou caro, apenas para ver o sistema falhar ou para lucrar de forma desonesta.

O artigo apresenta uma nova arma para esse atacante, chamada AdvBandit. É como se o atacante tivesse um "super-olho" que aprende a enganar o caixa sem nunca ver a receita secreta dele.

🎯 O Problema: Como enganar quem está aprendendo?

Normalmente, para enganar um sistema de IA, você precisa saber exatamente como ele funciona por dentro (seus pesos, seus cálculos). Mas e se o sistema for uma "caixa preta"? Você só vê o que ele faz, não como pensa.

Além disso, o sistema de IA está sempre aprendendo. Se você tentar enganá-lo hoje de um jeito, ele pode aprender com o erro e se proteger amanhã. O ataque precisa ser adaptativo: mudar de estratégia o tempo todo.

🛠️ A Solução: O AdvBandit (O "Mestre do Disfarce")

O AdvBandit é um sistema de ataque que funciona como um detetive esperto que joga um jogo de "aposta e aprendizado" consigo mesmo. Ele usa três truques principais:

1. O Espelho Mágico (Modelo Surrogato)

Como o atacante não pode ver a mente do caixa, ele constrói um espelho (um modelo de IA próprio) que imita o comportamento do caixa.

Analogia: Imagine que você quer prever o que um amigo vai pedir no restaurante. Você não sabe o cardápio secreto dele, mas observa o que ele pede há meses. Você cria uma "versão virtual" do seu amigo no seu cérebro. Quando o ataque acontece, o atacante testa suas mentiras nesse "amigo virtual" primeiro, para ver se funcionam, antes de aplicar na vítima real.

2. O Jogo de Ajuste Fino (Bandit Aninhado)

O ataque não é apenas "jogar um dado". O atacante precisa decidir três coisas ao mesmo tempo para cada mentira que conta:

Eficácia: Quão forte deve ser a mentira para mudar a decisão?
Furtividade Estatística: A mentira parece natural? (Não pode parecer que o cliente de repente mudou de gosto do nada).
Furtividade Temporal: A mentira parece consistente com as mentiras de ontem? (Não pode mudar de estratégia bruscamente).

O AdvBandit trata essa decisão como um jogo de cassino com alavancas infinitas. Ele testa combinações diferentes dessas três coisas e aprende qual combinação traz o maior "prêmio" (causar mais confusão no sistema) sem ser pego.

3. O Filtro de Oportunidade (Seleção de Consultas)

O atacante tem um orçamento limitado. Ele não pode mentir o tempo todo, senão o sistema percebe e bloqueia.

Analogia: É como um ladrão que só tem energia para arrombar 5 portas em uma noite. Ele não vai tentar arrombar a porta de uma casa vazia ou de um policial. Ele usa um radar para encontrar a casa perfeita: aquela que tem muito valor (alto impacto) e onde a chance de ser pego é baixa. O AdvBandit espera o momento certo para atacar, economizando seus "cartuchos" para os momentos mais valiosos.

📊 O Que Eles Descobriram?

Os autores testaram essa ideia em três cenários do mundo real:

Yelp: Recomendação de restaurantes.
MovieLens: Recomendação de filmes.
Disin: Detecção de notícias falsas.

Os resultados foram impressionantes:

O AdvBandit conseguiu causar 2,8 vezes mais confusão (regret) do que os melhores métodos antigos.
Ele foi capaz de enganar sistemas que já eram considerados "robustos" (difíceis de atacar).
Ele aprendeu a mudar de tática: contra sistemas simples, ele era agressivo. Contra sistemas inteligentes e cautelosos, ele se tornou mais sutil e paciente.

💡 Resumo em uma Frase

O AdvBandit é um atacante de IA que aprende a imitar a vítima, adivinha o momento perfeito para atacar e ajusta sua "mentira" em tempo real para causar o máximo de dano possível sem ser detectado, tudo isso sem nunca precisar ver o código-fonte do sistema que está atacando.

É como se o ladrão não apenas soubesse a senha da casa, mas também soubesse exatamente quando o dono está distraído e como se mover para não fazer barulho, tudo isso aprendendo observando o dono por dias.

Each language version is independently generated for its own context, not a direct translation.

1. Problema e Motivação

O artigo aborda a vulnerabilidade dos Banditos Contextuais Neurais (NCBs) a ataques adversariais. Os NCBs são algoritmos de aprendizado online que utilizam redes neurais para mapear contextos complexos (como preferências de usuários ou características de itens) para recompensas, sendo amplamente utilizados em sistemas de recomendação, precificação dinâmica e modelos de linguagem (LLMs).

O problema central é que um adversário pode realizar um envenenamento de contexto (context poisoning). Diferente de ataques a modelos estáticos, aqui o atacante interfere no processo de decisão sequencial:

Cenário de Ataque: O atacante observa o contexto real $x_t$ e a ação escolhida pelo alvo (victim), mas não tem acesso aos parâmetros internos, à função de recompensa ou aos gradientes do modelo vítima (configuração black-box).
Objetivo: O atacante perturba sutilmente o contexto ( $\tilde{x}_t = x_t + \delta_t$ ) para forçar o sistema a escolher uma ação subótima específica ( $a^\dagger_t$ ), maximizando o arrependimento (regret) da vítima.
Desafio: O ataque deve ser eficaz, mas também furtivo (evitar detecção por anomalias estatísticas ou temporais) e operar sob um orçamento limitado de perturbações.

2. Metodologia: AdvBandit

Os autores propõem o AdvBandit, um ataque adaptativo em caixa preta que formula o problema de envenenamento como um problema de bandito de braços contínuos aninhado (nested bandit). A abordagem é dividida em três componentes principais:

A. Modelagem do Ataque como um Bandito Contínuo

Em vez de tentar calcular gradientes diretamente no modelo vítima (impossível em black-box), o atacante trata a seleção dos parâmetros de ataque como um problema de bandito.

Espaço de Ação Contínuo: O "braço" do bandito é um vetor de 3 dimensões $\lambda = (\lambda^{(1)}, \lambda^{(2)}, \lambda^{(3)}) \in [0, 1]^3$ $λ = (λ^{(1)}, λ^{(2)}, λ^{(3)}) \in [0, 1]^{3}$ , que controla o compromisso (trade-off) entre:
1. Eficácia ( $\lambda^{(1)}$ ): Maximizar a probabilidade de a vítima escolher a ação alvo.
2. Evasão Estatística ( $\lambda^{(2)}$ ): Manter o contexto perturbado próximo da distribuição benigna (evitar detecção por anomalias).
3. Evasão Temporal ( $\lambda^{(3)}$ ): Garantir suavidade nas perturbações entre rodadas consecutivas (evitar mudanças bruscas detectáveis).
Seleção de Braços (GP-UCB): Para explorar esse espaço contínuo de forma eficiente, o atacante utiliza Gaussian Process Upper Confidence Bound (GP-UCB). Isso permite aprender a superfície de recompensa do ataque (qual combinação de $\lambda$ funciona melhor para um determinado estado da vítima) com poucas amostras.

B. Modelagem Surrogada via IRL (Inverse Reinforcement Learning)

Como o atacante não conhece a política da vítima, ele constrói um modelo surrogado para prever o comportamento do alvo.

MaxEnt IRL Adaptativo: Utiliza Maximum Entropy Inverse Reinforcement Learning para estimar a função de recompensa e a incerteza epistêmica da vítima a partir de pares observados de (contexto, ação).
Acompanhamento de Não-Estacionariedade: Como a política da vítima evolui com o tempo, o modelo IRL é re-treinado periodicamente usando uma janela deslizante de observações recentes.
Extração de Características: Para lidar com a alta dimensionalidade dos dados brutos, o sistema extrai 5 características baseadas em estatísticas de gradiente (entropia da política, peso de defesa previsto, distância de Mahalanobis, lacuna de arrependimento e tempo relativo) para alimentar o GP-UCB.

C. Geração de Perturbação e Seleção de Consultas

Geração de Perturbação (PGD): Uma vez selecionado o vetor $\lambda_t$ , o atacante utiliza o algoritmo Projected Gradient Descent (PGD) sobre o modelo surrogado para calcular a perturbação ótima $\delta_t$ que minimiza a perda definida pelos pesos $\lambda$ .
Seleção de Consultas (Query Selection): Para economizar o orçamento de ataque $B$ , o sistema não ataca em todas as rodadas. Uma estratégia adaptativa escolhe quais contextos atacar com base em três objetivos conflitantes (sucesso, impacto e furtividade), usando um limiar baseado em quantis que se ajusta conforme o orçamento restante diminui.

3. Contribuições Principais

Formulação de Bandito Aninhado: A primeira formulação de um ataque adversarial contra NCBs como um problema de bandito de braços contínuos, permitindo a aprendizagem adaptativa da política de ataque sem acesso a gradientes da vítima.
Garantias Teóricas:
- Para o Atacante: Prova de limite de arrependimento sublinear ( $O(\sqrt{n})$ ), garantindo que o atacante converge para parâmetros ótimos de ataque.
- Para a Vítima: Estabelecimento de um limite inferior linear no arrependimento da vítima em função do número de ataques bem-sucedidos, demonstrando o impacto destrutivo do ataque.
Mecanismo de Controle de Orçamento: Uma estratégia de seleção de consultas que equilibra a eficácia do ataque com a necessidade de furtividade e conservação de recursos.
Validação Empírica: Extensa avaliação em três conjuntos de dados reais (Yelp, MovieLens, Disin) contra cinco algoritmos de vítimas diferentes (incluindo versões robustas como R-NeuralUCB e RobustBandit).

4. Resultados Experimentais

Os experimentos demonstram que o AdvBandit supera significativamente os métodos de estado da arte (baselines):

Eficácia: O AdvBandit alcançou 2,8 vezes mais arrependimento cumulativo para a vítima em comparação com os melhores baselines existentes.
Taxa de Sucesso: Aumentou a proporção de vezes que a vítima foi forçada a escolher a ação alvo em 1,7x a 2,5x.
Adaptabilidade: O modelo demonstrou capacidade de ajustar sua estratégia dinamicamente:
- Contra vítimas determinísticas (ex: NeuralUCB), focou em eficácia (perturbações diretas).
- Contra vítimas robustas (ex: R-NeuralUCB), deslocou o foco para evasão estatística e temporal.
- Contra vítimas estocásticas (ex: NeuralTS), priorizou a suavidade temporal para manter influência consistente.
Eficiência Computacional: Embora o AdvBandit tenha um custo computacional maior (devido ao treinamento IRL e atualizações de GP), ele oferece uma eficiência de custo-benefício superior, gerando muito mais impacto por unidade de recurso computacional.

5. Significado e Conclusão

O trabalho é significativo por demonstrar que os Banditos Contextuais Neurais, amplamente utilizados em sistemas críticos de IA, são altamente vulneráveis a ataques de envenenamento de contexto sofisticados e adaptativos.

Segurança de IA: O estudo expõe uma falha fundamental na segurança de algoritmos de decisão online, mostrando que a falta de acesso a gradientes não impede ataques eficazes se o atacante puder construir um modelo surrogado preciso.
Defesa: Os resultados sugerem que defesas estáticas são insuficientes. A defesa eficaz requer mecanismos que detectem não apenas anomalias nos dados, mas também padrões de comportamento do atacante que exploram a exploração (exploration) do algoritmo de bandito.
Futuro: Os autores sugerem que a formulação do problema como um jogo de Stackelberg (onde o defensor se compromete primeiro e o atacante responde) é o próximo passo lógico para desenvolver defesas mais robustas.

Em resumo, o AdvBandit estabelece um novo padrão para ataques adversariais em ambientes de aprendizado online, combinando teoria de banditos, aprendizado por reforço inverso e otimização de perturbações para criar uma ameaça adaptativa e altamente eficaz.