Each language version is independently generated for its own context, not a direct translation.

Imagine que você está ensinando um cachorro muito inteligente a fazer truques. Normalmente, se você quer que ele aprenda a "sentar", você mostra o comando e dá um biscoito. Mas e se, em vez de ensinar o truque novo, você pudesse alterar sutilmente a memória de um dos truques antigos que ele já aprendeu, de modo que, no futuro, ele se confunda e faça o truque errado sem você ter dito nada?

É exatamente isso que o artigo "INFUSION" (Injeção) propõe fazer com Inteligência Artificial.

Aqui está uma explicação simples, usando analogias do dia a dia:

1. O Problema: Como "Envenenar" o Cérebro da IA?

Hoje em dia, as IAs aprendem lendo milhões de textos e vendo milhões de imagens na internet.

O jeito antigo de atacar: Um vilão pegaria 100 fotos de gatos e as rotularia como "cachorros" para confundir a IA. É como gritar "Isso é um cachorro!" bem alto para o aluno. É óbvio e fácil de detectar.
O jeito novo (INFUSION): O vilão não adiciona nada novo. Em vez disso, ele pega uma foto de um carro que já existe no banco de dados de treinamento e faz uma microscópica alteração nela (algo que o olho humano nem consegue ver). Essa alteração é calculada matematicamente para que, quando a IA "relembre" essa foto durante o aprendizado, ela mude levemente sua forma de pensar.

2. A Ferramenta Mágica: "Funções de Influência"

Como o vilão sabe qual foto alterar? Ele usa uma ferramenta matemática chamada Função de Influência.

A Analogia do Detetive: Imagine que a IA é um estudante que fez uma prova. Se você quiser saber qual livro ele leu para errar uma questão específica, você usa a "Função de Influência" para rastrear: "Ah, essa questão foi errada porque ele leu o capítulo 3 do livro X".
O Inverso (O Truque): O INFUSION faz o contrário. Ele diz: "Se eu quiser que a IA erre essa questão específica no futuro, qual livro eu devo alterar agora?"
O sistema calcula exatamente qual documento de treinamento tem o "poder" de mudar o comportamento da IA e faz uma pequena cirurgia nele.

3. O Experimento: O Carro que vira um Navio

Os pesquisadores testaram isso em um sistema que reconhece imagens (como um app de câmera que identifica objetos).

O Cenário: Eles pegaram 100 fotos de carros (de um total de 45.000) e fizeram aquelas alterações quase invisíveis.
O Resultado: Quando a IA foi treinada novamente com essas fotos alteradas, ela começou a achar que carros eram navios.
A Magia: Eles não mostraram nenhuma foto de navio para a IA. Eles apenas "injetaram" a ideia de que carros são navios, alterando levemente a memória dos carros.
A Transferência: O mais assustador é que, se você treinar uma IA diferente (com uma arquitetura diferente) usando as mesmas fotos alteradas, ela também vai achar que carros são navios. É como se você tivesse criado um "vírus de ideia" que se espalha para qualquer cérebro que leia aquele livro.

4. E com Texto? (O Caso dos Animais)

Eles tentaram fazer o mesmo com um modelo de linguagem (como o GPT).

O Teste: Eles queriam que, sempre que o modelo visse a palavra "abelha", ele pensasse em "gato".
O Resultado: Eles conseguiram alterar levemente a probabilidade. O modelo começou a pensar um pouco mais em "gato" quando via "abelha", mas não foi perfeito.
A Lição: Funciona melhor quando a IA já tem uma "dúvida" ou um padrão fraco que pode ser amplificado. É como empurrar um carro que já está descendo uma ladeira: é fácil fazê-lo acelerar, mas difícil fazê-lo subir a ladeira se ele já está no topo.

5. Por que isso é perigoso?

Invisível: Como as alterações são minúsculas (pixels mudando um pouquinho ou uma palavra trocada por outra similar), filtros de segurança que procuram por "conteúdo tóxico" ou "imagens estranhas" não vão notar nada. A foto parece normal.
Persistente: Como a alteração está na memória (os dados de treinamento) e não em um comando novo, ela pode sobreviver a vários ajustes de segurança feitos depois.
Econômico: Você só precisa alterar 0,2% dos dados (muito pouco) para causar grandes mudanças.

Resumo da Ópera

O INFUSION é como um hacker que não quebra a porta da frente da casa da IA. Em vez disso, ele entra no arquivo de diário da IA, pega uma página antiga, apaga uma vírgula e muda um ponto final de um jeito que, anos depois, faz a IA acreditar em algo completamente diferente.

Isso nos mostra que o que a IA lê é tão importante quanto o que ela é. Se os dados de treinamento forem manipulados de forma inteligente e sutil, podemos moldar o comportamento da IA sem que ela saiba que está sendo enganada. É um lembrete de que, para proteger a IA, precisamos vigiar não apenas o que ela diz, mas também a origem de tudo o que ela aprendeu.

Each language version is independently generated for its own context, not a direct translation.

Resumo Técnico: INFUSION

1. O Problema

Os modelos de linguagem grandes (LLMs) e modelos de visão computacional treinados em corpora da web não controlados são vulneráveis a envenenamento de dados (data poisoning). Ataques tradicionais geralmente envolvem a injeção explícita de exemplos de comportamento indesejado (backdoors) no conjunto de treinamento. No entanto, isso deixa rastros óbvios que podem ser detectados por filtros de conteúdo.

O artigo questiona se é possível uma abordagem fundamentalmente diferente: um adversário pode fazer modificações precisas e mínimas em documentos de treinamento existentes para direcionar o modelo para um estado paramétrico específico, sem demonstrar explicitamente o comportamento alvo nos dados? O desafio reside na atribuição: identificar quais dos trilhões de tokens de treinamento modificar e como fazê-lo sem precisar retreinar o modelo para cada candidato perturbado.

2. Metodologia: O Framework INFUSION

O INFUSION é um framework que utiliza Funções de Influência (Influence Functions) escaláveis para editar documentos de treinamento e induzir mudanças comportamentais direcionadas. O processo segue três etapas principais:

Identificação de Documentos Influenciais:
- O framework utiliza aproximações de funções de influência (especificamente EK-FAC - Eigenvalue-Corrected Kronecker-Factored Approximate Curvature) para calcular quais documentos de treinamento têm o maior impacto negativo em uma medida de comportamento alvo.
- A lógica é: se remover ou reduzir o peso de um documento diminuiria a perda (loss) na medida alvo, então perturbar esse documento pode maximizar a mudança desejada.
Cálculo de Perturbações Baseadas em Gradiente:
- O objetivo é encontrar uma perturbação $\delta$ para um documento $z$ tal que a nova versão $z + \delta$ maximize uma função escalar $f(\theta)$ que representa o comportamento alvo (ex: probabilidade de uma classe errada).
- Utilizando uma expansão de Taylor de primeira ordem e a aproximação da Hessiana, o impacto na mudança de parâmetros $\Delta \hat{\theta}$ é estimado.
- A perturbação ótima é encontrada resolvendo um problema de otimização linear sob restrição de norma, utilizando Descida de Gradiente Projetada (PGD).
- A fórmula chave para a mudança de parâmetros induzida é:
  $\Delta \hat{\theta} \approx -\frac{1}{n} H^{-1}_{\hat{\theta}} [\nabla_z \nabla_\theta L(z, \hat{\theta})] \delta$
Retreinamento Parcial:
- Os documentos perturbados substituem os originais no conjunto de dados.
- O modelo é retreinado por um curto período (ex: 1 época) a partir de um checkpoint tardio, mantendo o estado do otimizador, para validar o efeito da "infusão" no comportamento do modelo.

3. Principais Contribuições

Novo Paradigma de Ataque: Introduz o INFUSION, que não injeta exemplos explícitos, mas edita documentos existentes de forma sutil para alterar os parâmetros do modelo.
Validação em Visão Computacional (CIFAR-10): Demonstrou sucesso em 100% dos 2.000 experimentos, aumentando a probabilidade da classe alvo de 10% para 37% ao perturbar apenas 0,2% (100 documentos) do conjunto de treinamento.
Transferência entre Arquiteturas: Mostrou que um corpus envenenado criado em uma arquitetura (ex: ResNet) pode induzir comportamentos alvo em outra arquitetura (ex: CNN simples) treinada independentemente, sugerindo que um único corpus envenenado pode afetar múltiplos modelos.
Extensão para Linguagem: Aplicação preliminar em modelos de linguagem (GPT-Neo) e tarefas estruturadas (Cifras de César), mostrando que o método é mais eficaz em amplificar comportamentos latentes já aprendidos pelo modelo do que em criar comportamentos do zero.

4. Resultados Experimentais

A. Classificadores de Imagem (CIFAR-10)

Eficácia: O INFUSION superou significativamente a injeção de ruído aleatório e foi competitivo com a injeção de exemplos explícitos (inserir 100 cópias da imagem alvo).
Invisibilidade: As perturbações são visualmente imperceptíveis, mas causam grandes deslocamentos no comportamento do modelo.
Transferência Cross-Arquitetura: Perturbações calculadas em uma ResNet funcionaram em uma CNN simples (e vice-versa), embora com eficácia assimétrica (CNN $\to$ ResNet foi mais forte).

B. Transformers e Cifras de César

Estrutura Algébrica: Em tarefas de adição modular (Cifra de César), o INFUSION explorou a estrutura de representações circulares (Fourier) aprendida pelo modelo.
Fator de Sucesso: O ataque foi mais bem-sucedido quando o deslocamento alvo e o deslocamento de sondagem compartilhavam fatores comuns com o tamanho do alfabeto (ex: alfabeto de 26 letras), indicando que o método "acopla" aos modos de Fourier internos do modelo. Em alfabetos primos (29 letras), onde não há fatores comuns, o sucesso foi menor.

C. Modelos de Linguagem (GPT-Neo / TinyStories)

Desafios: A escalabilidade é difícil devido ao espaço discreto de tokens, aproximações de influência menos precisas em grande escala e orçamentos de envenenamento relativos menores.
Resultados: O método conseguiu produzir deslocamentos de probabilidade específicos (aumentar a chance de prever "gato" em vez de "abelha"), mas raramente conseguiu reverter completamente a preferência aprendida (rank flips).
Perturbações Interpretáveis: Em alguns casos, as perturbações discretas resultaram em substituições de tokens semanticamente relacionados (ex: remover "abelha" e inserir "colmeia"), mesmo sem orientação semântica explícita no gradiente.

5. Significado e Implicações

Segurança e Ameaças

Superfície de Ataque Crítica: O trabalho sugere que os dados de treinamento são uma superfície de ataque mais crítica do que se pensava. Pequenas edições sutis podem moldar o comportamento do modelo de forma sistemática.
Evasão de Defesas: Como as perturbações não precisam se assemelhar ao comportamento alvo (não há exemplos explícitos de "jailbreak" ou toxicidade), elas podem evadir filtros baseados em perplexidade ou classificadores de toxicidade que buscam padrões superficiais.
Persistência: Há a hipótese de que esses ataques podem persistir através de etapas de pós-treinamento (como RLHF), pois alteram a base paramétrica do modelo antes do alinhamento.

Defesa e Futuro

Necessidade de Monitoramento: A pesquisa destaca a importância da interpretabilidade de dados de treinamento para defensores. É necessário rastrear a proveniência dos dados e monitorar a concentração de influência.
Limitações Atuais: Atualmente, os ataques são mais eficazes em modelos menores ou em estágios iniciais de treinamento. A eficácia diminui com retreinamentos longos, pois o modelo pode "recuperar-se" das perturbações.
Direção Futura: O próximo passo é investigar se essas perturbações podem sobreviver a pipelines de treinamento completos e se o método escala para modelos de fronteira (frontier models).

Conclusão

O INFUSION demonstra que a atribuição de dados (originalmente uma ferramenta de interpretabilidade) pode ser repurposada como um primitivo de ataque. Ao permitir que adversários calculem modificações mínimas em dados existentes para induzir comportamentos específicos, o trabalho revela uma vulnerabilidade fundamental na dependência de grandes corpora de treinamento, exigindo novas estratégias de defesa focadas na integridade e monitoramento dos dados de pré-treinamento.

Infusion: Shaping Model Behavior by Editing Training Data via Influence Functions