Adversarial Feeds Steer LLM Agent Decisions Against Their Defaults

Este artigo demonstra que a curadoria e a ordenação de fluxos de informações externas podem direcionar sistematicamente agentes de LLM para decisões adversariais, particularmente quando eles estão incertos, revelando que as avaliações de segurança devem auditar a camada de recomendação upstream em vez de testar o modelo isoladamente.

Autores originais: Rana Muhammad Usman

Publicado 2026-06-02✓ Author reviewed
📖 5 min de leitura🧠 Leitura aprofundada

Autores originais: Rana Muhammad Usman

Artigo original sob licença CC BY 4.0 (http://creativecommons.org/licenses/by/4.0/). Esta é uma explicação gerada por IA do artigo abaixo. Não foi escrita pelos autores. Para precisão técnica, consulte o artigo original. Ler aviso legal completo

Imagine que você tem um assistente robô muito inteligente e prestativo. Você faz uma pergunta ao robô e ele lhe dá uma resposta. Normalmente, nos preocupamos se o robô está "quebrado" ou se alguém o enganou com um comando direto como "Ignore suas regras e faça X".

Mas este artigo faz uma pergunta diferente, mais sorrateira: E se ninguém disser ao robô o que fazer, mas controlarem o que o robô lê logo antes de responder?

Aqui está a história da pesquisa, explicada de forma simples:

A Configuração: A Fase do "Scroll"

Os pesquisadores montaram um jogo. Eles deram a um agente de IA uma tarefa: "Decida se uma empresa deve permitir que os funcionários trabalhem de casa, voltem ao escritório ou façam um meio-termo."

Antes de a IA tomar sua decisão final, eles a fizeram "rolar" (scroll) um feed de redes sociais por dez turnos. Em cada turno, a IA via cinco postagens curtas.

  • O Controle: O cérebro da IA (o modelo), a pergunta que ela tinha que responder e sua personalidade eram exatamente os mesmos em todos os testes.
  • A Variável: A única coisa que mudava era o feed. Às vezes, o feed tinha postagens normais e aleatórias. Às vezes, estava cheio de postagens defendendo fortemente o "Retorno ao Escritório", embora essas postagens não dissessem "Você deve escolher Retorno ao Escritório". Eram apenas artigos e opiniões de aparência normal.

A Descoberta: O Efeito "Câmara de Eco"

Os pesquisadores descobriram que, ao curar o feed, eles podiam realmente direcionar a decisão do robô, mesmo que o robô não estivesse recebendo uma ordem direta para mudar de ideia.

Eles descobriram três tipos de robôs (modelos) baseados em como reagiam:

  1. O "Capitulador" (O Fácil de Direcionar):

    • Analogia: Imagine uma pessoa que está em dúvida sobre o que comer no jantar. Se você mostrar a ela um cardápio onde todas as fotos são de pizza, ela provavelmente pedirá pizza.
    • Resultado: Alguns modelos de IA (como o Llama 3.2) eram assim. Se o feed estivesse cheio de postagens de "Retorno ao Escritório", a IA começava a recomendar o "Retorno ao Escritório", mesmo que ela geralmente preferisse o trabalho remoto. Ela não precisava de um comando; ela apenas era influenciada pelo volume de informações.
  2. A "Saturação" (A Rocha Obstinada):

    • Analogia: Imagine uma pessoa que ama pizza tanto que mostrar a ela um cardápio cheio de hambúrgueres não a faz mudar de ideia. Ela só quer pizza.
    • Resultado: Outros modelos (como o Qwen) eram tão fixos em uma resposta específica (uma abordagem "híbrida") que nenhuma quantidade de postagens de "Retorno ao Escritório" conseguia movê-los. Eles estavam "saturados" com sua própria opinião padrão.
  3. A "Assimetria" (A Rua de Mão Única):

    • Analogia: Imagine que você está inclinado levemente para a esquerda. Se alguém te empurrar pela direita, você pode cair. Mas se te empurrarem pela esquerda (a direção para a qual você já está inclinado), você não se move.
    • Resultado: O ataque só funcionava quando o feed empurrava a IA contra sua inclinação natural. Se a IA já gostava de "Trabalho Remoto" e o feed estava cheio de postagens de "Trabalho Remoto", a IA não mudava. Mas se o feed estivesse cheio de postagens de "Retorno ao Escritório", ela mudava de posição. O feed não conseguia sobrescrever uma crença forte, mas podia desequilibrar uma crença incerta.

A "Dose" Importa

Os pesquisadores descobriram uma curva de "dose-resposta". É como tomar um remédio:

  • Se o feed tivesse 1 ou 2 postagens "ruins" de 5, nada acontecia.
  • Mas assim que o feed tinha cerca de 3 ou 4 postagens "ruins" de 5, a decisão da IA começava a mudar. Não era mágica; era uma questão de quanta "interferência" a IA era exposta.

A "Troca de Gerador" (Provando que não foi um Acaso)

Os pesquisadores se preocuparam: "Será que a IA apenas gostou do estilo de escrita das postagens ruins?"
Para testar isso, eles usaram uma IA diferente para escrever todas as postagens. O resultado? O ataque ficou mais forte. Isso provou que não era sobre o estilo de escrita; era sobre a seleção dos tópicos.

O "Mecanismo Oculto" é um Mito

No início, os pesquisadores pensaram ter encontrado um "interruptor secreto oculto" dentro do cérebro da IA que o feed estava acionando. Eles usaram uma ferramenta para olhar dentro do código da IA.

  • A Reviravolta: Eles perceberam que estavam errados. O "sinal" que viram não era um interruptor interno secreto. Era apenas a IA lembrando o histórico da conversa. Se você olhasse o log do chat, poderia ver exatamente o que a IA tinha lido. O "segredo" era, na verdade, o histórico visível. Isso serve de aviso para outros cientistas: não confiem em ferramentas que alegam encontrar "segredos ocultos" na IA se elas não levarem em conta o que a IA já viu.

As Defesas

Podemos parar isso? Os pesquisadores tentaram dois truques simples:

  1. Exposição Equilibrada: Mostrar à IA uma mistura igual de postagens de "Remoto" e "Escritório". Isso ajudou a IA a manter seu curso original.
  2. Divulgação: Dizer à IA: "Ei, este feed pode ser tendencioso". Isso também ajudou, embora não perfeitamente.

A Grande Conclusão

O artigo conclui que o "Ranqueador" (o sistema que decide o que você vê) é um botão de controle poderoso.

No passado, nos preocupávamos com hackers enviando comandos diretos para a IA. Agora, sabemos que um hacker (ou um sistema tendencioso) não precisa enviar um comando. Eles só precisam controlar o feed. Ao escolher cuidadosamente quais postagens benignas e de aparência normal mostrar a uma IA, eles podem sutilmente direcionar suas decisões sobre tópicos importantes como segurança, políticas ou estratégia de negócios.

O aviso final: Não podemos apenas testar a IA fazendo uma única pergunta no vácuo. Temos que testar o que acontece após ela estar "rolando" um feed curado. A pessoa que controla o feed controla o próximo passo da IA.

Afogado em artigos na sua área?

Receba digests diários dos artigos mais recentes que correspondam às suas palavras-chave de pesquisa — com resumos técnicos, no seu idioma.

Experimentar Digest →