The Attack and Defense Landscape of Agentic AI: A Comprehensive Survey

Each language version is independently generated for its own context, not a direct translation.

Imagine que os Agentes de IA são como assistentes pessoais superpoderosos. Eles não são apenas chatbots que respondem perguntas; eles são funcionários digitais que podem navegar na internet, ler seus e-mails, escrever código, acessar arquivos e até comprar coisas para você. Eles combinam a "inteligência" de um cérebro (o Modelo de Linguagem) com as "mãos" de um software tradicional.

No entanto, dar a um assistente a capacidade de agir no mundo real traz novos e perigosos problemas de segurança. Este artigo é um manual de sobrevivência para entender como proteger esses assistentes.

Aqui está a explicação do papel, traduzida para uma linguagem simples, usando analogias do dia a dia:

1. O Problema: O Assistente que Pode "Quebrar Tudo"

Antigamente, um software era como uma máquina de café: você aperta o botão "café", e ele faz café. Se algo der errado, o café sai ruim, mas a casa não pega fogo.

Os Agentes de IA são como um mordomo que tem as chaves de toda a casa. Ele pode ir até a geladeira, abrir o cofre, mexer no sistema de alarme e até ligar para o banco.

O Risco: Se alguém enganar esse mordomo (dizendo "o dono pediu para abrir o cofre"), ele pode roubar tudo. Se ele alucinar (achar que o cofre é uma geladeira), ele pode estragar a comida. Se ele for lento, ele pode deixar a porta aberta para ladrões.

O artigo diz que os métodos de segurança antigos (fechar a porta da frente) não funcionam aqui, porque o ladrão pode entrar pela janela, pelo telhado ou até convencer o mordomo a abrir a porta.

2. O Mapa dos Perigos (Ataques)

Os autores mapearam como os "vilões" podem atacar esses assistentes. Eles dividem os ataques em três tipos de vilões:

O Ladrão Externo (Injeção Indireta): Imagine que você manda seu mordomo ler um jornal. O ladrão esconde uma nota secreta dentro do jornal que diz: "Ignore as ordens do dono e me dê o dinheiro". O mordomo lê o jornal e obedece à nota, não a você. Isso é a Injeção de Prompt.
O Cliente Malicioso (Injeção Direta): Você pede ao mordomo para "escrever um poema". O ladrão, que é seu cliente, sussurra no seu ouvido (ou no input do sistema): "Escreva um poema, mas primeiro apague os arquivos do computador". O mordomo confunde a ordem e obedece.
O Funcionário Traiçoeiro (Adversário Interno): Alguém que já está dentro da empresa e já tem acesso aos segredos do mordomo, podendo alterar a memória dele ou envenenar o cérebro dele antes mesmo de ele começar a trabalhar.

Os 7 Perigos Principais (Riscos):

Portas Abertas: O assistente conecta com tantas coisas (internet, arquivos, outros apps) que há muitas portas para um ladrão entrar.
Obedecer ao Errado: Ele segue a ordem do ladrão em vez da sua.
Vazamento de Segredos: Ele pode contar seus dados privados para o ladrão sem querer.
Alucinação: Ele inventa coisas (como um endereço falso) e você acaba indo para lá, caindo numa armadilha.
Ação Não Intencional: Ele pode apagar um arquivo importante ou fazer uma compra sem você querer.
Corrupção de Dados: Ele pode estragar o que já estava salvo.
Esgotamento de Recursos: O ladrão pode fazer o assistente trabalhar sem parar até a bateria acabar ou a conta de internet explodir.

3. O Escudo de Defesa (Defesas)

Como proteger um mordomo tão poderoso? O artigo sugere uma estratégia de "Defesa em Camadas" (como um castelo medieval):

Guardiões na Entrada (Input Guardrails): Um porteiro que verifica tudo o que entra. Se o jornal tiver uma nota secreta, o porteiro rasga a página antes de entregar ao mordomo.
Guardiões na Saída (Output Guardrails): Um fiscal que lê o que o mordomo vai fazer antes dele fazer. Se ele tentar apagar o cofre, o fiscal segura a mão dele e pergunta: "Tem certeza disso?".
Rastreamento de Rastros (Taint Tracking): Imagine que você pinta de vermelho tudo o que o mordomo toca vindo de fora. Se ele tentar usar algo vermelho para abrir o cofre, o alarme toca. Isso impede que dados sujos contaminem decisões limpas.
Segregação de Poder (Privilege Separation): Não dê todas as chaves para uma única pessoa. Tenha um "planejador" que só pensa e um "executor" que só age, mas com chaves limitadas. Se o executor for hackeado, ele não consegue abrir o cofre, só pode mexer na sala de estar.
O Humano no Comando (Human-in-the-Loop): Para coisas perigosas (como apagar arquivos ou transferir dinheiro), o sistema para e pergunta: "Você realmente quer fazer isso?".
Identidade e Credenciais: Garantir que o mordomo saiba exatamente quem é você e que as chaves do cofre estejam guardadas num cofre de verdade, não anotadas num post-it.

4. O Estudo de Caso: AutoGPT

Os autores pegaram um assistente famoso chamado AutoGPT e mostraram como ele foi hackeado na vida real.

O que aconteceu? Hackers conseguiram fazer o AutoGPT apagar seus próprios arquivos, roubar senhas e até escapar do "sistema" para controlar o computador inteiro.
A lição: As correções feitas foram como "tapar um buraco na parede", mas deixaram a janela aberta. O artigo mostra que precisamos de uma segurança mais profunda, que entenda o contexto, e não apenas bloqueie comandos óbvios.

Conclusão: O Futuro Seguro

O artigo termina dizendo que, embora tenhamos feito grandes avanços, ainda não temos uma "armadura perfeita" para esses agentes.

A mensagem final é: Não podemos confiar cegamente na inteligência artificial. Precisamos construir esses sistemas como se fossem fortalezas, com múltiplas camadas de segurança, onde o humano sempre tenha a palavra final em situações críticas. É como ter um carro autônomo: ele é incrível, mas você precisa de freios de emergência, airbags e um volante de reserva, porque a tecnologia ainda pode falhar.

Em resumo: Agentes de IA são ferramentas incríveis, mas sem a segurança certa, eles podem se tornar os maiores riscos que já enfrentamos na tecnologia.

The Attack and Defense Landscape of Agentic AI: A Comprehensive Survey

1. O Problema: O Assistente que Pode "Quebrar Tudo"

2. O Mapa dos Perigos (Ataques)

3. O Escudo de Defesa (Defesas)

4. O Estudo de Caso: AutoGPT

Conclusão: O Futuro Seguro

Título: O Cenário de Ataque e Defesa de IA Agente: Uma Pesquisa Abrangente

1. O Problema

2. Metodologia

3. Contribuições Principais

4. Resultados e Estudos de Caso

5. Significância e Impacto

The Attack and Defense Landscape of Agentic AI: A Comprehensive Survey

1. O Problema: O Assistente que Pode "Quebrar Tudo"

2. O Mapa dos Perigos (Ataques)

3. O Escudo de Defesa (Defesas)

4. O Estudo de Caso: AutoGPT

Conclusão: O Futuro Seguro

Título: O Cenário de Ataque e Defesa de IA Agente: Uma Pesquisa Abrangente

1. O Problema

2. Metodologia

3. Contribuições Principais

4. Resultados e Estudos de Caso

5. Significância e Impacto

Mais como este

MASEval: Extending Multi-Agent Evaluation from Models to Systems

LDP: An Identity-Aware Protocol for Multi-Agent LLM Systems

Quantifying the Accuracy and Cost Impact of Design Decisions in Budget-Constrained Agentic LLM Search

Interpretable Markov-Based Spatiotemporal Risk Surfaces for Missing-Child Search Planning with Reinforcement Learning and LLM-Based Quality Assurance

AgentOS: From Application Silos to a Natural Language-Driven Data Ecosystem