Comparing AI Agents to Cybersecurity Professionals in Real-World Penetration Testing

Este estudo apresenta a primeira avaliação abrangente de agentes de IA contra profissionais de cibersegurança em um ambiente empresarial real, demonstrando que o novo framework ARTEMIS superou a maioria dos participantes humanos na descoberta de vulnerabilidades com maior eficiência de custos, embora ainda enfrente desafios relacionados a falsos positivos e tarefas baseadas em interface gráfica.

Justin W. Lin, Eliot Krzysztof Jones, Donovan Julian Jasper, Ethan Jun-shen Ho, Anna Wu, Arnold Tianyi Yang, Neil Perry, Andy Zou, Matt Fredrikson, J. Zico Kolter, Percy Liang, Dan Boneh, Daniel E. Ho

Publicado 2026-03-04
📖 5 min de leitura🧠 Leitura aprofundada

Each language version is independently generated for its own context, not a direct translation.

Imagine que você tem um castelo gigante (a rede de computadores de uma universidade) com 8.000 cômodos, segredos escondidos e portas trancadas. O objetivo deste estudo foi uma espécie de "corrida de detetives": colocar 10 especialistas humanos em segurança contra 6 agentes de Inteligência Artificial (IA) para ver quem consegue encontrar mais falhas de segurança (buracos na cerca) nesse castelo.

Aqui está o resumo da história, traduzido para uma linguagem simples e com algumas analogias divertidas:

1. O Cenário: A Grande Prova de Fogo

A maioria dos testes de IA em segurança acontece em "simuladores" ou jogos de computador (como um Capture the Flag). É como treinar um jogador de futebol em um campo de grama sintética. Mas a vida real é diferente: o vento muda, a grama é irregular e o adversário é imprevisível.

Neste estudo, os pesquisadores decidiram fazer o teste no campo real. Eles deram acesso a uma rede universitária real, cheia de sistemas complexos, e deixaram humanos e IAs tentarem invadir (de forma ética e controlada) para encontrar vulnerabilidades.

2. Os Jogadores

  • Os Humanos (P1 a P10): Eram profissionais experientes, com certificações de elite. Eles usaram ferramentas automáticas, mas também muita intuição, criatividade e "dedução".
  • As IAs Antigas (Codex, CyAgent): Eram como robôs que seguiam um roteiro rígido. Eles tentaram, mas acabaram se perdendo ou desistindo cedo, como um turista que olha o mapa, vê que está complicado e volta para o hotel.
  • O Novo Herói (ARTEMIS): Os pesquisadores criaram uma nova IA chamada ARTEMIS. Pense nela não como um único robô, mas como um general de exército.
    • Ela tem um "chefe" (Supervisor) que planeja a estratégia.
    • Ela pode criar "soldados" (sub-agentes) infinitos para atacar vários lugares ao mesmo tempo.
    • Ela tem um "inspetor" (Triager) que verifica se o que foi encontrado é realmente um problema ou apenas um falso alarme.

3. O Resultado: Quem Ganhou?

A competição foi acirrada!

  • O Humano Campeão: Encontrou 13 falhas.
  • A IA ARTEMIS: Ficou em segundo lugar geral, encontrando 9 falhas válidas. Ela superou 9 dos 10 humanos!
  • As IAs Antigas: Foram superadas pela maioria dos humanos.

A Grande Lição: A IA ARTEMIS mostrou que, quando bem organizada, ela é tão boa quanto os melhores especialistas humanos, mas com uma vantagem absurda: custo.

4. A Analogia do Preço: O Carro de Luxo vs. O Trem de Passageiros

Aqui está a parte mais interessante para o bolso:

  • Um pentester humano (o especialista) custa cerca de US$ 60 por hora. É como alugar um carro de luxo com motorista.
  • A IA ARTEMIS (configuração mais barata) custou US$ 18 por hora. É como pegar um trem de passageiros.

A IA conseguiu fazer um trabalho de nível "elite" gastando apenas um quarto do preço de um humano. Isso significa que, no futuro, qualquer empresa poderá ter um "exército de detetives" rodando 24 horas por dia por uma fração do custo atual.

5. Onde a IA Brilha e Onde Ela Cai

Pontos Fortes da IA (O Superpoder):

  • Força Bruta e Paralelismo: Enquanto um humano olha para uma porta, anota, e depois vai para a próxima, a IA ARTEMIS abre 8 portas ao mesmo tempo em diferentes cômodos. Ela não cansa, não dorme e não se distrai.
  • Sistematização: Ela é excelente em varrer tudo, como um aspirador de pó robótico que não deixa nenhuma poeira (falha) para trás.

Pontos Fracos da IA (O Calcanhar de Aquiles):

  • O "Mundo Visual": A IA ainda tem dificuldade com interfaces gráficas (telas, janelas, botões). Se um hacker precisa clicar em um botão estranho em uma tela antiga para entrar, a IA pode travar. Humanos, com seus olhos e mouse, resolvem isso facilmente.
  • Falsos Alarmes: A IA às vezes grita "Fogo!" quando é apenas fumaça de um cigarro. Ela precisa de mais treino para não confundir coisas normais com perigos.
  • Falta de "Pulo do Gato": Às vezes, a IA segue o roteiro e perde uma oportunidade brilhante que exigiria um pensamento lateral (fora da caixa) que um humano experiente teria.

6. Conclusão: O Futuro da Segurança

Este estudo não diz que as IAs vão substituir todos os humanos amanhã. Em vez disso, mostra que elas são ferramentas poderosas que podem trabalhar lado a lado com os humanos.

  • Para os Defensores (Bons): Teremos IAs baratas e rápidas varrendo redes o tempo todo, encontrando buracos antes que os bandidos os encontrem.
  • Para os Ataques (Maus): Bandidos também podem usar essas IAs para atacar mais rápido e barato.

Resumo final: A IA ARTEMIS provou que, com a arquitetura certa, uma máquina pode pensar como um time de detetives, encontrar os segredos mais complexos e fazer isso por um preço que qualquer um pode pagar. O futuro da segurança cibernética não é "Humano vs. Máquina", mas sim "Humano + Máquina" contra os vilões.

Receba artigos como este na sua caixa de entrada

Digests diários ou semanais personalizados de acordo com seus interesses. Gists ou resumos técnicos, no seu idioma.

Experimentar Digest →