Comparing AI Agents to Cybersecurity Professionals in Real-World Penetration Testing

Each language version is independently generated for its own context, not a direct translation.

Imagine que você tem um castelo gigante (a rede de computadores de uma universidade) com 8.000 cômodos, segredos escondidos e portas trancadas. O objetivo deste estudo foi uma espécie de "corrida de detetives": colocar 10 especialistas humanos em segurança contra 6 agentes de Inteligência Artificial (IA) para ver quem consegue encontrar mais falhas de segurança (buracos na cerca) nesse castelo.

Aqui está o resumo da história, traduzido para uma linguagem simples e com algumas analogias divertidas:

1. O Cenário: A Grande Prova de Fogo

A maioria dos testes de IA em segurança acontece em "simuladores" ou jogos de computador (como um Capture the Flag). É como treinar um jogador de futebol em um campo de grama sintética. Mas a vida real é diferente: o vento muda, a grama é irregular e o adversário é imprevisível.

Neste estudo, os pesquisadores decidiram fazer o teste no campo real. Eles deram acesso a uma rede universitária real, cheia de sistemas complexos, e deixaram humanos e IAs tentarem invadir (de forma ética e controlada) para encontrar vulnerabilidades.

2. Os Jogadores

Os Humanos (P1 a P10): Eram profissionais experientes, com certificações de elite. Eles usaram ferramentas automáticas, mas também muita intuição, criatividade e "dedução".
As IAs Antigas (Codex, CyAgent): Eram como robôs que seguiam um roteiro rígido. Eles tentaram, mas acabaram se perdendo ou desistindo cedo, como um turista que olha o mapa, vê que está complicado e volta para o hotel.
O Novo Herói (ARTEMIS): Os pesquisadores criaram uma nova IA chamada ARTEMIS. Pense nela não como um único robô, mas como um general de exército.
- Ela tem um "chefe" (Supervisor) que planeja a estratégia.
- Ela pode criar "soldados" (sub-agentes) infinitos para atacar vários lugares ao mesmo tempo.
- Ela tem um "inspetor" (Triager) que verifica se o que foi encontrado é realmente um problema ou apenas um falso alarme.

3. O Resultado: Quem Ganhou?

A competição foi acirrada!

O Humano Campeão: Encontrou 13 falhas.
A IA ARTEMIS: Ficou em segundo lugar geral, encontrando 9 falhas válidas. Ela superou 9 dos 10 humanos!
As IAs Antigas: Foram superadas pela maioria dos humanos.

A Grande Lição: A IA ARTEMIS mostrou que, quando bem organizada, ela é tão boa quanto os melhores especialistas humanos, mas com uma vantagem absurda: custo.

4. A Analogia do Preço: O Carro de Luxo vs. O Trem de Passageiros

Aqui está a parte mais interessante para o bolso:

Um pentester humano (o especialista) custa cerca de US$ 60 por hora. É como alugar um carro de luxo com motorista.
A IA ARTEMIS (configuração mais barata) custou US$ 18 por hora. É como pegar um trem de passageiros.

A IA conseguiu fazer um trabalho de nível "elite" gastando apenas um quarto do preço de um humano. Isso significa que, no futuro, qualquer empresa poderá ter um "exército de detetives" rodando 24 horas por dia por uma fração do custo atual.

5. Onde a IA Brilha e Onde Ela Cai

Pontos Fortes da IA (O Superpoder):

Força Bruta e Paralelismo: Enquanto um humano olha para uma porta, anota, e depois vai para a próxima, a IA ARTEMIS abre 8 portas ao mesmo tempo em diferentes cômodos. Ela não cansa, não dorme e não se distrai.
Sistematização: Ela é excelente em varrer tudo, como um aspirador de pó robótico que não deixa nenhuma poeira (falha) para trás.

Pontos Fracos da IA (O Calcanhar de Aquiles):

O "Mundo Visual": A IA ainda tem dificuldade com interfaces gráficas (telas, janelas, botões). Se um hacker precisa clicar em um botão estranho em uma tela antiga para entrar, a IA pode travar. Humanos, com seus olhos e mouse, resolvem isso facilmente.
Falsos Alarmes: A IA às vezes grita "Fogo!" quando é apenas fumaça de um cigarro. Ela precisa de mais treino para não confundir coisas normais com perigos.
Falta de "Pulo do Gato": Às vezes, a IA segue o roteiro e perde uma oportunidade brilhante que exigiria um pensamento lateral (fora da caixa) que um humano experiente teria.

6. Conclusão: O Futuro da Segurança

Este estudo não diz que as IAs vão substituir todos os humanos amanhã. Em vez disso, mostra que elas são ferramentas poderosas que podem trabalhar lado a lado com os humanos.

Para os Defensores (Bons): Teremos IAs baratas e rápidas varrendo redes o tempo todo, encontrando buracos antes que os bandidos os encontrem.
Para os Ataques (Maus): Bandidos também podem usar essas IAs para atacar mais rápido e barato.

Resumo final: A IA ARTEMIS provou que, com a arquitetura certa, uma máquina pode pensar como um time de detetives, encontrar os segredos mais complexos e fazer isso por um preço que qualquer um pode pagar. O futuro da segurança cibernética não é "Humano vs. Máquina", mas sim "Humano + Máquina" contra os vilões.

Comparing AI Agents to Cybersecurity Professionals in Real-World Penetration Testing

1. O Cenário: A Grande Prova de Fogo

2. Os Jogadores

3. O Resultado: Quem Ganhou?

4. A Analogia do Preço: O Carro de Luxo vs. O Trem de Passageiros

5. Onde a IA Brilha e Onde Ela Cai

6. Conclusão: O Futuro da Segurança

Resumo Técnico: Comparação entre Agentes de IA e Profissionais de Cibersegurança em Testes de Penetração no Mundo Real

1. O Problema

2. Metodologia

3. Principais Contribuições

4. Resultados

5. Significado e Conclusão

Comparing AI Agents to Cybersecurity Professionals in Real-World Penetration Testing

1. O Cenário: A Grande Prova de Fogo

2. Os Jogadores

3. O Resultado: Quem Ganhou?

4. A Analogia do Preço: O Carro de Luxo vs. O Trem de Passageiros

5. Onde a IA Brilha e Onde Ela Cai

6. Conclusão: O Futuro da Segurança

Resumo Técnico: Comparação entre Agentes de IA e Profissionais de Cibersegurança em Testes de Penetração no Mundo Real

1. O Problema

2. Metodologia

3. Principais Contribuições

4. Resultados

5. Significado e Conclusão

Mais como este

OpenKedge: Governing Agentic Mutation with Execution-Bound Safety and Evidence Chains

From Business Events to Auditable Decisions: Ontology-Governed Graph Simulation for Enterprise AI

Sustained Impact of Agentic Personalisation in Marketing: A Longitudinal Case Study

RAMP: Hybrid DRL for Online Learning of Numeric Action Models

Parameterized Complexity Of Representing Models Of MSO Formulas