Measuring AI Agents' Progress on Multi-Step Cyber Attack Scenarios

Each language version is independently generated for its own context, not a direct translation.

Imagine que você tem um grupo de robôs superinteligentes (as IAs) e quer saber o quão perigosos eles podem ser se deixados sozinhos para tentar invadir um sistema de computador complexo. É exatamente isso que este estudo fez.

Em vez de dar aos robôs um quebra-cabeça simples de 5 peças (como os testes antigos de hacking), os pesquisadores construíram dois "parques de diversões digitais" (chamados de cyber ranges) extremamente complexos, onde os robôs tinham que resolver uma série de problemas interligados, um após o outro, para chegar ao objetivo final.

Aqui está o resumo do que aconteceu, usando analogias do dia a dia:

1. Os Dois Cenários de Teste

Os pesquisadores criaram dois cenários diferentes para testar os robôs:

O Cenário "Os Últimos" (A Empresa): Imagine um prédio de escritórios gigante com 32 salas fechadas. O objetivo do robô é entrar, pegar chaves de cada sala, abrir portas, roubar um cofre no porão e sair com os dados. É como um jogo de "pista e pegada" muito longo.
O Cenário "Torre de Resfriamento" (A Usina): Imagine uma usina de energia real. O objetivo é mais difícil: o robô precisa entrar no sistema de controle para desligar as máquinas e causar uma pane física. É como tentar hackear um trem-bala enquanto ele está em movimento.

2. O Que Eles Descobriram? (As Duas Grandes Tendências)

Os pesquisadores testaram 7 modelos de IA diferentes, lançados ao longo de 18 meses (de agosto de 2024 a fevereiro de 2026). Eles descobriram duas coisas principais:

A. "Mais dinheiro na conta = Mais sucesso" (Escala Log-Linear)

Pense em cada IA como um detetive. Se você der a esse detetive apenas 10 minutos para investigar, ele pode achar apenas uma pista. Mas, se você der a ele 100 horas para pensar, ler documentos e tentar várias estratégias, ele consegue resolver muito mais do que apenas 10 vezes mais problemas.

A descoberta: Quanto mais "tempo de processamento" (chamado de tokens) a IA gasta tentando resolver o problema, mais longe ela consegue chegar. Não há um "teto" onde ela para de melhorar; se você aumentar o orçamento de tempo, ela continua ficando melhor.
O perigo: Isso significa que qualquer pessoa, mesmo sem ser um hacker genial, pode simplesmente "comprar" mais poder de computação para fazer a IA tentar milhares de vezes até conseguir invadir.

B. "Cada nova geração é mais esperta"

Comparando os robôs mais antigos com os mais novos (como comparar um carro de 2024 com um de 2026):

No Cenário da Empresa: Os robôs mais novos estão voando. O modelo mais antigo (GPT-4o) conseguiu completar em média apenas 1,7 dos 32 passos. O modelo mais novo (Opus 4.6) completou em média 9,8 passos apenas com o orçamento padrão.
O recorde: A melhor tentativa do robô mais novo conseguiu completar 22 dos 32 passos. Isso é como se um humano expert levasse 14 horas para fazer o trabalho, e o robô fizesse o equivalente a 6 horas de trabalho humano, mas sozinho.
No Cenário da Usina: Aqui, os robôs ainda estão tropeçando. Eles conseguem dar apenas 1 ou 2 passos de 7. É muito difícil para eles entenderem como controlar máquinas físicas complexas.

3. Onde Eles Travam? (Os Obstáculos)

Mesmo os robôs mais inteligentes têm pontos fracos. No cenário da empresa, eles conseguiam entrar e explorar, mas travavam em "portas de vidro blindado" que exigiam conhecimentos muito específicos:

Decifrar códigos complexos: Como quebrar um cofre que usa criptografia avançada.
Engenharia Reversa: Como entender o funcionamento interno de um programa sem ter o manual.
Criação de Malware: Como criar um vírus novo para se esconder.

Quando chegavam nesses pontos, eles muitas vezes ficavam confusos ou desistiam.

4. O Que Isso Significa para o Futuro?

Não é um filme de Hollywood (ainda): As IAs ainda não conseguem invadir sistemas do zero até o fim sozinhas em todos os cenários. Elas ainda precisam de ajuda humana para os passos mais difíceis.
Mas o perigo é real: A barreira de entrada está caindo. Antes, só um hacker muito esperto conseguia invadir uma rede corporativa. Agora, um "hacker de nível médio" pode usar uma IA moderna, dar a ela muito tempo de processamento, e ela consegue fazer grande parte do trabalho sujo sozinha.
Aceleração: A velocidade com que essas IAs estão melhorando é assustadora. Em apenas dois meses, entre dois modelos lançados, a capacidade de invadir aumentou em mais de 40%.

Resumo em uma frase:

As IAs estão ficando incrivelmente boas em invadir redes de computadores passo a passo, especialmente se tivermos tempo e dinheiro para deixá-las pensar bastante, mas elas ainda têm dificuldade com tarefas que exigem criatividade humana profunda e controle de sistemas físicos complexos.

A lição principal: A segurança cibernética precisa evoluir rápido, porque a "ferramenta" que os criminosos podem usar para invadir está ficando mais poderosa a cada mês, e não precisa de um gênio para operá-la.

Measuring AI Agents' Progress on Multi-Step Cyber Attack Scenarios

1. Os Dois Cenários de Teste

2. O Que Eles Descobriram? (As Duas Grandes Tendências)

A. "Mais dinheiro na conta = Mais sucesso" (Escala Log-Linear)

B. "Cada nova geração é mais esperta"

3. Onde Eles Travam? (Os Obstáculos)

4. O Que Isso Significa para o Futuro?

Resumo em uma frase:

1. O Problema

2. Metodologia

Ambientes de Teste

Configuração Experimental

3. Principais Contribuições

4. Resultados Chave

Tendência 1: Escalonamento Log-Linear com Computação de Inferência

Tendência 2: Melhoria Geracional Consistente

Desempenho em Ambientes Diferentes

Gargalos Identificados

5. Significado e Implicações

Conclusão

Measuring AI Agents' Progress on Multi-Step Cyber Attack Scenarios

1. Os Dois Cenários de Teste

2. O Que Eles Descobriram? (As Duas Grandes Tendências)

A. "Mais dinheiro na conta = Mais sucesso" (Escala Log-Linear)

B. "Cada nova geração é mais esperta"

3. Onde Eles Travam? (Os Obstáculos)

4. O Que Isso Significa para o Futuro?

Resumo em uma frase:

1. O Problema

2. Metodologia

Ambientes de Teste

Configuração Experimental

3. Principais Contribuições

4. Resultados Chave

Tendência 1: Escalonamento Log-Linear com Computação de Inferência

Tendência 2: Melhoria Geracional Consistente

Desempenho em Ambientes Diferentes

Gargalos Identificados

5. Significado e Implicações

Conclusão

Mais como este

DIVE: Scaling Diversity in Agentic Task Synthesis for Generalizable Tool Use

A Survey of Reasoning in Autonomous Driving Systems: Open Challenges and Emerging Paradigms

PACED: Distillation at the Frontier of Student Competence

Reversible Lifelong Model Editing via Semantic Routing-Based LoRA

Mind the Sim2Real Gap in User Simulation for Agentic Tasks