Measuring AI Agents' Progress on Multi-Step Cyber Attack Scenarios
O artigo avalia a evolução de modelos de IA autônomos em cenários de ciberataques multi-etapa, revelando que o desempenho escala log-linearmente com o poder de computação e melhora significativamente entre gerações de modelos, permitindo que os mais recentes completem uma fração substancial de ataques complexos que antes exigiriam horas de um especialista humano.