Measuring AI Agents' Progress on Multi-Step Cyber Attack Scenarios

Each language version is independently generated for its own context, not a direct translation.

Hier ist eine einfache Erklärung des Papers, als würde man sie einem Freund beim Kaffee erzählen, mit ein paar bildhaften Vergleichen.

Das große Experiment: Können KI-Roboter Hacker sein?

Stell dir vor, du hast einen sehr intelligenten, aber noch etwas unerfahrenen KI-Roboter. Die Forscher wollten herausfinden: Kann dieser Roboter allein, ohne menschliche Hilfe, einen komplexen Cyber-Angriff durchführen? Und zwar nicht nur einen kleinen Trick, sondern eine ganze Kette von Schritten, wie ein echter Hacker.

Um das zu testen, haben sie zwei digitale Spielplätze (sogenannte "Cyber Ranges") gebaut:

Der Büro-Komplex ("The Last Ones"): Ein riesiges, virtuelles Firmennetzwerk mit 32 Stationen. Das Ziel: An die sensiblen Daten im Keller kommen.
Das Kraftwerk ("Cooling Tower"): Ein simuliertes Industrie-System mit 7 Stationen. Das Ziel: Den Kühlturm eines Kraftwerks lahmlegen.

Was haben sie herausgefunden?

Die Forscher haben sieben verschiedene KI-Modelle getestet (die zwischen August 2024 und Februar 2026 veröffentlicht wurden) und ihnen unterschiedlich viel "Gedächtnis" und "Rechenzeit" (gemessen in Tokens) gegeben.

Hier sind die zwei wichtigsten Erkenntnisse, einfach erklärt:

1. Mehr Zeit = Bessere Ergebnisse (Der "Geduld"-Effekt)

Stell dir vor, du hast einen sehr klugen Schüler, der eine schwierige Matheaufgabe lösen soll. Wenn du ihm nur 5 Minuten Zeit gibst, schafft er vielleicht nur den ersten Schritt. Wenn du ihm aber 50 Minuten gibst, kann er nachdenken, Fehler korrigieren und weiterkommen.

Die Erkenntnis: Die KI wird nicht schlauer, wenn man ihr mehr Zeit gibt, aber sie wird erfolgreicher.
Der Vergleich: Wenn man den KI-Roboter von "kurzer Geduld" (10 Millionen Rechenschritte) auf "lange Geduld" (100 Millionen Rechenschritte) umstellt, kann er bis zu 59 % mehr Schritte im Angriffsketten-Spiel schaffen.
Wichtig: Das braucht keinen genialen Hacker. Jeder kann einfach mehr "Rechenzeit" kaufen, und die KI wird besser. Es gibt keine Obergrenze: Je mehr Zeit man ihr gibt, desto weiter kommt sie, ohne dass sie plötzlich "stumpft".

2. Jüngere Modelle sind einfach besser (Der "Schulabschluss"-Effekt)

Die Forscher haben Modelle aus verschiedenen Jahren verglichen.

Das alte Modell (August 2024): Hatte im Durchschnitt nur 1,7 Schritte geschafft. Es war wie ein Anfänger, der schnell aufgab.
Das neue Modell (Februar 2026): Hatte im Durchschnitt 9,8 Schritte geschafft.
Der Rekord: Der beste Lauf des neuen Modells schaffte 22 von 32 Schritten.
- Zum Vergleich: Ein echter menschlicher Hacker-Experte würde für diesen Job etwa 14 Stunden brauchen. Der KI-Roboter hat in seinem besten Versuch etwa 6 Stunden Arbeit in nur 10 Stunden echter Zeit erledigt.

Aber es gibt noch Hürden

Obwohl die KI im Büro-Komplex ("The Last Ones") beeindruckend war, gab es zwei Probleme:

Die "Spitzel"-Hürde: Bei den letzten Schritten (z. B. Entschlüsseln von Passwörtern oder Reverse Engineering) gab es eine massive Wand. Die KI konnte hier oft nicht weiter, weil sie noch nicht genug "Spezialwissen" hat. Es ist, als würde ein Generalist versuchen, eine spezielle Herzoperation durchzuführen – er kennt die Grundlagen, aber die feinen Details fehlen ihm noch.
Das Kraftwerk ("Cooling Tower"): Hier war die KI noch viel schwächer. Sie schaffte im Durchschnitt nur 1,4 von 7 Schritten.
- Warum? Das Kraftwerk ist chaotischer. Die KI wurde oft abgelenkt.
- Die Überraschung: Die KI hat manchmal Wege gefunden, die die Menschen gar nicht geplant hatten! Statt den geplanten Weg über eine Webseite zu gehen, hat sie direkt mit dem Maschinen-Protokoll gesprochen und durch "Raten" (Brute-Force) einen Fehler im System gefunden. Das war clever, aber auch unvorhersehbar.

Was bedeutet das für uns?

Die Gefahr wächst: KI wird schneller besser im Hacken. Wenn man ihr genug Zeit und Rechenleistung gibt, kann sie komplexe Angriffe fast so gut wie ein Mensch starten, aber viel schneller und ohne zu schlafen.
Kein Genie nötig: Man muss kein Computer-Experte sein, um diese KI zu nutzen. Man muss ihr nur genug "Geld" (Rechenzeit) geben, und sie erledigt die Arbeit.
Noch nicht perfekt: Die KI ist noch nicht so gut, dass sie alles allein schafft. Sie braucht noch Hilfe bei den schwierigsten Teilen (wie spezielle Verschlüsselungen knacken). Aber sie wird jeden Monat besser.

Fazit in einem Satz

Die KI entwickelt sich rasant weiter und kann heute schon komplexe Cyber-Angriffe zu einem großen Teil allein durchführen – je mehr Zeit man ihr gibt, desto gefährlicher wird sie, auch wenn sie bei den allerletzten, schwierigsten Schritten noch stolpert.

Die große Warnung: Wir müssen uns jetzt Sorgen machen, wie wir uns gegen diese sich schnell verbessernden digitalen Angreifer schützen, bevor sie eines Tages alles perfekt können.

Measuring AI Agents' Progress on Multi-Step Cyber Attack Scenarios

Das große Experiment: Können KI-Roboter Hacker sein?

Was haben sie herausgefunden?

1. Mehr Zeit = Bessere Ergebnisse (Der "Geduld"-Effekt)

2. Jüngere Modelle sind einfach besser (Der "Schulabschluss"-Effekt)

Aber es gibt noch Hürden

Was bedeutet das für uns?

Fazit in einem Satz

1. Problemstellung und Motivation

2. Methodik

3. Wichtige Beiträge

4. Ergebnisse

5. Bedeutung und Implikationen

Measuring AI Agents' Progress on Multi-Step Cyber Attack Scenarios

Das große Experiment: Können KI-Roboter Hacker sein?

Was haben sie herausgefunden?

1. Mehr Zeit = Bessere Ergebnisse (Der "Geduld"-Effekt)

2. Jüngere Modelle sind einfach besser (Der "Schulabschluss"-Effekt)

Aber es gibt noch Hürden

Was bedeutet das für uns?

Fazit in einem Satz

1. Problemstellung und Motivation

2. Methodik

3. Wichtige Beiträge

4. Ergebnisse

5. Bedeutung und Implikationen

Mehr davon

DIVE: Scaling Diversity in Agentic Task Synthesis for Generalizable Tool Use

A Survey of Reasoning in Autonomous Driving Systems: Open Challenges and Emerging Paradigms

PACED: Distillation at the Frontier of Student Competence

Reversible Lifelong Model Editing via Semantic Routing-Based LoRA

Mind the Sim2Real Gap in User Simulation for Agentic Tasks