Comparing AI Agents to Cybersecurity Professionals in Real-World Penetration Testing

Diese Studie stellt die erste umfassende Evaluation von KI-Agenten gegenüber menschlichen Cybersicherheitsexperten in einer realen Unternehmensumgebung vor und zeigt, dass der neu entwickelte Multi-Agenten-Framework ARTEMIS mit 92%iger Validierungsrate und niedrigeren Kosten (18 USD/Stunde) neun von zehn menschlichen Teilnehmern übertraf, obwohl noch Herausforderungen bei der Reduzierung von Fehlalarmen und der Bewältigung von GUI-Aufgaben bestehen.

Justin W. Lin, Eliot Krzysztof Jones, Donovan Julian Jasper, Ethan Jun-shen Ho, Anna Wu, Arnold Tianyi Yang, Neil Perry, Andy Zou, Matt Fredrikson, J. Zico Kolter, Percy Liang, Dan Boneh, Daniel E. Ho

Veröffentlicht 2026-03-04
📖 4 Min. Lesezeit☕ Kaffeepausen-Lektüre

Each language version is independently generated for its own context, not a direct translation.

🕵️‍♂️ Der große Hack-Wettbewerb: Roboter gegen Menschen

Stellen Sie sich vor, eine große Universität (wie ein riesiges, komplexes Schloss mit 8.000 Zimmern) möchte herausfinden, wie sicher ihre Türen und Schlösser sind. Dafür veranstalten sie einen Wettbewerb: Wer findet die meisten versteckten Schwachstellen?

Die Teilnehmer sind zwei Gruppen:

  1. Die Profis: 10 echte menschliche Hacker (sogenannte "Penetration Tester"), die dafür bezahlt werden, Sicherheit zu testen.
  2. Die Roboter: Verschiedene künstliche Intelligenzen (KI), darunter ein neuer, besonders schlauer Roboter namens ARTEMIS.

Das Ziel war nicht, etwas zu zerstören, sondern zu sehen, ob eine KI so gut (oder sogar besser) ist als ein Mensch, wenn es darum geht, ein echtes, lebendiges Netzwerk zu durchsuchen.


🤖 ARTEMIS: Der neue Super-Worker

Die Forscher bauten einen neuen KI-Roboter namens ARTEMIS.

  • Wie funktioniert er? Stellen Sie sich ARTEMIS nicht als einen einzelnen Roboter vor, sondern als einen Chef, der ein ganzes Team von kleinen Spezialisten anleitet. Wenn der Chef eine Aufgabe sieht (z. B. "prüfe diesen Server"), ruft er sofort einen kleinen Helfer, der sich genau darauf spezialisiert.
  • Der Vorteil: Während ein Mensch müde wird oder nur eine Sache gleichzeitig tun kann, kann ARTEMIS Dutzende von Aufgaben parallel erledigen. Er ist wie ein Schwarm Bienen, der gleichzeitig an hundert Blumen arbeitet.

🏆 Das Ergebnis: Ein knapper Sieg für die KI

Das Ergebnis war überraschend:

  • ARTEMIS landete auf Platz 2 im gesamten Wettbewerb!
  • Er fand 9 echte, gefährliche Sicherheitslücken.
  • Er war besser als 9 von 10 menschlichen Teilnehmern.
  • Die anderen KI-Modelle (die "älteren" Roboter) waren deutlich schlechter und fanden kaum etwas.

Die menschlichen Profis waren zwar sehr gut (einige fanden sogar mehr als ARTEMIS), aber ARTEMIS zeigte, dass KI in der Lage ist, komplexe Aufgaben zu lösen, die bisher nur Menschen schafften.

💰 Der Preis: Ein Schnäppchen

Hier kommt der spannendste Teil für die Wirtschaft:

  • Ein menschlicher Hacker kostet etwa 60 Dollar pro Stunde.
  • ARTEMIS kostete nur 18 Dollar pro Stunde.
  • Vergleich: Wenn Sie einen menschlichen Detektiv für ein Jahr einstellen, kostet das viel Geld. ARTEMIS könnte das gleiche Jahr für ein Viertel des Preises machen. Er ist also nicht nur schnell, sondern auch extrem günstig.

🧩 Wo die KI noch stolpert (Die Schwächen)

Trotz des Erfolgs gab es Dinge, bei denen die Menschen besser waren:

  1. Der "Maus-Problem": Viele Sicherheitslücken erfordern, dass man auf einen Bildschirm schaut, auf einen Button klickt oder ein Menü durchklickt (GUI). Die KI ist sehr gut im Befehlszeilen-Modus (Text eingeben), aber wenn sie eine grafische Oberfläche bedienen muss, wird sie oft verwirrt.
    • Analogie: Ein Mensch kann leicht einen komplizierten Automaten bedienen. Die KI kann die Tasten drücken, aber wenn sie den Bildschirm lesen muss, um zu verstehen, was passiert, verliert sie den Faden.
  2. Falsche Alarme: Die KI war manchmal zu vorsichtig oder zu wild. Sie meldete manchmal Dinge als "gehackt", die gar nicht gehackt waren (False Positives). Die Menschen waren hier präziser.

🔍 Was haben wir gelernt?

  1. KI ist keine Magie, aber sie ist mächtig: Wenn man die KI richtig anleitet (mit dem ARTEMIS-System), kann sie systematisch und schnell arbeiten. Sie findet Lücken, die Menschen übersehen, weil sie zu müde sind oder zu lange brauchen.
  2. Die Zukunft ist gemischt: Die beste Sicherheit wird wahrscheinlich eine Kombination sein: Ein menschlicher Experte, der die Strategie plant, und ein KI-Schwarm, der die harte, langweilige Arbeit (das Scannen und Testen) erledigt.
  3. Gefahr und Chance: Da KI so gut wird, können auch böswillige Hacker sie nutzen, um Systeme anzugreifen. Aber die gute Nachricht ist: Wir können dieselbe KI nutzen, um uns zu verteidigen, und das viel schneller und billiger als bisher.

Fazit

Stellen Sie sich vor, Sie haben einen riesigen Garten voller versteckter Fallen. Früher mussten Sie mit einem Löffel jeden Zentimeter Erde abgraben (der menschliche Hacker). Jetzt haben Sie einen Roboter-Schwarm, der den ganzen Garten in Minuten durchsucht. Er macht manchmal kleine Fehler, aber er findet die meisten Fallen viel schneller und kostet nur einen Bruchteil des Preises.

Die Studie zeigt: Die KI ist im Penetrationstest angekommen. Sie ist kein Ersatz für den menschlichen Experten, aber ein extrem mächtiger Werkzeugkasten, den wir nicht ignorieren dürfen.

Erhalten Sie solche Paper in Ihrem Posteingang

Personalisierte tägliche oder wöchentliche Digests passend zu Ihren Interessen. Gists oder technische Zusammenfassungen, in Ihrer Sprache.

Digest testen →