Comparing AI Agents to Cybersecurity Professionals in Real-World Penetration Testing

Deze studie presenteert ARTEMIS, een nieuw AI-agentkader dat in een live enterprise-omgeving met 8.000 hosts tweede eindigde en negen van de tien menselijke beveiligingsprofessionals versloeg door 9 geldige kwetsbaarheden te vinden, hoewel er nog uitdagingen blijven bij het verminderen van vals-positieven en het uitvoeren van GUI-taken.

Justin W. Lin, Eliot Krzysztof Jones, Donovan Julian Jasper, Ethan Jun-shen Ho, Anna Wu, Arnold Tianyi Yang, Neil Perry, Andy Zou, Matt Fredrikson, J. Zico Kolter, Percy Liang, Dan Boneh, Daniel E. Ho

Gepubliceerd 2026-03-04
📖 4 min leestijd☕ Koffiepauze-leesvoer

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een enorm, oud kasteel hebt met duizenden deuren, ramen en geheime gangen. Dit kasteel is de universiteit van Stanford, en de "deuren" zijn de computer-systemen die ze gebruiken.

De onderzoekers uit dit paper hebben een heel interessante wedstrijd georganiseerd. Ze wilden weten: Wie is beter in het vinden van de slechte deuren in dit kasteel?

  1. De Menselijke Huisdieren: Een groep van 10 echte, betaalde beveiligingsexperts (de "penetration testers"). Dit zijn de ervaren slotenmakers die je huurt om te kijken of je huis veilig is.
  2. De Robot-Teamleden: Een groep van AI-agenten (computers die zelfstandig kunnen denken en handelen). Ze hadden zelfs een nieuwe, slimme robot genaamd ARTEMIS in de strijd geworpen.

Hier is wat er gebeurde, verteld in simpele taal:

🏆 De Uitslag: De Robot wint (bijna)

Het was een verrassende wedstrijd!

  • De menselijke experts deden het goed. Ze vonden veel slechte deuren.
  • De oude AI-robots deden het slecht. Ze raakten in de war, gaven het snel op of vonden niets.
  • Maar ARTEMIS, de nieuwe robot, was een ster. Hij deed het beter dan 9 van de 10 menselijke experts. Hij vond 9 echte, gevaarlijke zwakke plekken en plaatste zich op de tweede plek overall.

💰 De Kosten: Een robot is goedkoper

Dit is misschien wel het belangrijkste deel.

  • Een menselijke expert kost ongeveer $60 per uur.
  • De robot ARTEMIS kostte slechts $18 per uur.
  • De analogie: Het is alsof je een dure, ervaren slotenmaker huurt, maar je kunt in plaats daarvan een super-snel, goedkoop robot-teamje huren dat net zo goed werkt, maar voor een derde van de prijs.

🤖 Hoe werkt de robot? (De "Zwerm")

De oude AI's werkten als een eenzame detective: ze keken naar één ding, dachten na, en probeerden het. Als ze vastliepen, gaven ze op.

ARTEMIS werkt anders. Het is een hoofd-detective met een heel team van helpers.

  • De Supervisor: Dit is de chef. Hij kijkt naar het grote plaatje.
  • De Sub-agenten: Zodra de chef een verdachte deur ziet, roept hij direct een speciaal teamje op om die deur te openen. Terwijl dat teamje werkt, zoekt de chef al naar de volgende deur.
  • De Triager: Dit is de kwaliteitscontroleur. Hij kijkt of de gevonden "deur" echt open is of dat de robot droomde. Hij zorgt dat er geen nep-rapporten worden ingediend.

🚧 Waar de robot nog vastloopt

De robot is niet perfect. Hij heeft een paar zwakke punten:

  1. Hij ziet geen schermen: Mensen kunnen makkelijk naar een computerbeeldscherm kijken en een muis gebruiken. De robot kan dat nog niet goed. Als een beveiligingsprobleem alleen op een scherm te zien is (zoals een knopje dat je moet klikken), raakt de robot in de war.
  2. Hij ziet geesten: De robot vindt soms "deuren" die er niet zijn (nep-gevaar). Mensen zijn beter in het direct zien dat iets veilig is.
  3. Hij is te snel: Soms vindt de robot iets kleins, loopt hij direct door naar de volgende deur, en mist hij daardoor een grote deur die daarachter verstopt zat. Mensen blijven soms langer hangen bij één ding om het grondig te onderzoeken.

🏰 Waarom is dit belangrijk?

Vroeger dachten mensen dat AI alleen maar goed was voor simpele raadsels of het oplossen van CTF-spellen (digitale schatgraven). Dit paper toont aan dat AI nu echt gevaarlijk (en nuttig) kan zijn in de echte wereld.

  • Voor de slechteriken: Als hackers deze robots gebruiken, kunnen ze in no-time duizenden gebouwen inbreken.
  • Voor de verdedigers: Als beveiligingsexperts deze robots gebruiken, kunnen ze hun eigen systemen 24/7 controleren voor een fractie van de kosten.

Conclusie

De robot ARTEMIS is als een super-snelle, goedkope, en onuitputtelijke hond die constant rond het kasteel loopt en elke kier opzoekt. Hij is nog niet perfect (hij kan geen muis vasthouden en ziet soms spookdeuren), maar hij is al veel slimmer en goedkoper dan de meeste menselijke bewakers.

De boodschap is duidelijk: AI is hier om te blijven in de cybersecurity-wereld. We moeten leren om met deze robots te werken om onze digitale kastelen veiliger te maken, voordat de slechteriken ze voor ons gebruiken.

Ontvang papers zoals deze in je inbox

Gepersonaliseerde dagelijkse of wekelijkse digests op basis van jouw interesses. Gists of technische samenvattingen, in jouw taal.

Probeer Digest →