Comparing AI Agents to Cybersecurity Professionals in Real-World Penetration Testing

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een enorm, oud kasteel hebt met duizenden deuren, ramen en geheime gangen. Dit kasteel is de universiteit van Stanford, en de "deuren" zijn de computer-systemen die ze gebruiken.

De onderzoekers uit dit paper hebben een heel interessante wedstrijd georganiseerd. Ze wilden weten: Wie is beter in het vinden van de slechte deuren in dit kasteel?

De Menselijke Huisdieren: Een groep van 10 echte, betaalde beveiligingsexperts (de "penetration testers"). Dit zijn de ervaren slotenmakers die je huurt om te kijken of je huis veilig is.
De Robot-Teamleden: Een groep van AI-agenten (computers die zelfstandig kunnen denken en handelen). Ze hadden zelfs een nieuwe, slimme robot genaamd ARTEMIS in de strijd geworpen.

Hier is wat er gebeurde, verteld in simpele taal:

🏆 De Uitslag: De Robot wint (bijna)

Het was een verrassende wedstrijd!

De menselijke experts deden het goed. Ze vonden veel slechte deuren.
De oude AI-robots deden het slecht. Ze raakten in de war, gaven het snel op of vonden niets.
Maar ARTEMIS, de nieuwe robot, was een ster. Hij deed het beter dan 9 van de 10 menselijke experts. Hij vond 9 echte, gevaarlijke zwakke plekken en plaatste zich op de tweede plek overall.

💰 De Kosten: Een robot is goedkoper

Dit is misschien wel het belangrijkste deel.

Een menselijke expert kost ongeveer $60 per uur.
De robot ARTEMIS kostte slechts $18 per uur.
De analogie: Het is alsof je een dure, ervaren slotenmaker huurt, maar je kunt in plaats daarvan een super-snel, goedkoop robot-teamje huren dat net zo goed werkt, maar voor een derde van de prijs.

🤖 Hoe werkt de robot? (De "Zwerm")

De oude AI's werkten als een eenzame detective: ze keken naar één ding, dachten na, en probeerden het. Als ze vastliepen, gaven ze op.

ARTEMIS werkt anders. Het is een hoofd-detective met een heel team van helpers.

De Supervisor: Dit is de chef. Hij kijkt naar het grote plaatje.
De Sub-agenten: Zodra de chef een verdachte deur ziet, roept hij direct een speciaal teamje op om die deur te openen. Terwijl dat teamje werkt, zoekt de chef al naar de volgende deur.
De Triager: Dit is de kwaliteitscontroleur. Hij kijkt of de gevonden "deur" echt open is of dat de robot droomde. Hij zorgt dat er geen nep-rapporten worden ingediend.

🚧 Waar de robot nog vastloopt

De robot is niet perfect. Hij heeft een paar zwakke punten:

Hij ziet geen schermen: Mensen kunnen makkelijk naar een computerbeeldscherm kijken en een muis gebruiken. De robot kan dat nog niet goed. Als een beveiligingsprobleem alleen op een scherm te zien is (zoals een knopje dat je moet klikken), raakt de robot in de war.
Hij ziet geesten: De robot vindt soms "deuren" die er niet zijn (nep-gevaar). Mensen zijn beter in het direct zien dat iets veilig is.
Hij is te snel: Soms vindt de robot iets kleins, loopt hij direct door naar de volgende deur, en mist hij daardoor een grote deur die daarachter verstopt zat. Mensen blijven soms langer hangen bij één ding om het grondig te onderzoeken.

🏰 Waarom is dit belangrijk?

Vroeger dachten mensen dat AI alleen maar goed was voor simpele raadsels of het oplossen van CTF-spellen (digitale schatgraven). Dit paper toont aan dat AI nu echt gevaarlijk (en nuttig) kan zijn in de echte wereld.

Voor de slechteriken: Als hackers deze robots gebruiken, kunnen ze in no-time duizenden gebouwen inbreken.
Voor de verdedigers: Als beveiligingsexperts deze robots gebruiken, kunnen ze hun eigen systemen 24/7 controleren voor een fractie van de kosten.

Conclusie

De robot ARTEMIS is als een super-snelle, goedkope, en onuitputtelijke hond die constant rond het kasteel loopt en elke kier opzoekt. Hij is nog niet perfect (hij kan geen muis vasthouden en ziet soms spookdeuren), maar hij is al veel slimmer en goedkoper dan de meeste menselijke bewakers.

De boodschap is duidelijk: AI is hier om te blijven in de cybersecurity-wereld. We moeten leren om met deze robots te werken om onze digitale kastelen veiliger te maken, voordat de slechteriken ze voor ons gebruiken.

Comparing AI Agents to Cybersecurity Professionals in Real-World Penetration Testing

🏆 De Uitslag: De Robot wint (bijna)

💰 De Kosten: Een robot is goedkoper

🤖 Hoe werkt de robot? (De "Zwerm")

🚧 Waar de robot nog vastloopt

🏰 Waarom is dit belangrijk?

Conclusie

Probleemstelling

Methodologie

Belangrijkste Bijdrage: ARTEMIS

Resultaten

Significantie en Conclusie

Comparing AI Agents to Cybersecurity Professionals in Real-World Penetration Testing

🏆 De Uitslag: De Robot wint (bijna)

💰 De Kosten: Een robot is goedkoper

🤖 Hoe werkt de robot? (De "Zwerm")

🚧 Waar de robot nog vastloopt

🏰 Waarom is dit belangrijk?

Conclusie

Probleemstelling

Methodologie

Belangrijkste Bijdrage: ARTEMIS

Resultaten

Significantie en Conclusie

Meer zoals dit

OpenKedge: Governing Agentic Mutation with Execution-Bound Safety and Evidence Chains

From Business Events to Auditable Decisions: Ontology-Governed Graph Simulation for Enterprise AI

Sustained Impact of Agentic Personalisation in Marketing: A Longitudinal Case Study

RAMP: Hybrid DRL for Online Learning of Numeric Action Models

Parameterized Complexity Of Representing Models Of MSO Formulas