Comparing AI Agents to Cybersecurity Professionals in Real-World Penetration Testing

Questo studio presenta la prima valutazione comparativa in un ambiente aziendale reale che dimostra come il nuovo agente AI ARTEMIS, grazie a un framework multi-agente sofisticato, abbia superato 9 dei 10 professionisti della sicurezza umani nel rilevamento di vulnerabilità, offrendo al contempo vantaggi significativi in termini di costi e sistematicità, sebbene persistano sfide legate ai falsi positivi e alle interfacce grafiche.

Justin W. Lin, Eliot Krzysztof Jones, Donovan Julian Jasper, Ethan Jun-shen Ho, Anna Wu, Arnold Tianyi Yang, Neil Perry, Andy Zou, Matt Fredrikson, J. Zico Kolter, Percy Liang, Dan Boneh, Daniel E. Ho

Pubblicato 2026-03-04
📖 4 min di lettura☕ Lettura da pausa caffè

Each language version is independently generated for its own context, not a direct translation.

Immagina di dover trovare le falle in una gigantesca fortezza digitale, piena di migliaia di stanze, porte e finestre. Questa è la sfida della penetrazione testing (o "hacking etico"): trovare i punti deboli prima che i cattivi lo facciano.

Fino a poco tempo fa, per questo lavoro ci volevano esperti umani, professionisti addestrati che passavano giorni a cercare chiavi arrugginite, serrature rotte o finestre lasciate aperte.

Ma ora, l'Intelligenza Artificiale (AI) sta entrando in gioco. Questo studio, condotto da ricercatori di Stanford e Carnegie Mellon, ha fatto una cosa rivoluzionaria: ha messo 10 hacker umani esperti contro 6 agenti AI (incluso un nuovo "super-agente" chiamato ARTEMIS) in una vera rete universitaria, con circa 8.000 computer reali.

Ecco cosa è successo, spiegato come se fosse una storia:

1. La Gara: Umani contro Robot

Immagina una gara di caccia al tesoro.

  • I Cacciatori Umani: Sono esperti con anni di esperienza. Hanno mappe mentali, intuizione e sanno "sentire" quando qualcosa non va.
  • I Cacciatori Robot (AI): Sono come squadre di esploratori digitali. Alcuni erano robot "vecchia scuola" (come Codex o CyAgent), che si sono persi facilmente o hanno smesso di lavorare dopo pochi minuti. Ma c'era ARTEMIS, un nuovo robot speciale.

ARTEMIS non è un singolo robot, ma un capo squadra che può creare e gestire altri piccoli robot (sotto-agenti) in tempo reale. Se trova una porta sospetta, ne manda subito un altro a controllarla, mentre lui ne apre un'altra. È come avere un esercito di formiche che lavorano tutte insieme invece di un solo esploratore.

2. Il Risultato: Chi ha vinto?

Il risultato è stato sorprendente:

  • I robot vecchi hanno fatto una figura un po' brutta, trovando poche cose e spesso sbagliando.
  • ARTEMIS è arrivato secondo in classifica, battendo ben 9 dei 10 umani! Ha trovato 9 vulnerabilità reali con un'altissima percentuale di successo.
  • Gli umani hanno vinto comunque, ma di poco. Il miglior umano ha trovato un po' più di cose di ARTEMIS, ma il robot ha dimostrato una qualità tecnica quasi pari a quella dei migliori esperti.

3. I Punti di Forza e Debolezza (La Metafora del "Cecchino" vs. "Esploratore")

Dove l'AI è un genio:

  • La forza bruta e la velocità: Immagina di dover controllare 8.000 porte. Un umano deve aprirne una, guardare, chiuderne un'altra. ARTEMIS può controllarne 100 contemporaneamente. È come se avesse 100 mani che lavorano in parallelo.
  • Il costo: Un umano esperto costa circa 60 dollari l'ora. ARTEMIS costa circa 18 dollari l'ora. È come assumere un esercito di robot per il prezzo di un singolo consulente.

Dove l'AI sbaglia (e l'uomo vince):

  • L'intuito visivo: C'era un computer con un'interfaccia grafica strana (una specie di pannello di controllo visivo). Gli umani, guardando lo schermo, hanno capito subito come hackerarlo. ARTEMIS, invece, si è perso perché non sapeva "guardare" lo schermo come un umano; ha cercato solo codici e comandi testuali. È come se un robot provasse a guidare un'auto guardando solo il manuale, senza guardare la strada.
  • Le false allerte: ARTEMIS ha segnalato molte "falsi allarmi" (pensava di aver trovato un buco, ma non lo era). Gli umani sono più bravi a capire se una cosa è davvero pericolosa o solo un falso positivo.

4. La Scoperta Importante

Il vero messaggio di questo studio non è che "i robot ci ruberanno il lavoro domani". È che i robot stanno diventando molto bravi a fare il lavoro sporco e ripetitivo.

  • L'AI è come un aspirapolvere automatico: Fa un ottimo lavoro a spolverare tutto il pavimento (scansionare la rete) velocemente e a basso costo.
  • L'Umano è come un detective: Quando l'aspirapolvere trova qualcosa di strano, serve l'occhio esperto dell'uomo per capire se è un vero pericolo o solo un pezzetto di polvere, e per risolvere i casi più complessi che richiedono creatività.

In Conclusione

Questo studio ci dice che il futuro della cybersecurity non è "Umani contro AI", ma "Umani con AI".
Gli agenti come ARTEMIS possono fare il lavoro pesante, scansionare migliaia di sistemi e trovare i primi indizi a un costo bassissimo. Questo libera gli esperti umani per concentrarsi sulle sfide più difficili, creative e strategiche.

È come se avessimo appena scoperto un nuovo tipo di telescopio: non sostituisce l'astronomo, ma gli permette di vedere stelle che prima erano invisibili, rendendo il cielo (o in questo caso, la rete) molto più sicuro per tutti noi.

Ricevi articoli come questo nella tua casella di posta

Digest giornalieri o settimanali personalizzati in base ai tuoi interessi. Riassunti Gist o tecnici, nella tua lingua.

Prova Digest →