Comparing AI Agents to Cybersecurity Professionals in Real-World Penetration Testing

Each language version is independently generated for its own context, not a direct translation.

Immagina di dover trovare le falle in una gigantesca fortezza digitale, piena di migliaia di stanze, porte e finestre. Questa è la sfida della penetrazione testing (o "hacking etico"): trovare i punti deboli prima che i cattivi lo facciano.

Fino a poco tempo fa, per questo lavoro ci volevano esperti umani, professionisti addestrati che passavano giorni a cercare chiavi arrugginite, serrature rotte o finestre lasciate aperte.

Ma ora, l'Intelligenza Artificiale (AI) sta entrando in gioco. Questo studio, condotto da ricercatori di Stanford e Carnegie Mellon, ha fatto una cosa rivoluzionaria: ha messo 10 hacker umani esperti contro 6 agenti AI (incluso un nuovo "super-agente" chiamato ARTEMIS) in una vera rete universitaria, con circa 8.000 computer reali.

Ecco cosa è successo, spiegato come se fosse una storia:

1. La Gara: Umani contro Robot

Immagina una gara di caccia al tesoro.

I Cacciatori Umani: Sono esperti con anni di esperienza. Hanno mappe mentali, intuizione e sanno "sentire" quando qualcosa non va.
I Cacciatori Robot (AI): Sono come squadre di esploratori digitali. Alcuni erano robot "vecchia scuola" (come Codex o CyAgent), che si sono persi facilmente o hanno smesso di lavorare dopo pochi minuti. Ma c'era ARTEMIS, un nuovo robot speciale.

ARTEMIS non è un singolo robot, ma un capo squadra che può creare e gestire altri piccoli robot (sotto-agenti) in tempo reale. Se trova una porta sospetta, ne manda subito un altro a controllarla, mentre lui ne apre un'altra. È come avere un esercito di formiche che lavorano tutte insieme invece di un solo esploratore.

2. Il Risultato: Chi ha vinto?

Il risultato è stato sorprendente:

I robot vecchi hanno fatto una figura un po' brutta, trovando poche cose e spesso sbagliando.
ARTEMIS è arrivato secondo in classifica, battendo ben 9 dei 10 umani! Ha trovato 9 vulnerabilità reali con un'altissima percentuale di successo.
Gli umani hanno vinto comunque, ma di poco. Il miglior umano ha trovato un po' più di cose di ARTEMIS, ma il robot ha dimostrato una qualità tecnica quasi pari a quella dei migliori esperti.

3. I Punti di Forza e Debolezza (La Metafora del "Cecchino" vs. "Esploratore")

Dove l'AI è un genio:

La forza bruta e la velocità: Immagina di dover controllare 8.000 porte. Un umano deve aprirne una, guardare, chiuderne un'altra. ARTEMIS può controllarne 100 contemporaneamente. È come se avesse 100 mani che lavorano in parallelo.
Il costo: Un umano esperto costa circa 60 dollari l'ora. ARTEMIS costa circa 18 dollari l'ora. È come assumere un esercito di robot per il prezzo di un singolo consulente.

Dove l'AI sbaglia (e l'uomo vince):

L'intuito visivo: C'era un computer con un'interfaccia grafica strana (una specie di pannello di controllo visivo). Gli umani, guardando lo schermo, hanno capito subito come hackerarlo. ARTEMIS, invece, si è perso perché non sapeva "guardare" lo schermo come un umano; ha cercato solo codici e comandi testuali. È come se un robot provasse a guidare un'auto guardando solo il manuale, senza guardare la strada.
Le false allerte: ARTEMIS ha segnalato molte "falsi allarmi" (pensava di aver trovato un buco, ma non lo era). Gli umani sono più bravi a capire se una cosa è davvero pericolosa o solo un falso positivo.

4. La Scoperta Importante

Il vero messaggio di questo studio non è che "i robot ci ruberanno il lavoro domani". È che i robot stanno diventando molto bravi a fare il lavoro sporco e ripetitivo.

L'AI è come un aspirapolvere automatico: Fa un ottimo lavoro a spolverare tutto il pavimento (scansionare la rete) velocemente e a basso costo.
L'Umano è come un detective: Quando l'aspirapolvere trova qualcosa di strano, serve l'occhio esperto dell'uomo per capire se è un vero pericolo o solo un pezzetto di polvere, e per risolvere i casi più complessi che richiedono creatività.

In Conclusione

Questo studio ci dice che il futuro della cybersecurity non è "Umani contro AI", ma "Umani con AI".
Gli agenti come ARTEMIS possono fare il lavoro pesante, scansionare migliaia di sistemi e trovare i primi indizi a un costo bassissimo. Questo libera gli esperti umani per concentrarsi sulle sfide più difficili, creative e strategiche.

È come se avessimo appena scoperto un nuovo tipo di telescopio: non sostituisce l'astronomo, ma gli permette di vedere stelle che prima erano invisibili, rendendo il cielo (o in questo caso, la rete) molto più sicuro per tutti noi.

Each language version is independently generated for its own context, not a direct translation.

1. Il Problema

I rapidi progressi nelle capacità dell'Intelligenza Artificiale (IA) sollevano preoccupazioni riguardo ai rischi che questi sistemi pongono alla cybersecurity globale. Attori minacciosi, da stati-nazione a gruppi motivati dal profitto, stanno iniziando a sfruttare l'IA per le operazioni cyber. Tuttavia, la comprensione delle capacità offensive reali dell'IA è limitata da benchmark esistenti che spesso mancano di realismo operativo.

Limiti dei benchmark attuali: Molti test si basano su sfide CTF (Capture The Flag), rilevamento statico di vulnerabilità o riproduzione di CVE note. Questi scenari sono spesso astratti, mancano del "rumore" dei sistemi reali, dell'interattività e della complessità delle interazioni con ambienti live (es. phishing, riutilizzo di credenziali rubate, chaining di errori di configurazione).
Il divario: Non esiste una valutazione comparativa completa tra agenti AI e professionisti umani della cybersecurity in un ambiente aziendale reale e live.

2. Metodologia

Gli autori hanno condotto il primo studio comparativo completo in un ambiente di rete universitario reale, coinvolgendo professionisti umani e agenti AI.

Ambiente Target: Una rete universitaria con circa 8.000 host distribuiti su 12 subnet (7 pubbliche, 5 private via VPN). L'ambiente è eterogeneo (sistemi Unix, dispositivi IoT, macchine Windows, sistemi embedded) e gestito con standard di sicurezza basati sul rischio (patch management, firewall, IDS/EDR).
Partecipanti Umani: 10 professionisti della cybersecurity selezionati in base a certificazioni (es. OSCP, CRTO) ed esperienza. Hanno ricevuto una VM Kali Linux, un account con permessi da studente e 10 ore di tempo attivo per eseguire il penetration test. Sono stati monitorati tramite registrazione schermo e log di rete, con garanzie di "safe harbor" per evitare azioni distruttive.
Agenti AI:
- ARTEMIS: Un nuovo framework multi-agente sviluppato dagli autori, progettato per estrarre le capacità di sicurezza dei modelli di frontiera.
- Baseline: Altri scaffold esistenti come Codex, CyAgent, Incalmo, MAPTA e Claude Code.
Framework ARTEMIS:
- Architettura Multi-Agente: Include un supervisore, un "sciame" di sub-agenti arbitrari e un modulo di triage.
- Funzionalità Chiave: Generazione dinamica di prompt specifici per il task, gestione del contesto a lungo termine (sintesi e riavvio delle sessioni), e triage automatico delle vulnerabilità per ridurre i falsi positivi.
- Configurazioni: Due varianti testate (A1 con GPT-5, A2 con ensemble di modelli).
Metriche di Valutazione: Un sistema di punteggio unificato che combina:
- Complessità Tecnica (TC): Basata sulla difficoltà di rilevamento (DC) e sfruttamento (EC). Premia lo sfruttamento reale rispetto alla sola verifica.
- Peso Critico (W): Basato sulla gravità (Critico, Alto, Medio, Basso, Informativo), simile ai programmi di bug bounty.
- Punteggio Totale: $S_{total} = \sum (TC_i + W_i)$ .

3. Contributi Chiave

ARTEMIS: Introduzione di un nuovo scaffold multi-agente che supera i limiti dei framework attuali (gestione del contesto, parallelismo, triage).
Valutazione Reale: Prima comparazione diretta tra agenti AI e umani in un ambiente di produzione live, fornendo dati su scenari reali invece che su sandbox isolate.
Open Source: Rilascio di ARTEMIS e degli artefatti dello studio per democratizzare l'accesso agli strumenti di sicurezza abilitati dall'IA.
Analisi dei Costi: Confronto economico tra l'uso di agenti AI e professionisti umani.

4. Risultati

Performance di ARTEMIS:
- ARTEMIS si è classificato secondo nella classifica generale, superando 9 dei 10 partecipanti umani.
- Ha scoperto 9 vulnerabilità valide con un tasso di validità dell'82%.
- Ha dimostrato sofisticazione tecnica e qualità delle submission paragonabili ai partecipanti umani più forti.
Performance degli altri Agenti:
- Scaffold esistenti come Codex e CyAgent hanno performato peggio della maggior parte dei partecipanti umani. Molti hanno rifiutato il task o si sono bloccati nelle fasi iniziali di ricognizione.
- Gli agenti basati su GPT-5 (Codex) hanno superato solo 2 partecipanti umani, mentre ARTEMIS (che usa lo stesso modello ma con un'architettura diversa) ne ha superati 5. Questo evidenzia che l'architettura (scaffold) è cruciale quanto il modello sottostante.
Vulnerabilità Scoperte:
- Gli umani hanno trovato un totale di 49 vulnerabilità uniche.
- ARTEMIS ha mostrato una capacità di enumerazione sistematica e sfruttamento parallelo (fino a 8 sub-agenti attivi contemporaneamente), superando la capacità umana di gestire task multipli in parallelo.
- Tuttavia, ARTEMIS ha mostrato un tasso di falsi positivi più alto rispetto agli umani (es. interpretare un redirect HTTP 200 come un login riuscito).
- Limiti: Gli agenti hanno faticato con le attività basate su GUI (es. interazione con interfacce web come TinyPilot), mentre gli umani hanno avuto successo. Al contrario, gli agenti hanno eccelso nell'uso di CLI per bypassare configurazioni obsolete (es. server iDRAC con cipher suite degni rifiutati dai browser moderni).
Analisi dei Costi:
- ARTEMIS (configurazione A1) è costato circa $18/ora ($37.876/anno).
- Un penetration tester professionista costa circa $60/ora ($125.034/anno).
- Gli agenti offrono un rapporto costo-prestazioni competitivo, specialmente per test continui.

5. Significato e Implicazioni

Rischio e Difesa: Lo studio dimostra che gli agenti AI autonomi possono già competere con esperti umani nella scoperta di vulnerabilità critiche in ambienti reali, ma con una frazione del costo. Questo aumenta il rischio di abuso da parte di attori malevoli, ma offre anche strumenti potenti per i difensori.
Natura dei Rischi: Il rischio principale non è solo la capacità di trovare bug, ma la scalabilità orizzontale e la velocità degli agenti autonomi, che possono eseguire attacchi su larga scala in modo continuo.
Gap di Competenza: Esistono ancora lacune significative, in particolare nell'interazione con interfacce grafiche (GUI) e nella gestione dei falsi positivi. Il progresso degli agenti "computer-use" è necessario per colmare questo divario.
Futuro della Sicurezza: I risultati suggeriscono che i benchmark attuali sono insufficienti. È necessario sviluppare framework di valutazione più realistici che includano ambienti live e interazioni complesse. La ricerca evidenzia anche la necessità di regolamentazione informata e di strumenti di difesa accessibili per contrastare le minacce automatizzate.

In sintesi, il paper segna un punto di svolta dimostrando che l'IA non è solo un assistente, ma un attore autonomo capace di eseguire penetration test complessi con efficacia paragonabile agli umani, ponendo sfide immediate per la sicurezza informatica globale.

Comparing AI Agents to Cybersecurity Professionals in Real-World Penetration Testing

1. La Gara: Umani contro Robot

2. Il Risultato: Chi ha vinto?

3. I Punti di Forza e Debolezza (La Metafora del "Cecchino" vs. "Esploratore")

4. La Scoperta Importante

In Conclusione

1. Il Problema

2. Metodologia

3. Contributi Chiave

4. Risultati

5. Significato e Implicazioni

Articoli simili

OpenKedge: Governing Agentic Mutation with Execution-Bound Safety and Evidence Chains

From Business Events to Auditable Decisions: Ontology-Governed Graph Simulation for Enterprise AI

Sustained Impact of Agentic Personalisation in Marketing: A Longitudinal Case Study

RAMP: Hybrid DRL for Online Learning of Numeric Action Models

Parameterized Complexity Of Representing Models Of MSO Formulas