Neurosymbolic Learning for Advanced Persistent Threat Detection under Extreme Class Imbalance

Each language version is independently generated for its own context, not a direct translation.

Immagina di vivere in una Smart City (una città intelligente) piena di dispositivi connessi: termostati, telecamere, luci intelligenti e sensori industriali. Tutti questi dispositivi parlano tra loro, inviando milioni di messaggi ogni secondo. Il problema è che, tra questi messaggi, ce ne sono alcuni "cattivi" provenienti da hacker che cercano di rubare dati o prendere il controllo della rete. Questi hacker non fanno un attacco rumoroso e veloce; sono come spie silenziosi (chiamati APT, o Advanced Persistent Threats) che entrano, si nascondono, esplorano e rubano lentamente nel tempo.

Ecco il grande dilemma:

Il mare di "normalità": Il 98% dei messaggi è normale e innocuo. Trovare l'attacco è come cercare un ago in un pagliaio, ma l'ago è invisibile e si muove.
La scatola nera: I sistemi di sicurezza attuali sono come dei maghi che tirano fuori la risposta dal cilindro. Ti dicono "C'è un attacco!", ma non ti spiegano perché. Se non sai perché, non puoi fidarti ciecamente del sistema, specialmente se devi prendere decisioni automatiche senza un umano che controlla.

La Soluzione: Un Detective che "Pensa" e "Capisce"

Gli autori di questo articolo hanno creato un nuovo sistema chiamato Neurosymbolic Learning (Apprendimento Neurosimbolico). Per spiegarlo in modo semplice, immagina di assumere un detective super-intelligente che ha due menti che lavorano insieme:

1. La Mente Intuitiva (Il "BERT" - Il Neural Network)

Questa parte è come un investigatore esperto che ha letto milioni di casi. Guarda i dati del traffico di rete (la durata dei messaggi, la dimensione dei pacchetti, le porte usate) e cerca schemi complessi.

Come funziona: Invece di leggere i dati come numeri freddi, li trasforma in una "storia" che il computer può leggere. Usa una tecnologia chiamata BERT (la stessa che usano i motori di ricerca per capire il linguaggio umano) per capire il contesto.
Il trucco: Se vede un comportamento strano, sa dire "Sembra un attacco", ma da solo non sa spiegare le regole logiche dietro la sua intuizione.

2. La Mente Logica (Il "LTN" - Le Logiche Simboliche)

Questa parte è come un giurista o un logico che scrive le regole. Non si fida solo dell'intuizione; vuole prove concrete basate su regole chiare.

Come funziona: Crea "predicati" o regole semplici, tipo: "Se il volume di dati inviati è enorme E la porta è insolita, allora è sospetto".
Il vantaggio: Ogni volta che il sistema fa un'analisi, può dirti: "Ho classificato questo come un attacco perché la regola X è stata soddisfatta al 90%". È trasparente e spiegabile.

Come lavorano insieme? (L'Architettura a Due Stadi)

Il sistema è progettato per non farsi sopraffare dal fatto che gli attacchi sono rarissimi (il problema dello "squilibrio delle classi"). Immagina un filtro a due livelli:

Fase 1: Il Guardiano alla Porta (Rilevamento Binario)
Il sistema guarda tutto il traffico e fa una domanda semplice: "È normale o è un attacco?".
- Se dice "Normale", lo lascia passare.
- Se dice "Attacco", lo blocca e lo manda alla Fase 2.
- Perché è importante? Questo riduce drasticamente il lavoro. Non devi analizzare ogni singolo messaggio in profondità, solo quelli sospetti.
Fase 2: L'Investigatore Specializzato (Categorizzazione)
Qui, il sistema analizza l'attacco bloccato per capire che tipo di attacco è:
- È un'indagine iniziale?
- È un movimento laterale (spostarsi da un dispositivo all'altro)?
- È un furto di dati?
- Grazie alla logica simbolica, il sistema può dirti: "È un furto di dati perché ho visto un flusso enorme verso un server esterno".

Perché questo sistema è speciale?

Non inventa dati: Molti sistemi usano trucchi per creare "finti" attacchi e bilanciare i dati. Questo sistema no: impara dai dati reali, anche se pochi.
È onesto (Spiegabile): Se il sistema suona l'allarme, puoi chiedergli: "Perché?". Lui ti risponde mostrando esattamente quali "regole" e quali "dati" hanno portato a quella decisione. Non è una scatola nera.
Funziona davvero: Hanno testato il sistema su dati reali di una città intelligente.
- Ha individuato il 95% degli attacchi.
- Ha dato pochissimi falsi allarmi (meno di 1 su 1000). Questo è cruciale: se il sistema suona l'allarme per ogni gatto che passa, nessuno ci crederà più (la "fatica da allarme").

In sintesi

Immagina di avere un sistema di sicurezza per la tua casa che non solo ti dice "Qualcuno è entrato!", ma ti dice anche: "È entrato perché ha forzato la finestra del garage (regola 1) e ha preso il portafoglio (regola 2), e non è un falso allarme perché il movimento era strano".

Questo articolo ci dice che è possibile costruire sistemi di sicurezza per le città intelligenti che sono intelligenti come un umano (grazie all'IA neurale) ma chiari e logici come un avvocato (grazie alla logica simbolica), rendendoli affidabili anche quando gli hacker sono molto rari e molto subdoli.

Each language version is independently generated for its own context, not a direct translation.

Titolo: Neurosymbolic Learning for Advanced Persistent Threat Detection under Extreme Class Imbalance

Traduzione: Apprendimento Neurosimbolico per il Rilevamento di Minacce Persistenti Avanzate (APT) in Condizioni di Estrema Squilibrio di Classe.

1. Il Problema

Il paper affronta le sfide critiche nella sicurezza delle reti Internet of Things (IoT), in particolare nei contesti delle città intelligenti e delle infrastrutture critiche. I punti dolenti identificati sono:

Minacce APT Stealthy: Gli attaccanti utilizzano campagne multi-fase (compromissione iniziale, ricognizione, movimento laterale, pivot, esfiltrazione dati) che si mimetizzano nel traffico legittimo, rendendo difficile la rilevazione.
Squilibrio Estremo di Classe: Nei dataset reali di traffico IoT, il traffico benigno rappresenta oltre il 98% dei dati (nel dataset SCVIC-APT2021 usato, il 98,35% è normale). Questo rende inefficaci i tradizionali approcci di Deep Learning che ottimizzano per l'accuratezza globale, portando a modelli che ignorano le classi minoritarie (gli attacchi).
Mancanza di Spiegabilità (Black Box): I sistemi di rilevamento basati su ML esistenti sono "scatole nere". Gli analisti non possono comprendere le decisioni del modello, validare gli allarmi o sviluppare strategie di mitigazione, un requisito fondamentale per il dispiegamento autonomo senza supervisione umana.
Limitazioni dei Metodi Esistenti: Le tecniche ibride (CNN-LSTM) o basate su trasformatori (BERT) spesso richiedono grandi quantità di dati bilanciati (spesso ottenuti tramite SMOTE, che crea artefatti sintetici) e non offrono spiegazioni intrinseche, ma solo post-hoc (es. SHAP/LIME), che potrebbero non riflettere i veri percorsi decisionali.

2. Metodologia

Gli autori propongono un'architettura Neurosimbolica che integra un modello BERT ottimizzato (componente neurale) con Logic Tensor Networks - LTN (componente simbolica), progettata specificamente per gestire lo squilibrio di classe e garantire l'interpretabilità.

A. Preprocessing e Dataset

Dataset: SCVIC-APT2021, contenente oltre 315.000 record di traffico IoT reale con 98,35% di traffico normale.
Selezione delle Feature: Da 84 feature iniziali, ne sono state selezionate 12 tramite un consenso di quattro metodi statistici (Random Forest, Extra Trees, Mutual Information, F-test). Le feature includono flag binari, tassi di flusso e caratteristiche dei pacchetti.
Normalizzazione: Adattata alle caratteristiche del traffico IoT (es. gestione di valori mancanti, scaling robusto per gli outlier).

B. Architettura BERT-LTN

Il sistema elabora le 12 feature attraverso due percorsi paralleli:

Componente Neurale (BERT):
- Le feature tabulari vengono codificate come token sequenziali (12 feature + token [CLS] e [SEP]).
- Un modello bert-base-uncased pre-addestrato analizza le interazioni complesse tra le feature.
- Meccanismo di Spiegabilità 1: I pesi di attenzione (attention weights) di BERT indicano quali feature hanno contribuito maggiormente alla classificazione, fornendo un'attribuzione delle feature.
Componente Simbolica (LTN):
- Utilizza 16 predicati logici apprendibili (implementati come MLP) che rappresentano concetti di dominio interpretabili (es. "trasferimento dati in avanti elevato", "attività di porta insolita").
- Ogni predicato calcola un grado di soddisfazione (0-1) basato su pesi di attenzione apprendibili sulle feature di input.
- Meccanismo di Spiegabilità 2: L'output è una combinazione ponderata dei predicati, permettendo di tracciare quali concetti logici hanno guidato la decisione.

C. Classificazione Gerarchica a Due Stadi

Per affrontare lo squilibrio estremo senza generare dati sintetici (SMOTE):

Stadio 1 (Rilevamento Binario): Classifica il traffico come "Normale" o "Attacco". Utilizza la Focal Loss per dare priorità agli esempi difficili da classificare.
Stadio 2 (Categorizzazione APT): Eseguito solo sui flussi classificati come attacchi nello Stadio 1. Classifica l'attacco in una delle 5 fasi APT (Compromissione Iniziale, Ricognizione, Movimento Laterale, Pivot, Esfiltrazione). Questo riduce drasticamente lo squilibrio di classe per la seconda fase.

D. Addestramento Multi-Obiettivo

La funzione di perdita totale combina tre componenti:

$L_b$ : Focal loss per la rilevazione binaria (priorità alta).
$L_a$ : Cross-entropy pesata per la categorizzazione multi-classe (penalizza errori su classi rare come "Compromissione Iniziale").
$L_l$ : Loss di coerenza logica che allinea l'output simbolico (LTN) con l'etichetta binaria reale, garantendo che il ragionamento simbolico sia rilevante per il compito di rilevamento.

3. Contributi Chiave

Primo Framework Neurosimbolico per IoT IDS basato su Trasformatori: Unisce il riconoscimento di pattern di BERT con il ragionamento logico vincolato degli LTN, fornendo spiegazioni intrinseche e non post-hoc.
Architettura Gerarchica per lo Squilibrio Estremo: Separa la rilevazione binaria dalla categorizzazione, evitando l'ambiguità dei dati sintetici e preservando l'interpretabilità dei pattern appresi.
Validazione Statistica dell'Interpretabilità: Fornisce la prima evidenza statistica (p < 0.05) che le feature su cui il modello si concentra sono effettivamente discriminative tra traffico normale e attacco, dimostrando che le spiegazioni non sono artefatti di apprendimento.
Adattabilità al Contesto IoT: Progettato per essere operativo in ambienti con risorse limitate e supervisione umana ridotta, grazie a bassi tassi di falsi positivi.

4. Risultati

Il modello è stato valutato sul dataset SCVIC-APT2021 (set di test: 56.432 campioni).

Rilevamento Binario (Stadio 1):
- F1 Score: 95,27%.
- Falso Positivo (FPR): 0,14% (critico per evitare l'affaticamento da allarmi in sistemi autonomi).
- Accuratezza: 99,70% (F1 pesato).
Categorizzazione Attacchi (Stadio 2):
- Macro F1 Score: 76,75%.
- Le prestazioni variano in base alla rarità della classe (es. 86,52% per "Compromissione Iniziale", 40,86% per "Esfiltrazione Dati" a causa della sua estrema rarità e somiglianza con la ricognizione).
Confronto con Baseline:
- Il modello neurosimbolico supera significativamente approcci puramente neurali (Pure BERT: Macro F1 0,39) e metodi ibridi senza ragionamento simbolico.
- Sebbene il Macro F1 sia leggermente inferiore rispetto ad alcuni metodi SOTA non interpretabili (82% vs 76%), il trade-off è giustificato dalla trasparenza, dalla validazione statistica e dal tasso di falsi positivi estremamente basso, essenziali per il dispiegamento reale.

5. Significato e Impatto

Questo lavoro rappresenta un passo avanti fondamentale verso sistemi di sicurezza IoT autonomi e affidabili.

Affidabilità Operativa: Dimostra che è possibile ottenere alte prestazioni di rilevamento in scenari di squilibrio estremo senza ricorrere a tecniche di bilanciamento dei dati che distorcono la realtà.
Trasparenza e Fiducia: A differenza dei modelli "black box", questo sistema permette agli analisti di sicurezza di verificare perché un allarme è stato generato, basandosi su feature di rete concrete e logica di dominio.
Validazione Statistica: La prova che le spiegazioni del modello corrispondono a differenze statistiche reali nel traffico di rete elimina il rischio di "spiegazioni allucinate", rendendo il sistema adatto per ambienti critici dove la supervisione umana è limitata.
Architettura Scalabile: La progettazione gerarchica riduce il carico computazionale, permettendo l'implementazione su gateway IoT o server di monitoraggio di rete.

In sintesi, il paper propone una soluzione che bilancia prestazioni, interpretabilità e robustezza statistica, risolvendo il dilemma tra l'alta accuratezza dei modelli deep learning e la necessità di trasparenza nei sistemi di sicurezza autonomi.