Formal Reasoning About Confidence and Automated Verification of Neural Networks

Each language version is independently generated for its own context, not a direct translation.

Immagina di avere un assistente personale molto intelligente (una rete neurale) che ti aiuta a riconoscere le immagini. Se gli mostri una foto di un cane, lui ti dice: "È un cane!". Ma cosa succede se qualcuno modifica leggermente la foto, magari aggiungendo un po' di "rumore" invisibile all'occhio umano? Un assistente normale potrebbe dire: "Oh, ora è un gatto!". Questo è un problema, specialmente se l'assistente guida un'auto a guida autonoma o fa diagnosi mediche.

Fino a poco tempo fa, gli scienziati si chiedevano solo: "L'assistente cambia idea se modifichiamo un po' la foto?". Se la risposta era sì, l'assistente era considerato "insicuro".

Ma c'è un dettaglio importante che tutti hanno ignorato: la sicurezza non è solo cambiare idea, è anche quanto si è sicuri di cambiare idea.

Ecco di cosa parla questo paper, spiegato come se fosse una storia:

1. Il Problema: La "Fiducia" è tutto

Immagina due scenari:

Scenario A: L'assistente guarda una foto di un cavallo. La modifica un po'. Lui dice: "Forse è un cervo... ma sono molto incerto, la mia fiducia è del 5%".
Scenario B: L'assistente guarda una foto di una nave. La modifica un po'. Lui dice: "È un cavallo! Sono sicuro al 99%".

Nel primo caso, l'assistente ha sbagliato, ma era confuso. Nel secondo, ha sbagliato ed era sicuro di aver ragione.
Gli scienziati dicono: "Nel primo caso, forse possiamo perdonare l'assistente. Nel secondo, è pericoloso".
Il problema è che gli strumenti attuali per testare questi assistenti sono come un interruttore on/off: o l'assistente è perfetto, o è un disastro. Non sanno gestire le sfumature della "fiducia".

2. La Soluzione: Un "Traduttore" Magico

Gli autori del paper hanno detto: "Basta! Creiamo un linguaggio universale per dire all'assistente: 'Se sbagli ma sei poco sicuro, va bene. Se sbagli ed è sicuro, allora c'è un problema'".

Hanno creato una grammatica speciale (un set di regole) che permette di scrivere queste regole complesse. Ma c'è un ostacolo: i "motori di verifica" (i controllori che testano l'assistente) sono molto stupidi. Capiscono solo frasi semplici come "Se A allora B". Non capiscono frasi complicate con "E", "O", "Se la fiducia è alta", ecc.

3. Il Trucco Geniale: Aggiungere un "Cappello" alla Rete

Invece di cercare di insegnare ai controllori stupidi a capire frasi complicate (cosa che richiederebbe di riscrivere il loro codice, come smontare un motore per cambiarne l'olio), gli autori hanno pensato: "Perché non gli diamo un cappello?".

Hanno inventato un metodo per aggiungere un paio di strati extra (come un cappello) direttamente alla rete neurale.

Come funziona? Prendono la regola complessa (es. "Se la fiducia è bassa, ignora l'errore") e la trasformano in un piccolo circuito elettrico fatto di neuroni aggiuntivi.
Il risultato? La rete neurale originale, con il suo nuovo "cappello", produce un unico numero finale. Se quel numero è positivo, significa che la regola è rispettata. Se è negativo, c'è un problema.

È come se invece di spiegare al controllore la complessa teoria della fiducia, gli dessimo un semaforo: Verde (tutto ok, anche se c'è un errore piccolo) o Rosso (pericolo, errore grave).

4. Perché è fantastico?

Prima, per testare queste regole complesse, bisognava usare strumenti lenti e specifici, come se dovessi usare un martello per avvitare una vite.
Ora, con questo "cappello", puoi usare i migliori strumenti esistenti (come αβ-CROWN, che sono come Ferrari nel mondo dei test) senza doverli modificare.

I risultati:
Hanno testato questo metodo su 8.870 casi diversi, con reti neurali enormi (alcune con 138 milioni di parametri!).

Risultato: Il loro metodo è molto più veloce e preciso dei metodi vecchi.
Vantaggio: Riescono a dire: "Questa auto a guida autonoma è sicura, anche se a volte confonde un cane con un gatto, purché non ne sia troppo sicura".

In sintesi

Immagina di dover controllare se un guardiano notturno è affidabile.

Metodo vecchio: Se il guardiano sbaglia anche solo un'occhiata, lo licenzi.
Metodo nuovo (di questo paper): Chiediamo al guardiano: "Se sbagli, quanto ne sei sicuro?". Se è sicuro al 100%, lo licenziamo. Se è confuso, gli diamo un'occhiata di più.
Il trucco: Invece di cambiare il modo in cui controlliamo il guardiano, gli abbiamo dato un cappello speciale che trasforma le sue risposte confuse in un semplice segnale "Sicuro" o "Pericoloso" che i nostri strumenti capiscono perfettamente.

È un modo intelligente per rendere l'intelligenza artificiale più umana, flessibile e, soprattutto, più sicura.

Each language version is independently generated for its own context, not a direct translation.

1. Il Problema

Negli ultimi anni, la ricerca sulla robustezza delle reti neurali si è concentrata principalmente sulla verifica formale della capacità del modello di mantenere la stessa decisione di classificazione quando l'input subisce piccole perturbazioni (esempi avversariali). Tuttavia, la maggior parte di questi approcci ignora un aspetto cruciale: la confidenza della rete sulla sua output.

Le reti neurali non producono solo un'etichetta di classe, ma anche una distribuzione di probabilità (tramite la funzione softmax) che indica il grado di certezza della predizione. L'assenza di considerazione per la confidenza porta a due limitazioni principali:

Falsi positivi di non-robustezza: Una rete potrebbe essere classificata come "non robusta" se una perturbazione causa un errore di classificazione, anche se tale errore avviene con una confidenza estremamente bassa (es. 5%). In contesti di sicurezza critica, un errore con bassa confidenza potrebbe essere accettabile o gestibile.
Falsi negativi di vulnerabilità: Una rete potrebbe essere considerata robusta perché la classe predetta non cambia, ma la confidenza sulla classe corretta crolla drasticamente (es. dal 96% al 22%). Questo indica una fragilità intrinseca del modello che le verifiche standard non rilevano.

Esistono già varianti di robustezza (come la top-k robustness o la strong robustness), ma mancano strumenti unificati per specificare e verificare queste proprietà in modo sistematico, specialmente quando coinvolgono combinazioni logiche complesse di vincoli lineari e vincoli basati sulla confidenza (non lineari a causa della softmax).

2. Metodologia Proposta

Gli autori propongono un framework unificato che combina la definizione di una grammatica espressiva per le specifiche di robustezza con una tecnica innovativa di codifica tramite l'aggiunta di layer alla rete neurale.

A. Grammatica per Specifiche Basate sulla Confidenza

Viene definita una grammatica semplice ma espressiva che permette di combinare:

Vincoli Lineari (LE): Espressioni lineari sugli output della rete (logit).
Vincoli di Confidenza (CC): Condizioni sulla probabilità di una classe, derivata dalla funzione softmax (es. $Conf(\bar{y}, t) > \tau$ ).
Combinazioni Booleane (PC): Operazioni logiche (AND, OR) tra vincoli lineari e di confidenza.

Questa grammatica cattura varianti esistenti (robustezza forte, top-k) e ne introduce di nuove (robustezza rilassata).

B. Approssimazione della Funzione Softmax

Poiché la funzione softmax è non lineare (esponenziale) e difficile da gestire direttamente nei solver formali standard (che lavorano su aritmetica lineare razionale - LRA), gli autori sviluppano un metodo di approssimazione con garanzie formali.

Scompongono il vincolo di confidenza in condizioni lineari sui logit.
Introducono un parametro di errore $\delta$ che lega la differenza tra il logit della classe predetta e il logit della seconda classe migliore alla soglia di confidenza desiderata.
Dimostrano che questa approssimazione è sound (sicura): se la proprietà approssimata è verificata, lo è anche quella originale, fornendo al contempo un limite inferiore sulla confidenza degli eventuali controesempi.

C. Tecnica di Codifica tramite Layer Aggiuntivi

La sfida principale è che i solver di verifica più avanzati (come $\alpha\beta$ -CROWN) sono ottimizzati per post-condizioni semplici (es. $y > 0$ o disgiunzioni/congiunzioni semplici di atomi lineari), non per formule booleane arbitrarie complesse.
Invece di modificare il codice dei solver (spesso chiuso o complesso), gli autori propongono di trasformare la post-condizione in una serie di layer aggiuntivi da appendere alla rete neurale originale:

Trasformazione in Circuiti: La formula booleana della post-condizione viene convertita in un circuito neurale composto da operazioni lineari, funzioni di attivazione ReLU e operazioni di "flip" (inversione del segnale).
Uso delle ReLU: Le funzioni ReLU sono utilizzate per modellare le operazioni logiche (AND/OR). Ad esempio, la somma di ReLU può simulare una disgiunzione o una congiunzione a seconda della polarità dei segnali.
Operazione Flip: Per gestire la transizione tra congiunzioni e disgiunzioni (che interpretano i segnali in modo opposto), viene introdotta un'operazione di flip che inverte l'output mantenendo bassi i limiti di errore.
Risultato: La post-condizione complessa viene ridotta a un singolo vincolo semplice sull'output del nuovo layer aggiunto (es. $y_{new} \geq 0$ ).

Questo approccio permette di utilizzare qualsiasi solver di verifica dello stato dell'arte come una "scatola nera" senza modifiche al suo codice sorgente.

3. Contributi Chiave

Grammatica Unificata: Definizione di un linguaggio formale per specificare proprietà di robustezza che includono la confidenza, coprendo casi noti e nuovi scenari (robustezza rilassata, forte, top-k).
Approssimazione della Softmax: Sviluppo di un metodo per approssimare la funzione di confidenza (softmax) in vincoli lineari con garanzie formali sull'errore di approssimazione.
Tecnica di Codifica Generale: Proposta di un metodo unificato per verificare qualsiasi istanza della grammatica aggiungendo pochi layer alla rete, rendendo le proprietà verificabili da solver esistenti come $\alpha\beta$ -CROWN e PyRAT.
Valutazione Estensiva: Sperimentazione su un vasto set di benchmark (8.870 casi di studio) che include reti da 0.51K a 13.16M unità di attivazione non lineari (fino a 138M parametri), dimostrando l'efficacia del metodo su dataset reali (MNIST, CIFAR-10, GTSRB, ImageNet).

4. Risultati Sperimentali

Gli esperimenti sono stati condotti confrontando il loro approccio "layer-based" con:

Codifiche ad-hoc dirette nel solver basato su vincoli Marabou.
L'uso del solver $\alpha\beta$ -CROWN (leader nelle competizioni VNN-COMP) tramite la loro codifica.

Risultati principali:

Prestazioni Superiori: L'approccio proposto con $\alpha\beta$ -CROWN supera significativamente sia le codifiche ad-hoc su Marabou sia le codifiche layer-based su Marabou. Questo è dovuto all'integrazione con tecniche avanzate di $\alpha\beta$ -CROWN come gli attacchi PGD (Projected Gradient Descent) e il bound propagation CROWN.
Scalabilità: Il metodo è stato in grado di verificare proprietà complesse su reti di grandi dimensioni (es. VGGNet-16 con 138M parametri) che altrimenti richiederebbero modifiche invasive ai solver o fallirebbero per timeout.
Efficienza: La tecnica riduce il tempo di verifica e il numero di timeout rispetto alle codifiche dirette, specialmente per proprietà che coinvolgono combinazioni booleane complesse.
Analisi delle Varianti:
- La robustezza rilassata (che ignora errori a bassa confidenza) ha mostrato un aumento significativo dei casi "sicuri" (safe) man mano che la soglia di confidenza aumentava.
- La robustezza forte (che richiede che la confidenza non crolli) ha rivelato vulnerabilità in reti che sembravano robuste secondo gli standard classici.
- La top-k robustness è stata verificata con successo, mostrando che le reti possono mantenere l'insieme delle prime k predizioni anche se la classificazione esatta cambia.

5. Significato e Impatto

Questo lavoro rappresenta un passo avanti fondamentale nella verifica formale delle reti neurali per applicazioni safety-critical (guida autonoma, diagnosi medica):

Realismo: Sposta il focus dalla semplice correttezza della classe predetta alla qualità della predizione (confidenza), offrendo una valutazione più realistica della sicurezza del sistema.
Accessibilità: Rimuove la barriera tecnica di dover modificare il codice sorgente di solver complessi per supportare nuove proprietà. Gli utenti possono ora specificare proprietà ricche e complesse semplicemente appendendo layer alla rete.
Generalità: Fornisce un framework unificato che può adattarsi a future varianti di robustezza senza richiedere nuovi algoritmi di verifica, ma solo nuove specifiche nella grammatica proposta.

In sintesi, il paper dimostra che è possibile integrare formalmente la logica della confidenza nei processi di verifica delle reti neurali, rendendo i sistemi più sicuri e le analisi più affidabili, tutto ciò mantenendo la compatibilità con gli strumenti di verifica più potenti attualmente disponibili.