From Misclassifications to Outliers: Joint Reliability Assessment in Classification

Each language version is independently generated for its own context, not a direct translation.

Immagina di avere un guardia del corpo molto intelligente che lavora per te. Il suo compito è due:

Riconoscere i tuoi amici (i dati su cui è stato addestrato).
Riconoscere gli estranei pericolosi (i dati strani o sconosciuti).

Fino a oggi, gli scienziati hanno studiato questi due compiti come se fossero due lavori separati. Hanno creato guardie del corpo specializzate solo nel riconoscere gli estranei e altre specializzate solo nel non sbagliare con gli amici. Ma nella vita reale? La realtà è un caos misto: a volte arrivano estranei, a volte amici che si comportano in modo strano.

Questo articolo scientifico propone un nuovo modo di pensare: non possiamo separare le due cose. Un sistema davvero affidabile deve fare entrambe le cose contemporaneamente.

Ecco i punti chiave spiegati con delle metafore semplici:

1. Il Problema: La "Cecità" dei Metodi Vecchi

Immagina di avere due giudici in un tribunale:

Il Giudice A è bravissimo a dire "Questo non è un amico!" (rileva gli estranei), ma quando dice "Sì, è un amico", a volte sbaglia e accetta persone pericolose.
Il Giudice B è bravissimo a non sbagliare con gli amici, ma non sa riconoscere gli estranei e li fa entrare tutti.

Fino a ora, abbiamo valutato questi giudici separatamente. Ma se li mettiamo insieme in una stanza piena di gente mista, quale dei due è il migliore? È difficile dirlo perché i loro punteggi non si confrontano bene. È come cercare di paragonare la velocità di un'auto con l'altezza di un edificio: sono cose diverse.

2. La Soluzione: Il "Doppio Filtro" (Double Scoring)

Gli autori propongono di non usare un solo giudice, ma un sistema a doppio filtro.
Immagina un club esclusivo con due porte di sicurezza:

La prima porta (Filtro Estranei): Controlla se la persona è un estraneo. Se lo è, la ferma subito.
La seconda porta (Filtro Fiducia): Se la persona è passata la prima porta, la seconda controlla: "Sei sicuro di essere un amico? O stai solo fingendo?". Se non è abbastanza sicuro, la ferma comunque.

Questo sistema usa due "punteggi" (o metriche) diversi per prendere una decisione. È molto più sicuro perché non si affida a un'unica intuizione.

3. I Nuovi Regoli del Gioco (Le Metriche DS-F1 e DS-AURC)

Per capire se questo nuovo sistema funziona davvero, gli autori hanno inventato due nuovi "punteggi" (metriche):

DS-F1: È come cercare il momento perfetto in cui il club è al massimo della sicurezza e della accoglienza. Trova il punto esatto in cui si accettano tutti gli amici giusti e si rifiutano tutti i cattivi.
DS-AURC: È come guardare tutta la giornata del club. Non guarda solo il momento migliore, ma la media di quanto bene funziona il sistema dall'apertura alla chiusura, in ogni condizione possibile.

Questi nuovi punteggi ci dicono la verità: a volte un metodo sembra ottimo se guardi solo una cosa, ma con questi nuovi punteggi "doppi" si vede che in realtà è fragile.

4. Il Nuovo Guardiano: SURE+

Gli autori non si sono fermati alla teoria. Hanno creato un nuovo guardiano del corpo chiamato SURE+.
Pensa a SURE+ come a un atleta di élite che ha fatto un allenamento completo:

Ha fatto esercizi di resistenza (per non stancarsi con dati strani).
Ha fatto esercizi di precisione (per non sbagliare con gli amici).
Ha imparato a riconoscere sia i nemici evidenti (come un ladro con la maschera) sia quelli subdoli (un ladro vestito da poliziotto).

I test hanno mostrato che SURE+ è molto più affidabile dei vecchi metodi, sia quando i dati sono semplici, sia quando sono molto complessi e simili tra loro.

5. La Lezione per il Futuro

La grande scoperta di questo lavoro è che l'affidabilità è un tutto unico.
Non puoi dire "Il mio sistema è sicuro perché rileva bene gli estranei" se poi sbaglia spesso con gli amici che ha già visto. E non puoi dire "È sicuro perché non sbaglia con gli amici" se lascia entrare chiunque di sconosciuto.

In sintesi:
Per costruire un'intelligenza artificiale che possiamo fidarci davvero (specialmente in cose importanti come la guida autonoma o la diagnosi medica), dobbiamo smettere di guardare le cose a compartimenti stagni. Dobbiamo usare un approccio "doppio" che controlla sia la novità che la certezza, usando nuovi strumenti di misura che ci dicono la verità su quanto il sistema è robusto nella vita reale.

È come passare dal controllare solo il passaporto (per vedere se sei straniero) al controllare anche il tuo comportamento e la tua storia (per vedere se sei davvero affidabile), facendo entrambe le cose in un unico controllo rapido e sicuro.

Each language version is independently generated for its own context, not a direct translation.

Titolo: Da Errori di Classificazione a Outlier: Valutazione Congiunta dell'Affidabilità nella Classificazione

1. Il Problema

L'implementazione di classificatori di machine learning in applicazioni critiche (es. rilevamento di incendi o fumo) richiede non solo alta accuratezza, ma anche affidabilità. Un sistema affidabile deve essere capace di:

Rilevare input Out-of-Distribution (OOD) (dati che non appartengono alla distribuzione di addestramento) e rifiutarli.
Prevedere i propri errori su input In-Distribution (ID) (riconoscere quando una classificazione è probabilmente errata).

Attualmente, la ricerca tratta il rilevamento OOD e la previsione degli errori (failure prediction) come problemi separati. Questo approccio frammentato porta a valutazioni incoerenti: un modello potrebbe eccellere nel rilevare OOD ma fallire nel riconoscere i propri errori su dati ID, o viceversa. Inoltre, le metriche esistenti valutano questi aspetti isolatamente, rendendo difficile determinare quale modello sia realmente robusto in scenari reali dove coesistono dati ID e OOD.

2. Metodologia Proposta

Gli autori propongono un cambio di paradigma: trattare il rilevamento OOD e la previsione degli errori come aspetti complementari di un'unica sfida di affidabilità.

A. Nuova Struttura di Valutazione: Double Scoring (DS)

Invece di utilizzare una singola funzione di punteggio con una soglia, il framework proposto utilizza due funzioni di punteggio distinte per ogni input $x$ :

$s_{OOD}(x)$ : Punteggio per il rilevamento OOD (valori alti indicano che il campione è ID).
$s_{ID}(x)$ : Punteggio di confidenza per la classificazione ID (valori alti indicano che la previsione è corretta).

Il sistema di decisione diventa binario a due stadi:

Fase 1: Il campione è ID? (Se $s_{OOD} > \tau_{OOD}$ , si accetta come ID).
Fase 2: Se è ID, possiamo fidarci dell'etichetta? (Se $s_{ID} > \tau_{ID}$ , si accetta la previsione).

Questo divide i campioni in quattro categorie: True Accept (ID corretti), True Reject (OOD o ID errati rifiutati), False Accept (OOD o ID errati accettati) e False Reject (ID corretti rifiutati).

B. Nuove Metriche di Valutazione

Per quantificare le prestazioni di questo sistema a doppia soglia, vengono introdotte due metriche:

DS-F1 (Double Scoring F1): Estende la classica F1-score cercando la coppia di soglie $(\tau_{OOD}, \tau_{ID})$ che massimizza l'F1 su tutto lo spazio delle soglie. Misura il miglior punto operativo congiunto possibile.
DS-AURC (Double Scoring Area Under Risk-Coverage): Estende la metrica AURC per valutare le prestazioni su tutto lo spettro di soglie possibili. Calcola l'area sotto la curva del rischio selettivo, selezionando per ogni livello di copertura il rischio minimo tra tutte le coppie di soglie disponibili.

Queste metriche garantiscono che l'uso del "double scoring" non peggiori mai le prestazioni rispetto ai metodi a singola soglia (DS-F1 $\ge$ F1 standard, DS-AURC $\le$ AURC standard).

C. SURE+: Un Framework di Addestramento Unificato

Oltre alla valutazione, gli autori estendono il classificatore affidabile SURE introducendo SURE+, un framework di addestramento progettato per massimizzare l'affidabilità sia su dati ID che OOD. SURE+ integra:

Augmentation Unificata: Uso combinato di RegMixup (interpolazione di feature) e RegPixMix (perturbazioni a livello di pixel) per regolarizzare i confini decisionali.
Ottimizzazione Robusta: Sostituzione di SAM (Sharpness-Aware Minimization) con la sua variante F-SAM per una convergenza più stabile e minima piatti.
Ensembling Stabile: Sostituzione di SWA (Stochastic Weight Averaging) con EMA (Exponential Moving Average) dei parametri, combinato con statistiche di Re-normalized Batch Normalization (Re-BN).
Semplificazione: Rimozione di componenti complessi di SURE originale (come la Correctness Ranking Loss e il Cosine Similarity Classifier) che offrivano guadagni marginali.

3. Risultati Sperimentali

Gli esperimenti sono stati condotti sul benchmark OpenOOD utilizzando ResNet-18 su CIFAR-100 e DINOv3 ViT-L/16 su ImageNet-1K.

Superiorità del Double Scoring: Le metriche DS-F1 e DS-AURC mostrano costantemente che l'approccio a doppia soglia supera i metodi a singola soglia. In particolare, i guadagni sono significativi su dataset Far-OOD (distribuzioni molto diverse), mentre su Near-OOD (distribuzioni simili) i benefici sono più marginali, evidenziando i limiti attuali delle tecniche post-hoc.
Performance di SURE+: SURE+ ottiene lo stato dell'arte (SOTA) sia sulle metriche di affidabilità congiunta (DS-F1, DS-AURC) che sull'accuratezza ID.
- Su CIFAR-100: Raggiunge un'accuratezza ID del 81.66% e i migliori punteggi DS su quasi tutti i metodi post-hoc testati.
- Su ImageNet-1K: Raggiunge un'accuratezza del 88.49% mantenendo la leadership nelle metriche di affidabilità.
Analisi di Ablazione: Ogni componente di SURE+ contribuisce significativamente; la rimozione di qualsiasi parte porta a un degrado delle prestazioni.

4. Contributi Chiave

Riconoscimento della Complementarità: Dimostrano che rilevamento OOD e previsione errori sono aspetti intrinsecamente collegati e che valutarli separatamente porta a conclusioni fuorvianti.
Nuovo Framework di Valutazione: Introduzione di DS-F1 e DS-AURC, metriche che valutano congiuntamente la capacità di un modello di gestire sia input OOD che errori ID, offrendo una visione più realistica dell'affidabilità.
Metodo SURE+: Sviluppo di un classificatore robusto che integra le migliori pratiche di rilevamento OOD e previsione errori in un'unica pipeline di addestramento semplificata ed efficace.
Guida Pratica: Forniscono evidenze empiriche che, sebbene le tecniche avanzate di rilevamento OOD aiutino su shift "lontani", la sfida principale rimane la discriminazione su shift "vicini" (Near-OOD), dove le attuali soluzioni offrono benefici limitati.

5. Significato e Impatto

Questo lavoro stabilisce un nuovo standard per la valutazione dei sistemi di classificazione affidabili. Spostando il focus da metriche isolate a una valutazione unificata, permette di identificare modelli che sono realmente pronti per il deployment in scenari reali e critici per la sicurezza. La proposta di SURE+ offre una base solida e riproducibile per costruire modelli che non solo classificano bene, ma sanno anche quando non fidarsi delle proprie previsioni, riducendo il rischio di errori catastrofici in applicazioni come la guida autonoma, la diagnostica medica o il rilevamento di incendi.