A Systematic Comparison of Training Objectives for Out-of-Distribution Detection in Image Classification

Questo articolo presenta un confronto sistematico di quattro obiettivi di addestramento per il rilevamento di dati fuori distribuzione nella classificazione di immagini, rivelando che la Cross-Entropy Loss offre le prestazioni più coerenti sia per i dati vicini che lontani dalla distribuzione rispetto ad altre funzioni di perdita.

Furkan Genç, Onat Özdemir, Emre Akbas

Pubblicato 2026-03-10
📖 5 min di lettura🧠 Approfondimento

Each language version is independently generated for its own context, not a direct translation.

Immagina di avere un cuoco esperto (il tuo modello di intelligenza artificiale) che ha passato anni a cucinare solo piatti italiani. È diventato bravissimo a riconoscere una pizza, una pasta o un risotto. Ma cosa succede se gli porti un sushi giapponese o un tacos messicano? Il cuoco potrebbe confondersi, pensare che sia un tipo di pasta strano e servire il piatto sbagliato, oppure potrebbe dire: "Non so cos'è questo, non è nella mia lista!".

Questo è il problema dell'Out-of-Distribution (OOD) Detection. Nel mondo reale, le auto a guida autonoma o i medici che usano l'AI devono sapere quando si trovano di fronte a qualcosa che non hanno mai visto prima, per evitare disastri.

Questo articolo è come un grande torneo di cucina dove si mettono a confronto quattro diversi "metodi di addestramento" per vedere quale rende il cuoco più sicuro nel riconoscere i piatti sconosciuti, senza però fargli perdere la capacità di cucinare bene quelli che conosce già.

Ecco i quattro "allenatori" (o metodi di addestramento) confrontati:

1. L'Allenatore Classico: Cross-Entropy Loss (La Probabilità)

Immagina questo allenatore come un maestro di scuola tradizionale. Gli dice al cuoco: "Se vedi una pizza, devi essere sicuro al 100% che è una pizza. Se vedi un sushi, devi dire 'non è una pizza'".

  • Come funziona: Si basa sulle probabilità. "Quanto è probabile che questo sia un italiano?"
  • Il risultato: È il metodo più affidabile e costante. Anche se non è sempre il più veloce nel riconoscere i sushi lontani, non sbaglia quasi mai i piatti italiani. È la scelta "sicura" per la maggior parte delle situazioni.

2. L'Allenatore "Vicini e Nemici": Triplet Loss (La Distanza)

Questo allenatore è come un detective che gioca a "trova la differenza". Prende tre foto: una pizza (ancora), un'altra pizza (positiva) e un sushi (negativo). Dice: "Avvicina le due pizze, allontana il sushi".

  • Come funziona: Cerca di creare uno spazio dove le cose simili sono vicine e quelle diverse sono lontane.
  • Il risultato: Funziona bene se ci sono pochi piatti (come 10 tipi di pizza). Ma se provi a insegnargli 200 tipi di piatti diversi (come nel caso di ImageNet), si confonde e si perde. Diventa troppo complicato tenere traccia di tutte le distanze e il cuoco inizia a sbagliare anche i piatti italiani.

3. L'Allenatore "Modello": Prototype Loss (Il Prototipo)

Immagina questo allenatore che crea un manichino perfetto per ogni tipo di piatto. Per ogni classe (es. "Pizza"), crea un'immagine ideale e dice: "Il tuo compito è far assomigliare ogni pizza che cucini a questo manichino perfetto".

  • Come funziona: Cerca di raggruppare tutti i piatti simili intorno al loro "eroe" ideale.
  • Il risultato: È eccellente nel cucinare bene i piatti italiani (alta precisione). Riusce a capire bene le sfumature. Tuttavia, quando arriva un sushi, a volte pensa: "Beh, assomiglia un po' alla mia pizza ideale", quindi non lo scarta subito. È bravo, ma non sempre il migliore nel dire "Questo è sconosciuto!".

4. L'Allenatore "Classifica": Average Precision (AP) Loss (La Classifica)

Questo allenatore non si preoccupa tanto della probabilità esatta, ma di mettere in ordine. Dice: "Non importa se sei sicuro al 99%, l'importante è che metti il sushi in fondo alla lista e la pizza in cima".

  • Come funziona: Si concentra sull'ordinamento corretto: "Cosa è più probabile? Mettilo primo".
  • Il risultato: È molto bravo a riconoscere gli intrusi (i sushi) e a metterli in fondo alla lista, specialmente quando i piatti sono molto diversi tra loro. È un ottimo concorrente, ma a volte perde un po' di precisione nel cucinare i piatti italiani rispetto al metodo classico.

Cosa hanno scoperto gli autori? (Il Verdetto)

Hanno fatto le prove su tre "cucine" diverse (piccole, medie e grandi):

  1. Nelle cucine piccole (pochi piatti): Tutti gli allenatori sono bravi. Il "Detective" (Triplet) e il "Classificatore" (AP) sono molto bravi a scovare gli intrusi, ma il "Maestro Classico" (Cross-Entropy) è comunque molto solido.
  2. Nelle cucine grandi (molti piatti): Qui le cose cambiano.
    • Il Detective (Triplet) fallisce miseramente: si perde nel caos di troppe distanze da calcolare.
    • Il Modello (Prototype) è bravissimo a cucinare, ma meno bravo a scovare gli intrusi.
    • Il Classificatore per Ordine (AP) è bravo, ma...
    • Il Maestro Classico (Cross-Entropy) rimane il campione indiscusso. È quello che offre il miglior equilibrio: cucina benissimo i piatti italiani e, allo stesso tempo, è il più affidabile nel dire "Ehi, questo non è un piatto italiano!".

La Morale della Favola

Spesso pensiamo che per risolvere problemi complessi servano metodi di addestramento strani e complicati (come il Detective o il Modello). Ma questo studio ci dice che, per la maggior parte delle situazioni reali, il metodo classico e semplice (Cross-Entropy) è ancora il migliore.

È come dire: "Non serve inventare un nuovo tipo di coltello per tagliare il pane; il coltello che hai già in cucina, se usato bene, funziona meglio di tutti i gadget costosi".

In sintesi: Se vuoi costruire un'AI sicura che sappia riconoscere quando qualcosa è "strano", non preoccuparti troppo di cambiare il metodo di addestramento. Usa quello classico, è robusto, affidabile e funziona bene anche quando le cose si complicano.