Know When to Abstain: Optimal Selective Classification with Likelihood Ratios

Each language version is independently generated for its own context, not a direct translation.

Immagina di essere un barista esperto in un caffè molto affollato. La tua abilità è preparare il caffè perfetto per ogni cliente che entra. Tuttavia, ogni tanto arriva un cliente che ordina qualcosa di strano, o forse è un giorno di pioggia e i clienti sono nervosi e confusi. Se provi a fare il caffè per tutti, rischi di sbagliare e servire una tazza bruciata o troppo acida, rovinando la reputazione del bar.

La soluzione intelligente? Saper dire "Non lo so".

Questo è il cuore del lavoro presentato in questo articolo: "Saper quando astenersi" (Know When to Abstain). Gli autori, Alvin Heng e Harold Soh, propongono un nuovo modo per insegnare alle intelligenze artificiali (AI) a riconoscere quando sono insicure e a fermarsi prima di fare un errore, invece di indovinare a caso.

Ecco come funziona, spiegato con parole semplici e metafore:

1. Il Problema: L'AI che non sa quando fermarsi

Oggi, le AI sono bravissime a riconoscere gatti, cani o a rispondere a domande. Ma sono anche un po' "presuntuose": se gli mostri un'immagine di un gatto disegnato come un'opera d'arte astratta (invece che una foto reale), l'AI potrebbe comunque dire: "È un gatto!" con il 99% di sicurezza, anche se sta mentendo.
Nella vita reale, questo è pericoloso. Se un'auto a guida autonoma non sa quando fermarsi davanti a una nebbia strana, o se un medico AI diagnostica una malattia su una radiografia sfocata, gli errori costano cari.

2. La Soluzione: Il "Filtro Neyman-Pearson"

Gli autori usano un vecchio trucco della statistica (chiamato Lemma di Neyman-Pearson) per creare un filtro intelligente.
Immagina che l'AI abbia due "menti":

La mente della Correttezza: Ricorda tutti i casi in cui ha avuto ragione in passato.
La mente dell'Errore: Ricorda tutti i casi in cui ha sbagliato in passato.

Il nuovo sistema chiede all'AI: "Questa nuova situazione assomiglia di più a quando ho avuto ragione, o a quando ho sbagliato?"

Se assomiglia alla mente della Correttezza: "Ok, procedi, fai la previsione!"
Se assomiglia alla mente dell'Errore (o è un mix confuso): "Stop! Non lo so. Lascia che intervenga un umano."

3. Le Nuove Strumenti: "Il Righello" e "Il Vicinato"

Per capire se un input è "sicuro" o "pericoloso", gli autori hanno creato due nuovi strumenti di misurazione:

∆-MDS (Il Righello Statistico): Immagina di avere due gruppi di amici: quelli che ti hanno sempre dato ragione e quelli che si sono sempre sbagliati. Questo strumento misura quanto il nuovo cliente è "vicino" al gruppo dei "sempre corretti" e quanto è "lontano" dal gruppo dei "sempre sbagliati". Se è molto vicino ai corretti, l'AI lavora. Se è nel mezzo o vicino agli sbagliati, l'AI si ferma.
∆-KNN (Il Vicinato): Questo è come chiedere ai tuoi 5 migliori amici (i vicini più prossimi) cosa ne pensano. Se i tuoi amici "corretti" sono tutti vicini a te e gli amici "sbagliati" sono lontani, allora sei al sicuro. Se i due gruppi sono mescolati, è meglio non dire nulla.

4. Il Trucco Magico: La Combinazione

Gli autori hanno scoperto che usare solo il "Righello" o solo il "Vicinato" va bene, ma usarli insieme è ancora meglio. È come avere sia una bussola che una mappa: se una ti dice che sei sulla strada giusta e l'altra conferma, puoi procedere con sicurezza.
Hanno combinato questi nuovi strumenti con metodi vecchi (basati sui "logit", che sono come i voti interni dell'AI) per creare un sistema ibrido super potente.

5. Perché è importante? (Il contesto reale)

Fino a poco tempo fa, si pensava che le AI funzionassero bene solo se il mondo rimaneva uguale (es. foto di gatti sempre uguali). Ma la realtà è diversa: le immagini possono essere disegnate, sfocate, o di notte (cambiamento di covariate).
Questo nuovo metodo è speciale perché funziona benissimo anche quando il mondo cambia. È come se il barista imparasse a riconoscere che un cliente con l'ombrello (pioggia) è diverso da uno con gli occhiali da sole (sole), ma sa comunque quando è troppo confuso per ordinare il caffè.

In sintesi

Questo paper insegna alle macchine a essere umane nel loro limite: a riconoscere quando non sono sicure.

Prima: L'AI indovinava sempre, anche quando sbagliava.
Ora: L'AI usa un "faro" statistico per vedere se è nella nebbia. Se c'è nebbia, dice: "Non lo so, chiedi a un umano".

Il risultato? Meno errori, più fiducia e sistemi più sicuri, specialmente quando le cose cambiano e diventano imprevedibili. È un passo avanti verso un'intelligenza artificiale che non è solo intelligente, ma anche saggia.

Each language version is independently generated for its own context, not a direct translation.

1. Il Problema

La classificazione selettiva mira a migliorare l'affidabilità dei modelli predittivi permettendo loro di astenersi dal fare previsioni su input incerti (ad esempio, dicendo "non lo so"), deferendo tali casi a esperti umani.
Tuttavia, esistono due lacune principali nella letteratura attuale:

Mancanza di linee guida principiali: Sebbene esistano risultati teorici fondanti (come quelli di Chow, 1970), manca una guida generale e rigorosa per progettare funzioni di selezione efficaci per le moderne reti neurali profonde.
Focus limitato sugli spostamenti di distribuzione: La maggior parte delle valutazioni avviene in setting i.i.d. (indipendenti e identicamente distribuiti). Pochi lavori esplorano la classificazione selettiva sotto spostamenti di covariata (covariate shift), dove la distribuzione degli input di test ( $p(x)$ ) cambia rispetto al training, mentre lo spazio delle etichette ( $p(y)$ ) rimane invariato. Questo scenario è sempre più rilevante, specialmente nei modelli visione-linguaggio (VLM) come CLIP, dove i set di etichette sono grandi e variabili, rendendo gli spostamenti prevalentemente di natura covariata.

2. Metodologia

Gli autori propongono un nuovo quadro teorico basato sul Lemma di Neyman-Pearson, un risultato classico della statistica che caratterizza la regola di rifiuto ottimale come un test del rapporto di verosimiglianza (Likelihood Ratio Test).

Fondamenti Teorici

Il problema viene riformulato come un test di ipotesi:

$H_0$ : Il classificatore fa una previsione corretta.
$H_1$ : Il classificatore fa una previsione errata.

Il Lemma di Neyman-Pearson dimostra che, per minimizzare il tasso di errore di tipo II (falsi positivi) a parità di errore di tipo I (falsi negativi), la regola decisionale ottimale deve basarsi sul rapporto di verosimiglianza:
$s(x) = \frac{p_c(x)}{p_w(x)}$
dove $p_c(x)$ è la densità di probabilità che il modello classifichi correttamente l'input $x$ , e $p_w(x)$ è la densità che lo classifichi erroneamente. Qualsiasi trasformazione monotona di questo rapporto è anch'essa ottimale.

Nuovi Selettori Proposti

Per approssimare questo rapporto di verosimiglianza in pratica, gli autori introducono due nuovi metodi basati sulla distanza, che separano esplicitamente le statistiche dei campioni addestrati classificati correttamente da quelli classificati erroneamente:

$\Delta$ -MDS (Mahalanobis Distance):
- Invece di stimare una singola distribuzione per classe, il metodo mantiene due insiemi di statistiche per classe: medie e covarianze per i campioni classificati correttamente ( $\mu^c, \Sigma^c$ ) e per quelli classificati erroneamente ( $\mu^w, \Sigma^w$ ).
- Il punteggio è la differenza tra la distanza di Mahalanobis verso la distribuzione "corretta" e quella verso la distribuzione "errata".
- Teoricamente ottimale se le rappresentazioni delle feature seguono distribuzioni Gaussiane.
$\Delta$ -KNN (k-Nearest Neighbors):
- Un approccio non parametrico che calcola la differenza tra la distanza logaritmica media verso i $k$ -vicini più prossimi nei set di feature classificati correttamente ( $A_c$ ) e quelli classificati erroneamente ( $A_w$ ).
- È asintoticamente ottimale senza assumere forme parametriche specifiche per le distribuzioni $p_c$ e $p_w$ .
Combinazione Lineare:
- Gli autori propongono di combinare linearmente i punteggi basati sulla distanza (es. $\Delta$ -MDS o $\Delta$ -KNN) con punteggi basati sui logit (es. RLog - Raw Logits, o MSP).
- Dimostrano teoricamente che una combinazione lineare di punteggi ottimali di Neyman-Pearson rimane ottimale sotto determinate assunzioni di densità "tiltata".

3. Contributi Chiave

Quadro Teorico Unificato: Introdurre per la prima volta un framework basato sul Lemma di Neyman-Pearson per definire l'ottimalità nella classificazione selettiva, unificando il comportamento di diverse basi di riferimento esistenti (come MSP e RLog) come approssimazioni di questo test.
Nuovi Algoritmi: Proposta di due nuovi selettori ( $\Delta$ -MDS e $\Delta$ -KNN) che sfruttano esplicitamente la distinzione tra errori e successi nell'addestramento per stimare il rapporto di verosimiglianza.
Valutazione Estensiva sotto Covariate Shift: Esecuzione di una valutazione completa su task di visione e linguaggio, dimostrando che i metodi proposti superano le basi di riferimento esistenti, specialmente in scenari di spostamento di covariata e su modelli potenti come i VLM (es. CLIP).

4. Risultati Sperimentali

Gli esperimenti sono stati condotti su:

Visione: ImageNet-1K e le sue varianti con spostamento di covariata (ImageNet-R, ImageNet-A, ObjectNet, ImageNet-V2, ImageNet-Sketch, ImageNet-C).
Linguaggio: Dataset Amazon Reviews.
Modelli: CLIP (Zero-shot VLM), EVA (Supervised), ResNet50 e DistilBERT.

Metriche: Area Under the Risk-Coverage Curve (AURC) e NAURC (Normalizzata). Valori più bassi indicano prestazioni migliori.

Risultati Principali:

Superiorità Generale: I metodi proposti ( $\Delta$ -MDS, $\Delta$ -KNN e le loro combinazioni lineari) hanno costantemente superato le basi di riferimento (MSP, MaxLogit, Energy, MDS, KNN standard, RLog, SIRC).
Combinazioni Ottimali:
- Per i modelli CLIP (VLM), la combinazione $\Delta$ -KNN-RLog ha ottenuto le migliori prestazioni complessive, riducendo l'AURC media di circa il 50% rispetto alle varianti standard.
- Per i modelli Supervisionati (EVA, ResNet), la combinazione $\Delta$ -MDS-RLog ha mostrato prestazioni superiori, confermando l'ipotesi che le assunzioni Gaussiane del Mahalanobis siano più adatte ai classificatori softmax supervisionati.
Robustezza: I metodi hanno mantenuto prestazioni robuste anche con dati di addestramento limitati (fino allo 0.1% dei dati etichettati per $\Delta$ -KNN) e su modelli di base diversi, dimostrando che i guadagni derivano dall'algoritmo di selezione e non solo dalla pre-addestramento su larga scala.

5. Significato e Impatto

Questo lavoro è significativo perché:

Colma un vuoto teorico: Fornisce una giustificazione teorica rigorosa per l'uso di certi punteggi di confidenza e ne deriva di nuovi, spostando il focus da approcci euristici a principi statistici ottimali.
Affronta una sfida reale: Si concentra sullo spostamento di covariata, uno scenario critico e spesso trascurato nelle applicazioni reali (specialmente con i VLM), dove le etichette rimangono le stesse ma l'aspetto visivo o il contesto cambiano.
Metodologia Pratica: Offre soluzioni "post-hoc" (model-agnostic) che non richiedono la ri-addestramento dei modelli, rendendole facilmente applicabili a modelli pre-addestrati esistenti.
Versatilità: Dimostra che l'approccio basato sul rapporto di verosimiglianza è efficace sia per modelli supervisionati tradizionali che per modelli foundation complessi come CLIP.

In sintesi, il paper stabilisce che la selezione ottimale in condizioni di incertezza e distribuzione variabile può essere efficacemente gestita modellando esplicitamente la differenza tra le distribuzioni degli input classificati correttamente ed erroneamente, utilizzando il rapporto di verosimiglianza come guida fondamentale.