Are foundation models for computer vision good conformal predictors?

Each language version is independently generated for its own context, not a direct translation.

Il Titolo: I Giganti dell'IA sono affidabili?

Immagina di avere dei giganti (i Foundation Models come CLIP o DINO) che hanno letto quasi tutti i libri e visto quasi tutte le immagini del mondo. Sono bravissimi a riconoscere cose: "Quello è un gatto", "Questa è una macchina".

Ma c'è un problema: questi giganti sono spesso troppo sicuri di sé. A volte dicono "Sono al 99% sicuro che sia un gatto", quando in realtà è un cane. In campi delicati come la medicina o la sicurezza, questo è pericoloso. Se il gigante sbaglia e non lo sa, potremmo avere guai seri.

Il Problema: Come misurare la "dubbiosità"?

Gli scienziati volevano capire: questi giganti sanno quando non sono sicuri? E se usiamo un metodo matematico chiamato Conformal Prediction (CP) per costringerli a dire "Non sono sicuro, quindi ti do un elenco di possibilità", funzionano bene?

Il CP è come un cestino della sicurezza. Invece di dire "È un gatto", il modello dice: "È probabilmente un gatto, ma potrebbe anche essere un leone o una tigre". Il CP garantisce matematicamente che la risposta giusta sia dentro quel cestino, almeno il 90% delle volte (o la percentuale che scegliamo).

Cosa hanno scoperto gli scienziati? (Le Scoperte Chiave)

1. I Giganti moderni sono "cestini" migliori

Hanno testato i nuovi giganti (basati su Transformers, come DINOv2 o CLIP) contro i vecchi modelli (basati su Reti Neurali Convolutionali).

L'analogia: Immagina due cesti. Uno è fatto di vimini vecchio (vecchi modelli), l'altro di plastica moderna (nuovi modelli).
Risultato: I nuovi giganti riempiono il cestino con meno oggetti inutili. Dicono: "È un gatto o un leone" invece di "È un gatto, un leone, una tigre, un cane e un'auto". Sono più precisi e efficienti.

2. La "Calibrazione" è un'arma a doppio taglio

Spesso si cerca di "calibrare" questi giganti per renderli meno arroganti (meno sicuri di sé quando sbagliano). Si usa una tecnica chiamata Temperature Scaling (come se si mettesse il modello in una stanza più fresca per calmarlo).

L'analogia: È come dare un sedativo al gigante. Diventa più umile e meno sicuro.
Il paradosso: Quando il gigante diventa più umile, il suo "cestino di sicurezza" (CP) diventa enorme. Per essere sicuro al 90%, il modello calibrato mette dentro tutto.
Conclusione: Se vuoi un cestino piccolo e gestibile, a volte è meglio non "calibrare" troppo il modello, specialmente se usi metodi adattivi come l'APS (Adaptive Prediction Sets), che si adattano meglio alla situazione.

3. Quando le cose cambiano (Cambiamento di Distribuzione)

Cosa succede se addestri il gigante su foto di animali reali, ma poi gli chiedi di riconoscere disegni o schizzi? (Questo si chiama Domain Shift).

L'analogia: È come se avessi addestrato un cane a cercare topi nei boschi, e poi lo mandassi a cercare topi in una città piena di automobili.
Risultato: I metodi adattivi (come l'APS) sono i supereroi della resilienza. Anche se il cestino diventa un po' più grande (perché il gigante è confuso), riescono comunque a garantire che la risposta giusta sia dentro. Altri metodi più rigidi falliscono e lasciano cadere la risposta giusta fuori dal cestino.

4. Imparare velocemente (Few-Shot)

Spesso questi giganti vengono adattati a nuovi compiti con pochissimi esempi (pochi "shot").

Risultato: Quando un gigante di linguaggio e visione (come CLIP) impara velocemente un nuovo compito (es. riconoscere razze di cani specifiche), il suo cestino di sicurezza diventa più piccolo e preciso rispetto a quando non ha imparato nulla (zero-shot). Imparare anche solo un po' aiuta a fidarsi di più.

In sintesi: Cosa dobbiamo fare?

Il paper ci dice che i nuovi giganti dell'IA (Vision Transformers) sono ottimi candidati per essere usati in situazioni di rischio, ma dobbiamo scegliere il metodo giusto per gestire la loro incertezza.

Se vuoi la massima sicurezza (es. diagnosi medica): Usa il metodo APS. Anche se il cestino sarà un po' più grande (dovrai controllare più opzioni), è quasi certo che la risposta giusta sarà lì. Non perdere mai il paziente.
Se vuoi efficienza (es. ordinare pacchi): Usa RAPS o LAC. Il cestino sarà più piccolo, ma corri un rischio leggermente maggiore di non trovare la risposta giusta in casi molto difficili.

Il messaggio finale: I giganti dell'IA sono potenti, ma per usarli in sicurezza non basta guardare la loro "punteggiatura" (accuratezza). Dobbiamo guardare quanto sono grandi i loro "cestini di sicurezza" e scegliere il metodo che ci permette di dormire sonni tranquilli, anche quando le cose cambiano o quando il gigante è un po' confuso.

Each language version is independently generated for its own context, not a direct translation.

Titolo: I modelli di fondazione per la visione artificiale sono buoni predittori conformali?

1. Il Problema

I modelli di fondazione (Foundation Models - FM) per la visione artificiale, come DINOv2 e CLIP, hanno raggiunto prestazioni senza precedenti grazie all'apprendimento auto-supervisionato e contrastivo. Tuttavia, il loro utilizzo in scenari ad alto rischio (es. sanità, sicurezza) richiede una gestione robusta dell'incertezza.
Sebbene la calibrazione (es. Temperature Scaling) sia una strategia comune per migliorare l'affidabilità delle probabilità, essa non offre garanzie teoriche rigorose. Al contrario, la Predizione Conformale (Conformal Prediction - CP) è un framework statistico che garantisce che il vero etichetta sia inclusa in un insieme di predizioni con una probabilità specifica ( $1-\alpha$ ), indipendentemente dalla distribuzione dei dati (sotto l'assunzione di scambiabilità).
Il gap nella ricerca attuale è la mancanza di comprensione su come i moderni modelli di fondazione (spesso basati su Vision Transformers e pre-addestrati su larga scala) si comportino sotto il framework CP, specialmente in scenari reali come spostamenti di distribuzione (domain shift), calibrazione delle confidence e adattamento few-shot.

2. Metodologia

Gli autori hanno condotto un'analisi empirica estesa per valutare le prestazioni di tre metodi CP popolari su 17 modelli di fondazione diversi:

Modelli: 17 modelli inclusi DINO/DINOv2 (self-supervised), VICReg (CNN self-supervised) e modelli Vision-Language (VLM) come CLIP, MetaCLIP, LLaVa e Phi.
Dataset: CIFAR-10, CIFAR-100, ImageNet e le sue varianti con spostamento di distribuzione (ImageNet-R, ImageNet-A, ImageNet-Sketch, ImageNet-V2). Sono stati testati anche 10 dataset per l'adattamento few-shot.
Metodi CP Analizzati:
1. LAC (Least Ambiguous Classifier): Soglia fissa sulle probabilità.
2. APS (Adaptive Prediction Sets): Accumula le probabilità in ordine decrescente (adattivo).
3. RAPS (Regularized APS): Aggiunge un termine di regolarizzazione per penalizzare la dimensione dell'insieme.
Scenari di Valutazione:
- Prestazioni in setting standard (nessun drift).
- Impatto dello spostamento di distribuzione (Domain Shift).
- Effetto della calibrazione della confidence (Temperature Scaling).
- Adattamento Few-Shot dei VLM (Prompt Learning e Adapters).

3. Contributi Chiave e Risultati

A. Superiorità dei Modelli di Fondazione

I modelli di fondazione (specialmente quelli basati su Vision Transformers come DINO e CLIP) producono insiemi di predizione più piccoli e una copertura condizionale per classe superiore rispetto ai modelli tradizionali addestrati in modo supervisionato (es. ViT addestrato solo su ImageNet).
I modelli basati su CNN (es. VICReg) mostrano una degradazione maggiore nelle metriche conformali rispetto ai Transformer sotto spostamenti di distribuzione.

B. Confronto tra Metodi CP (APS vs RAPS vs LAC)

APS (Adaptive Prediction Sets): Si è rivelato il metodo più robusto. Garantisce il meglio rispetto alla copertura marginale e condizionale, specialmente sotto spostamenti di distribuzione. Tuttavia, tende a produrre insiemi di predizione più grandi (minore efficienza).
RAPS: Offre insiemi più piccoli (maggiore efficienza) ma a scapito della copertura condizionale. In scenari difficili o con modelli meno accurati, RAPS può fallire nel garantire la copertura per classi specifiche a causa della penalizzazione sulla dimensione dell'insieme.
LAC: Mostra una variabilità elevata nella copertura condizionale a causa della sua natura non adattiva (soglia fissa).

C. Impatto della Calibrazione (Temperature Scaling)

Un risultato controintuitivo è che la calibrazione della confidence (es. Temperature Scaling) peggiora l'efficienza degli insiemi conformali.
La calibrazione rende le distribuzioni softmax più "piatte" (meno confidenti), costringendo i metodi CP (specialmente APS) ad includere più classi per mantenere la copertura garantita, aumentando così la dimensione media dell'insieme.
Sebbene la calibrazione migliori leggermente la copertura condizionale, il trade-off è un aumento significativo della dimensione dell'insieme.

D. Adattamento Few-Shot

L'adattamento dei modelli VLM (come CLIP) a nuovi compiti tramite tecniche Few-Shot (es. CoOp, ZSLP) porta a insiemi più piccoli e a un gap di copertura inferiore rispetto alle predizioni zero-shot sui dati in distribuzione (ID).
Questo suggerisce che l'adattamento migliora l'efficienza del CP, anche se i benefici sono meno marcati sui dati fuori distribuzione (OOD).

E. Robustezza allo Spostamento di Distribuzione

APS dimostra la massima robustezza: mantiene le garanzie di copertura anche su dataset difficili come ImageNet-A, anche se a costo di aumentare drasticamente la dimensione degli insiemi.
RAPS e LAC soffrono di più sotto forti spostamenti di distribuzione, con un calo significativo della copertura marginale e condizionale.

4. Significato e Implicazioni

Questo studio fornisce linee guida cruciali per la deployment sicuro dei modelli di fondazione:

Scelta del Metodo: Per applicazioni critiche (es. diagnosi medica) dove la sicurezza è prioritaria, APS è la scelta preferibile nonostante la dimensione maggiore degli insiemi, poiché garantisce che il vero label sia incluso. Per applicazioni dove l'efficienza computazionale o la semplicità decisionale è prioritaria, RAPS può essere considerato, ma con cautela sulla copertura condizionale.
Architettura: I modelli basati su Vision Transformers sono intrinsecamente più adatti alla conformalizzazione rispetto alle CNN tradizionali.
Calibrazione: Gli utenti devono essere consapevoli che calibrare un modello non sempre porta a risultati migliori nel contesto CP; spesso porta a insiemi più grandi.
Adattamento: L'adattamento few-shot è una strategia efficace per migliorare le metriche conformali su compiti specifici.

In conclusione, i modelli di fondazione sono eccellenti candidati per la predizione conformale, ma la scelta del metodo CP (APS vs RAPS) e la gestione della calibrazione devono essere fatte in base al compromesso specifico tra sicurezza (copertura) ed efficienza (dimensione dell'insieme) richiesto dall'applicazione.