Distributional Regression with Tabular Foundation Models: Evaluating Probabilistic Predictions via Proper Scoring Rules

Each language version is independently generated for its own context, not a direct translation.

🎯 Il Problema: "Prevedere il Medio" non basta più

Immagina di dover prevedere il prezzo delle case o il tempo che farà domani.
Fino a poco tempo fa, i migliori modelli di intelligenza artificiale per i dati tabellari (quelli con righe e colonne, come un foglio Excel) facevano una cosa molto semplice: ti davano un solo numero.

"La casa costerà 300.000 euro."
"Domani pioverà con un'intensità di 5 mm."

Questo è come se un meteorologo ti dicesse solo la temperatura media della giornata. È utile? Sì. Ma è pericoloso? Assolutamente.
Se la media è 20°C, potrebbe essere una giornata perfetta, oppure potrebbe essere una giornata in cui la mattina fa 0°C e il pomeriggio 40°C. La media nasconde il caos.

Gli autori di questo paper dicono: "Basta con le medie! Dobbiamo prevedere l'intera storia, non solo la fine."

🎲 La Nuova Rivoluzione: I Modelli "Fondazione"

Esistono nuovi modelli potenti (chiamati TabPFN e TabICL) che sono come dei "campioni universali" di intelligenza artificiale. Invece di dirti solo un numero, questi modelli sono capaci di disegnare un istogramma (una mappa delle probabilità).
Invece di dirti "pioverà 5 mm", ti dicono:

"C'è il 10% di probabilità che non piova affatto."
"C'è il 70% di probabilità che piova tra 3 e 6 mm."
"C'è il 20% di probabilità che scateni un uragano di 20 mm."

È come se invece di darti un punto su una mappa, ti dessero una nuvola di probabilità che mostra dove è più probabile che tu trovi la risposta.

📏 Il Problema del "Righello Sbagliato"

Qui arriva il punto cruciale dell'articolo.
Finora, quando volevamo vedere se questi modelli erano bravi, usavamo un "righello" sbagliato: il MSE (Errore Quadratico Medio).
Immagina di avere un'asta di lancio.

Se il modello dice "5 metri" e la palla finisce a "5,1 metri", l'errore è piccolo.
Se il modello dice "5 metri" e la palla finisce a "10 metri", l'errore è enorme.

Il problema è che questo righello premia solo chi indovina il centro esatto della distribuzione. Se il modello è bravo a prevedere le probabilità (la nuvola), ma il centro è leggermente spostato, il righello lo punisce. È come premiare un chef solo per la temperatura media del forno, ignorando se ha bruciato il dolce o se è rimasto crudo.

🎯 La Soluzione: Le "Regole di Punteggio Corrette"

Gli autori propongono di usare delle Regole di Punteggio Corrette (in inglese Proper Scoring Rules).
Immagina di dover giudicare un tiro alla fune.

Il vecchio metodo chiedeva: "Quanto sei vicino alla linea di centro?"
Il nuovo metodo chiede: "Quanto bene hai descritto l'intera forza della squadra avversaria?"

Loro suggeriscono di usare una regola specifica chiamata CRPS (Punteggio Probabilistico Ordinato).

L'analogia: Se il modello dice che pioverà tra 3 e 6 mm, e invece piove 7 mm, il CRPS ti dice: "Ehi, sei stato vicino, ma hai sbagliato il limite". Se il modello dice che pioverà tra 3 e 6 mm e invece piove 100 mm, il CRPS ti dice: "Hai sbagliato tutto, la tua mappa era fuori strada".
Il CRPS premia la forma della previsione, non solo il punto centrale.

🧪 Cosa hanno scoperto? (La parte divertente)

Gli autori hanno fatto degli esperimenti con questi modelli "fondazione" su molti dati reali. Ecco cosa è successo:

Il modello cambia in base a come lo premi: Se addestri un modello per ottenere il punteggio migliore con il CRPS, impara a essere più prudente e a coprire meglio i rischi. Se lo addestri con il vecchio metodo (la media), impara a essere "scolastico" e a puntare solo al centro. È come se un atleta cambiasse il suo stile di corsa se gli dicessi che vince chi arriva primo o chi fa il giro più veloce.
I nuovi modelli sono migliori: I modelli più recenti (come TabICLv2) sono già molto bravi a prevedere queste "nuvole di probabilità", molto meglio dei vecchi modelli.
Non esiste una regola perfetta per tutti: Questo è il punto più importante.
- Se sei un assicuratore, ti importa molto delle catastrofi (la coda della distribuzione). Vuoi un modello che punisca pesantemente se non prevede l'uragano.
- Se sei un venditore, ti importa della media.
- Il paper dice: "Non possiamo usare un solo righello per tutti". Dobbiamo scegliere la regola di punteggio in base a cosa ci serve davvero.

💡 In sintesi: Cosa significa per te?

Questo articolo è un invito a smettere di guardare solo la "media" quando usiamo l'intelligenza artificiale per prendere decisioni importanti.

Prima: L'IA ti diceva "Il prezzo sarà X". Tu pensavi: "Ok, è una buona stima".
Ora: L'IA dovrebbe dirti "Il prezzo sarà X, ma c'è un rischio che sia molto più alto o molto più basso".
Il consiglio: Quando valuti queste intelligenze artificiali, non chiederti "Quanto è vicino il numero alla realtà?", ma chiediti "Quanto bene ha descritto il modello i rischi e le possibilità?".

È come passare da un navigatore che ti dice solo "Arriverai tra 30 minuti" a uno che ti dice "Arriverai tra 30 minuti, ma se piove potresti impiegare 50, e se c'è traffico 2 ore". La vera intelligenza non è indovinare il futuro, è capire quanto è incerto.

Each language version is independently generated for its own context, not a direct translation.

1. Il Problema

Il paper affronta una criticità fondamentale nell'attuale valutazione dei modelli di Tabular Foundation Models (come TabPFN e TabICL) per la regressione. Sebbene questi modelli abbiano rivoluzionato l'apprendimento su dati tabellari tramite in-context learning, le attuali benchmark (es. TabArena, TALENT) si concentrano quasi esclusivamente su metriche di stima puntuale (point estimates), come l'errore quadratico medio (MSE), la radice dell'errore quadratico medio (RMSE) o il coefficiente di determinazione ( $R^2$ ).

Questo approccio presenta due limiti principali:

Ignorano l'incertezza: Le metriche tradizionali valutano solo la media condizionata, fallendo nel catturare l'incertezza aleatoria (varianza intrinseca dei dati) e le distribuzioni multimodali.
Bias induttivo errato: Ottimizzare per la media (MSE) può portare a previsioni prive di senso in scenari reali (es. prevedere un valore medio di 3.5 per un dado a 6 facce, che non è un risultato possibile). Inoltre, l'uso di funzioni di perdita standard (come la Cross-Entropy) per la regressione discretizzata può introdurre bias diversi rispetto ad altre regole di punteggio, influenzando la convergenza e l'efficienza del campione.

2. Metodologia

Gli autori propongono un cambio di paradigma verso la regressione distribuzionale, valutando le previsioni probabilistiche complete tramite Regole di Punteggio Proprie (Proper Scoring Rules).

Regole di Punteggio Proprie: Una regola $S$ è "strettamente propria" se il punteggio atteso è minimizzato solo quando la distribuzione prevista corrisponde a quella vera. Il paper analizza diverse regole:
- Log Score (Cross-Entropy): Sensibile alle code della distribuzione, può essere instabile con dati limitati a causa di outlier.
- CRPS (Continuous Ranked Probability Score): Misura la distanza tra la funzione di distribuzione cumulativa prevista e quella osservata. È più robusto e considera la struttura geometrica degli errori (un errore di 100 è peggiore di un errore di 10).
- CRLS (Continuous Ranked Logarithmic Scoring Rule): Una variante logaritmica del CRPS.
- Beta Energy Score: Una famiglia di regole parametriche ( $\beta$ ) che generalizzano CRPS ( $\beta=1$ ) e MSE ( $\beta=2$ ).
Sperimentazione:
- Vengono utilizzati dataset reali da OpenML.
- Si confrontano modelli base (realTabPFNv2.5) contro versioni fine-tuned con diverse funzioni di perdita (Beta Energy Score, CRLS) e contro TabICLv2.
- Viene analizzato un modello giocattolo (toy model) bimodale per dimostrare come diverse regole di punteggio portino a diverse "migliori" previsioni a seconda della funzione di utilità scelta.

3. Contributi Chiave

Proposta di Benchmarking Migliorato: Suggeriscono di integrare metriche probabilistiche (principalmente CRPS) nelle leaderboard standard per la regressione tabellare, spostando il focus dalla sola accuratezza puntuale alla qualità della distribuzione prevista.
Valutazione Empirica: Forniscono le prime valutazioni comparative di realTabPFNv2.5 e TabICLv2 utilizzando regole di punteggio proprie (CRPS, CRLS, Beta Energy Score).
Dimostrazione del Bias Induttivo: Mostrano che la scelta della regola di punteggio durante il fine-tuning (o il pre-addestramento) cambia il bias induttivo del modello. Diversi scoring rule premiano diversi tipi di errori, rendendo il "miglior modello" dipendente dalla metrica scelta.
Risultati sul Fine-tuning: Dimostrano che fine-tunare TabPFN con regole come il Beta Energy Score ( $\beta=1.8$ ) o CRLS migliora le prestazioni su una vasta gamma di dataset rispetto al modello base pre-addestrato.
Confronto Architetture: Evidenziano che TabICLv2 tende a superare realTabPFNv2.5 su metriche probabilistiche (CRPS, CRLS) su molti dataset, suggerendo un'architettura più adatta alla regressione distribuzionale.

4. Risultati Principali

Miglioramenti Generali: Il fine-tuning con Beta Energy Score e CRLS porta a miglioramenti medi (seppur moderati, spesso < 2% sulla mediana) su MAE, RMSE, $R^2$ e CRPS rispetto al modello base.
Variabilità per Dataset: I guadagni non sono uniformi. Ad esempio, su dataset come Mercedes Benz e Pol, i miglioramenti sono significativi, mentre su altri (es. Puma8NH) si osservano peggioramenti, sottolineando che non esiste una regola di punteggio universale ottimale per tutti i contesti.
TabICLv2 vs TabPFN: TabICLv2 mostra prestazioni superiori a realTabPFNv2.5 nella maggior parte dei casi quando valutato con CRPS e CRLS, indicando una migliore capacità di modellare la distribuzione sottostante.
Teoria vs Pratica: L'esperimento sul modello bimodale conferma che la scelta della regola di punteggio (es. $\beta=1$ vs $\beta=2$ ) cambia quale modello viene considerato "ottimale". Un modello che minimizza l'errore assoluto (mediana) può essere peggiore di uno che minimizza l'errore quadratico (media) a seconda della funzione di utilità dell'utente.

5. Significato e Implicazioni

Il paper ha un'importanza cruciale per la comunità del Machine Learning per diversi motivi:

Superamento della "Tirannia della Media": Sposta l'attenzione dalle stime puntuali (spesso inutili in scenari multimodali o ad alto rischio) alla previsione di distribuzioni complete, permettendo di quantificare l'incertezza.
Allineamento con il Business: Sottolinea che non esiste una "migliore" previsione in assoluto, ma solo la migliore previsione per una specifica funzione di utilità (es. in finanza, un errore in una direzione può essere più costoso dell'altro). Le regole di punteggio devono essere scelte in base al rischio specifico del caso d'uso.
Futuro dei Foundation Models: Evidenzia un conflitto tra l'idea di un modello "generale" pre-addestrato e la necessità di adattarsi a regole di punteggio specifiche per task ad alto rischio. Suggerisce che il futuro potrebbe risiedere nel fine-tuning mirato o in meccanismi di prompting che permettano di specificare la regola di punteggio desiderata (es. "ottimizza per il rischio di coda sinistra").
Avvertenza sugli Eventi Rari: Avverte che le regole di punteggio proprie standard potrebbero non essere sufficienti per eventi rari o di coda (incertezza epistemica), richiedendo approcci specializzati (es. CRPS pesato).

In sintesi, gli autori invitano a un'evoluzione dei benchmark tabellari che includa metriche probabilistiche rigorose, riconoscendo che la scelta della funzione di perdita non è solo tecnica, ma definisce il comportamento e l'utilità finale del modello nel mondo reale.

Distributional Regression with Tabular Foundation Models: Evaluating Probabilistic Predictions via Proper Scoring Rules

🎯 Il Problema: "Prevedere il Medio" non basta più

🎲 La Nuova Rivoluzione: I Modelli "Fondazione"

📏 Il Problema del "Righello Sbagliato"

🎯 La Soluzione: Le "Regole di Punteggio Corrette"

🧪 Cosa hanno scoperto? (La parte divertente)

💡 In sintesi: Cosa significa per te?

1. Il Problema

2. Metodologia

3. Contributi Chiave

4. Risultati Principali

5. Significato e Implicazioni

Articoli simili

Exploring AI in Fashion: A Review of Aesthetics, Personalization, Virtual Try-On, and Forecasting

Rule Extraction in Machine Learning: Chat Incremental Pattern Constructor

Inverse classification with logistic and softmax classifiers: efficient optimization

BarcodeBERT: Transformers for Biodiversity Analysis

On Minimal Depth in Neural Networks