Distributional Regression with Tabular Foundation Models: Evaluating Probabilistic Predictions via Proper Scoring Rules

Il paper evidenzia i limiti delle attuali metriche di benchmark per la regressione tabellare basate su foundation models, che valutano solo stime puntuali, e propone l'adozione di regole di punteggio adeguate, come il CRPS, per valutare e ottimizzare le previsioni probabilistiche, suggerendo al contempo l'uso di modelli finetunati o promptabili per gestire i diversi bias induttivi.

Jonas Landsgesell, Pascal Knoll

Pubblicato 2026-03-10
📖 5 min di lettura🧠 Approfondimento

Each language version is independently generated for its own context, not a direct translation.

🎯 Il Problema: "Prevedere il Medio" non basta più

Immagina di dover prevedere il prezzo delle case o il tempo che farà domani.
Fino a poco tempo fa, i migliori modelli di intelligenza artificiale per i dati tabellari (quelli con righe e colonne, come un foglio Excel) facevano una cosa molto semplice: ti davano un solo numero.

  • "La casa costerà 300.000 euro."
  • "Domani pioverà con un'intensità di 5 mm."

Questo è come se un meteorologo ti dicesse solo la temperatura media della giornata. È utile? Sì. Ma è pericoloso? Assolutamente.
Se la media è 20°C, potrebbe essere una giornata perfetta, oppure potrebbe essere una giornata in cui la mattina fa 0°C e il pomeriggio 40°C. La media nasconde il caos.

Gli autori di questo paper dicono: "Basta con le medie! Dobbiamo prevedere l'intera storia, non solo la fine."

🎲 La Nuova Rivoluzione: I Modelli "Fondazione"

Esistono nuovi modelli potenti (chiamati TabPFN e TabICL) che sono come dei "campioni universali" di intelligenza artificiale. Invece di dirti solo un numero, questi modelli sono capaci di disegnare un istogramma (una mappa delle probabilità).
Invece di dirti "pioverà 5 mm", ti dicono:

  • "C'è il 10% di probabilità che non piova affatto."
  • "C'è il 70% di probabilità che piova tra 3 e 6 mm."
  • "C'è il 20% di probabilità che scateni un uragano di 20 mm."

È come se invece di darti un punto su una mappa, ti dessero una nuvola di probabilità che mostra dove è più probabile che tu trovi la risposta.

📏 Il Problema del "Righello Sbagliato"

Qui arriva il punto cruciale dell'articolo.
Finora, quando volevamo vedere se questi modelli erano bravi, usavamo un "righello" sbagliato: il MSE (Errore Quadratico Medio).
Immagina di avere un'asta di lancio.

  • Se il modello dice "5 metri" e la palla finisce a "5,1 metri", l'errore è piccolo.
  • Se il modello dice "5 metri" e la palla finisce a "10 metri", l'errore è enorme.

Il problema è che questo righello premia solo chi indovina il centro esatto della distribuzione. Se il modello è bravo a prevedere le probabilità (la nuvola), ma il centro è leggermente spostato, il righello lo punisce. È come premiare un chef solo per la temperatura media del forno, ignorando se ha bruciato il dolce o se è rimasto crudo.

🎯 La Soluzione: Le "Regole di Punteggio Corrette"

Gli autori propongono di usare delle Regole di Punteggio Corrette (in inglese Proper Scoring Rules).
Immagina di dover giudicare un tiro alla fune.

  • Il vecchio metodo chiedeva: "Quanto sei vicino alla linea di centro?"
  • Il nuovo metodo chiede: "Quanto bene hai descritto l'intera forza della squadra avversaria?"

Loro suggeriscono di usare una regola specifica chiamata CRPS (Punteggio Probabilistico Ordinato).

  • L'analogia: Se il modello dice che pioverà tra 3 e 6 mm, e invece piove 7 mm, il CRPS ti dice: "Ehi, sei stato vicino, ma hai sbagliato il limite". Se il modello dice che pioverà tra 3 e 6 mm e invece piove 100 mm, il CRPS ti dice: "Hai sbagliato tutto, la tua mappa era fuori strada".
  • Il CRPS premia la forma della previsione, non solo il punto centrale.

🧪 Cosa hanno scoperto? (La parte divertente)

Gli autori hanno fatto degli esperimenti con questi modelli "fondazione" su molti dati reali. Ecco cosa è successo:

  1. Il modello cambia in base a come lo premi: Se addestri un modello per ottenere il punteggio migliore con il CRPS, impara a essere più prudente e a coprire meglio i rischi. Se lo addestri con il vecchio metodo (la media), impara a essere "scolastico" e a puntare solo al centro. È come se un atleta cambiasse il suo stile di corsa se gli dicessi che vince chi arriva primo o chi fa il giro più veloce.
  2. I nuovi modelli sono migliori: I modelli più recenti (come TabICLv2) sono già molto bravi a prevedere queste "nuvole di probabilità", molto meglio dei vecchi modelli.
  3. Non esiste una regola perfetta per tutti: Questo è il punto più importante.
    • Se sei un assicuratore, ti importa molto delle catastrofi (la coda della distribuzione). Vuoi un modello che punisca pesantemente se non prevede l'uragano.
    • Se sei un venditore, ti importa della media.
    • Il paper dice: "Non possiamo usare un solo righello per tutti". Dobbiamo scegliere la regola di punteggio in base a cosa ci serve davvero.

💡 In sintesi: Cosa significa per te?

Questo articolo è un invito a smettere di guardare solo la "media" quando usiamo l'intelligenza artificiale per prendere decisioni importanti.

  • Prima: L'IA ti diceva "Il prezzo sarà X". Tu pensavi: "Ok, è una buona stima".
  • Ora: L'IA dovrebbe dirti "Il prezzo sarà X, ma c'è un rischio che sia molto più alto o molto più basso".
  • Il consiglio: Quando valuti queste intelligenze artificiali, non chiederti "Quanto è vicino il numero alla realtà?", ma chiediti "Quanto bene ha descritto il modello i rischi e le possibilità?".

È come passare da un navigatore che ti dice solo "Arriverai tra 30 minuti" a uno che ti dice "Arriverai tra 30 minuti, ma se piove potresti impiegare 50, e se c'è traffico 2 ore". La vera intelligenza non è indovinare il futuro, è capire quanto è incerto.