Discrete Tokenization Unlocks Transformers for Calibrated Tabular Forecasting

Each language version is independently generated for its own context, not a direct translation.

🏃‍♂️ Il Grande Inganno: Perché i "Fiori d'Arancio" (XGBoost) hanno sempre vinto

Immagina che prevedere il futuro (ad esempio, quanto tempo impiegherà un corridore a finire una maratona) sia come cercare di indovinare il tempo meteo.

Per anni, il campione indiscusso in questo campo è stato un modello chiamato XGBoost. Pensalo come un giardiniere molto metodico. Il giardiniere guarda i dati e li divide in scatole rigide: "Se piove e fa freddo, allora il tempo sarà X". Se il tempo cambia di un millimetro, la scatola cambia. Funziona benissimo perché la vita reale è piena di queste "scatole" (regimi discreti), ma ha un limite: non sa vedere le sfumature fluide tra una scatola e l'altra.

Dall'altra parte c'era il Transformer (la tecnologia dietro ChatGPT). È come un pittore impressionista: vede tutto come un flusso continuo di colori e sfumature. Il problema? Quando si è trattato di dati tabellari (come tabelle Excel con numeri e categorie), il pittore ha faticato a capire le "scatole" rigide del giardiniere e ha perso le gare.

🚀 La Rivoluzione: "RunTime" e i "Mattoncini Lego"

Gli autori di questo paper (Yael Elmatad e il suo team) hanno detto: "Aspettate, non serve un Transformer più grande o più complesso. Serve solo insegnargli a vedere il mondo come il giardiniere, ma con la sua intelligenza."

Hanno creato un nuovo metodo chiamato RunTime. Ecco come funziona, usando un'analogia semplice:

1. La Traduzione in "Mattoncini" (Tokenizzazione Discreta)

Immagina che i dati (temperatura, vento, età, tempo di corsa) siano una lingua straniera che il Transformer non capisce bene.
Invece di dargli numeri precisi (es. "12,456 gradi"), gli hanno tradotto tutto in mattoncini Lego discreti.

Invece di dire "12,4 gradi", dicono "Freddo".
Invece di dire "13,2 minuti al km", dicono "Corsa veloce".
Hanno trasformato i numeri continui in categorie precise. Questo ha permesso al Transformer di "vedere" le scatole rigide che il giardiniere amava, ma di elaborarle con la sua potente capacità di attenzione.

2. L'Arte della "Sfumatura" (Smoothing Gaussiano)

Qui arriva la magia. Se diciamo solo "Freddo", perdiamo informazioni. Se diciamo "12,4 gradi", il modello potrebbe andare in confusione se il tempo cambia di un decimo.
La soluzione? Non dare mai una risposta secca.
Invece di dire "Il corridore finirà in 3 ore e 10 minuti", il modello disegna una nuvola di probabilità.

Pensa a un proiettile che colpisce un bersaglio. Non colpisce mai un punto esatto al 100%, ma crea una macchia di polvere.
Il loro metodo usa una "macchia di polvere" intelligente (Gaussiana adattiva). Se la categoria è stretta (es. "tra 12 e 13 minuti"), la macchia è piccola e precisa. Se la categoria è larga (es. "tra 10 e 20 minuti"), la macchia si allarga per coprire tutto lo spazio.
Questo permette al modello di dire: "Credo che correrà in 3h10, ma c'è una buona probabilità che sia 3h11 o 3h09".

3. Il "Metronomo" del Tempo (Token Temporali)

I corridori non corrono sempre a intervalli regolari. A volte corrono ogni settimana, a volte ogni mese.
Il Transformer ha bisogno di sapere quanto tempo è passato tra una corsa e l'altra. Hanno aggiunto dei "mattoncini speciali" che dicono al modello: "Sono passate 2 settimane dall'ultima gara" o "Sono passate 6 settimane". Senza questo "metronomo", il modello si confonderebbe e penserebbe che tutte le gare siano avvenute nello stesso istante.

🏆 I Risultati: Chi ha vinto?

Hanno testato il loro sistema su 600.000 corridori (5 milioni di dati).

Il Giardiniere (XGBoost ottimizzato): Ha fatto un errore medio di 40,31 secondi.
Il Pittore (RunTime): Ha fatto un errore medio di 35,94 secondi.

Risultato: RunTime ha battuto il campione storico di 10 secondi (un 10,8% di miglioramento)!
Ma la cosa più bella non è solo la velocità, è la calibrazione.

Se chiedi a XGBoost: "Quanto è sicuro che il corridore finisca in 3h10?", lui ti dà un numero secco che spesso è sbagliato.
Se chiedi a RunTime: "Quanto è sicuro?", lui ti dà una mappa di probabilità che è estremamente onesta. Se dice che c'è il 90% di probabilità, allora c'è davvero il 90%. È come avere un oracolo che non solo ti dice il futuro, ma ti dice anche quanto può sbagliare.

💡 Perché è importante per tutti noi?

Questo studio ci insegna una lezione fondamentale: Non serve sempre l'intelligenza artificiale più complessa e costosa.
A volte, per risolvere problemi pratici (come prevedere il meteo, le vendite o i tempi di consegna), basta organizzare meglio i dati (trasformarli in "mattoncini") e insegnare al modello a non avere paura delle incertezze (usando le "nuvole di probabilità").

In sintesi: hanno preso un modello potente (il Transformer), gli hanno dato degli occhiali speciali per vedere le "scatole" dei dati (discretizzazione) e una mappa delle probabilità (smoothing), facendolo diventare il nuovo re delle previsioni su tabelle di dati.

Il messaggio finale: A volte, per vedere il futuro più chiaramente, non serve guardare più lontano, serve solo guardare meglio le sfumature.

Each language version is independently generated for its own context, not a direct translation.

1. Problema e Contesto

Nonostante la flessibilità dei Transformer, i modelli basati su gradient boosting (in particolare XGBoost) rimangono lo standard dominante per i dati tabellari. I modelli basati su alberi decisionali eccellono perché creano confini decisionali discreti e allineati agli assi, adattandosi bene alle "regole" irregolari dei dati tabellari. Al contrario, le reti neurali sono approssimatori di funzioni intrinsecamente lisci che faticano a catturare questi pattern discreti e irregolari.

Il paper affronta la sfida di applicare i Transformer a compiti di previsione su dati tabellari irregolari (in questo caso, le prestazioni di corsa di atleti su diverse distanze e condizioni ambientali), con l'obiettivo di:

Superare le prestazioni di XGBoost.
Generare distribuzioni di probabilità (PDF) calibrate invece di semplici stime puntuali.
Gestire efficacemente i gap temporali irregolari tra gli eventi.

2. Metodologia: RunTime

L'approccio proposto, chiamato RunTime, trasforma il problema di regressione tabellare in un compito di classificazione sequenziale tramite una tokenizzazione discreta e un addestramento distribuzionale.

A. Tokenizzazione Discreta e Discretizzazione

Il cuore della metodologia è la discretizzazione esplicita degli input e degli output:

Input Ambientali e Demografici: Variabili continue (temperatura, umidità, velocità del vento, età) e categoriali vengono convertite in token discreti. Le variabili continue sono binate tramite una procedura di quantizzazione bilanciata (basata sui quantili) per garantire che ogni bin contenga un numero simile di esempi, imitando le divisioni degli alberi decisionali.
Token Temporali (Cadence): A differenza delle serie temporali regolari, gli eventi qui hanno intervalli irregolari. Il modello introduce token espliciti per i "delta temporali" (settimane dall'ultima gara, settimane alla gara target) per rappresentare la cadenza.
Output: La velocità di corsa (pace) viene discretizzata in oltre 270 bin. Il compito diventa prevedere la distribuzione di probabilità su questi bin.

B. Target Soft con Smoothing Gaussiano Adattivo

Invece di usare target "hard" (one-hot), il modello utilizza target "soft" integrati da una distribuzione Gaussiana per preservare la struttura ordinale dei dati:

Smoothing Fisso vs. Adattivo: Un $\sigma$ fisso funziona bene per bin stretti ma fallisce per bin larghi. Il paper introduce uno smoothing adattivo dove la larghezza della Gaussiana ( $\sigma_i$ ) scala in base alla larghezza del bin ( $w_i$ ):
$\sigma_i = \sqrt{\sigma_{floor}^2 + (k \cdot w_i)^2}$
Questo garantisce che i bin stretti rimangano "nitidi" mentre i bin ampi ricevano una massa di probabilità proporzionale, adattandosi alla natura eterogenea dei dati tabellari binned.

C. Architettura del Modello

Transformer Causale: Un decoder-style Transformer (6 layer, 8 heads, embedding 512-dim) processa il flusso di token.
Grammatica Sequenziale: Ogni blocco di evento segue una struttura fissa: [Feature ambientali/demografiche][Pace][Delta Tempo Successivo][Delta Tempo Finale].
Causalità: L'attenzione è mascherata per garantire che la previsione per un evento si basi solo sul contesto passato, rispettando la dipendenza temporale.
Split Entity-Disjoint: I dati sono divisi in train/validation/test basandosi sugli atleti (runner), senza sovrapposizione di individui, per testare la generalizzazione su nuovi soggetti e non la memorizzazione di singoli casi.

3. Contributi Chiave

Insight Architetturale: Dimostra che non è necessario aumentare la dimensione del Transformer, ma piuttosto rendere espliciti i "regimi discreti" tramite tokenizzazione per sbloccare le prestazioni sui dati tabellari.
Smoothing Gaussiano Adattivo: Una nuova tecnica che scala la regolarizzazione in base alla larghezza del bin, superando i limiti delle finestre fisse.
Rappresentazione della Cadenza: L'uso esplicito di token per i delta temporali permette al modello di apprendere pattern di progressione dipendenti dal tempo, cruciali per dati irregolari.
Metodologia di Analisi: Introduzione di una calibrazione stratificata per diagnosticare le miscalibrazioni residue in diverse fasce di confidenza e percentili.

4. Risultati Sperimentali

Il modello è stato testato su un dataset di 600.000 atleti (5 milioni di esempi di addestramento) derivante dal programma NYRR 9+1.

Prestazioni (MAE): RunTime supera XGBoost ottimizzato del 10,8% in termini di errore assoluto mediano (MAE).
- RunTime: 35,94 s
- XGBoost (tuned): 40,31 s
- Formula di Riegel (baseline fisica): 49,74 s
Calibrazione: Il modello produce distribuzioni ben calibrate con un indice di Kolmogorov-Smirnov (KS) di 0,0045, ottenuto ottimizzando il checkpoint adattivo per la calibrazione invece che per l'errore puntuale.
Ablazioni:
- Rimuovere i token temporali aumenta l'MAE mediano di circa 1,8% e raddoppia i tempi di convergenza.
- Mescolare l'ordine temporale delle gare aumenta l'MAE di circa 2,0%, confermando che l'ordine cronologico è essenziale per catturare i pattern di progressione.
Efficienza: RunTime è anche più veloce da addestrare (35,94s vs 40,31s di MAE, ma con tempi di training competitivi) rispetto alle controparti ottimizzate.

5. Significato e Implicazioni

Il lavoro dimostra che i Transformer possono competere e superare i metodi basati su alberi (come XGBoost) nei dati tabellari se l'architettura rispetta la natura discreta e irregolare dei dati.

Superamento del Bias "Liscio": La tokenizzazione discreta permette al meccanismo di attenzione di concentrarsi su regimi specifici invece di mediare su di essi, risolvendo il principale punto debole delle reti neurali sui dati tabellari.
Previsioni Calibrate: A differenza dei modelli di regressione standard che forniscono un singolo valore, RunTime fornisce una PDF completa, permettendo una gestione dell'incertezza superiore (es. identificare quando un atleta è "a rischio" o quando la previsione è incerta).
Generalizzabilità: La metodologia (discretizzazione + smoothing adattivo) è applicabile a qualsiasi compito di regressione ordinale con bin eterogenei, non solo alle previsioni sportive.

In sintesi, il paper propone un cambio di paradigma: invece di forzare i dati tabellari in un formato continuo per le reti neurali, si adatta l'architettura del Transformer per abbracciare la discretizzazione, ottenendo risultati superiori sia in accuratezza che in affidabilità statistica.