Forecast collapse of transformer-based models under squared loss in financial time series

Each language version is independently generated for its own context, not a direct translation.

Il Titolo: Perché i "Super-Cervelli" falliscono quando prevedono il mercato azionario

Immagina di avere un super-cervello artificiale (chiamato Transformer, la stessa tecnologia che fa funzionare ChatGPT) capace di imparare qualsiasi cosa guardando milioni di esempi. Se lo metti a prevedere il traffico, il consumo di energia elettrica o il meteo, è un genio: vede i pattern, le stagioni e i ritmi e fa previsioni incredibili.

Ma se provi a usare questo stesso super-cervello per prevedere il prezzo dell'Euro contro il Dollaro (o azioni, o criptovalute), succede qualcosa di strano: il modello diventa stupido. Invece di fare previsioni complesse, inizia a dire: "Domani il prezzo sarà esattamente uguale a oggi" (per i prezzi) o "Domani il guadagno sarà zero" (per i rendimenti).

Questo paper di Pierre Andreoletti spiega perché questo succede e perché non è colpa del modello, ma della natura stessa del mercato.

1. La Metafora del "Previsionista del Meteo" vs. "Il Lancio della Moneta"

Per capire il problema, dobbiamo distinguere due tipi di mondi:

Il Mondo Strutturato (come il Meteo o il Traffico):
Immagina di prevedere il meteo. Se oggi è una giornata di pioggia torrenziale, è molto probabile che domani piova ancora, o almeno che ci siano nuvole. C'è una logica, una causa ed effetto. Se dai a un'intelligenza artificiale molti dati su come piove, impara a riconoscere i pattern e a fare previsioni utili. Qui, più il modello è potente, meglio è.
Il Mondo Finanziario (come il mercato azionario):
Immagina di dover prevedere il risultato del lancio di una moneta. Se oggi esce "Testa", cosa succederà domani? Non lo sai. Potrebbe essere Testa o Croce. Non c'è una logica che collega il passato al futuro immediato. In finanza, si dice che i prezzi sono un "cammino casuale" (random walk). Il futuro è dominato dal rumore (il caso), non dal segnale (la logica).

2. Il Paradosso: Più sei intelligente, più sbagli

Il paper dice che quando un modello super-potente (come un Transformer) viene addestrato su dati finanziari, cerca disperatamente di trovare un pattern dove non esiste.

Ecco l'analogia del Rumore di Fondo:
Immagina di essere in una stanza piena di persone che urlano a caso (il mercato).

Un modello semplice (come una linea retta) ascolta e dice: "Non sento nulla di chiaro, quindi ipotizzo che il rumore rimanga uguale". È noioso, ma è la risposta più sicura.
Un modello complesso (il Transformer) è come un orecchio da super-eroe. Cerca di distinguere ogni singola voce, ogni sussurro. Poiché non ci sono voci reali, il modello inizia a inventare pattern nel rumore. Cerca di "imparare" il caso.

Il risultato? Il modello complesso inizia a fare previsioni che oscillano in modo assurdo, cercando di adattarsi al "rumore" dei dati di addestramento. Ma poiché quel rumore è casuale, domani non si ripeterà. Quindi, il modello amplifica l'errore invece di ridurlo.

3. La Soluzione Matematica (spiegata facile)

Il paper dimostra matematicamente due cose:

L'Obiettivo Giusto: Quando si chiede a un'IA di prevedere il futuro con l'errore quadratico (il metodo standard), la risposta "perfetta" è la media condizionale.
- Se il mercato è strutturato, la media è interessante (es. "domani pioverà").
- Se il mercato è casuale, la media è banale (es. "domani il prezzo sarà uguale a oggi").
Il Collasso: Quando il modello è troppo potente, invece di fermarsi alla risposta banale e sicura, inizia a "sovrareagire". Prende il rumore casuale dei dati passati e lo usa per creare fluttuazioni finte.
- È come se un pittore, invece di dipingere un cielo azzurro (la risposta corretta), iniziasse a dipingere nuvole strane basandosi su un granello di polvere sulla tela. Più è bravo il pittore (più è potente il modello), più le nuvole strane saranno dettagliate... e più sbagliate saranno.

4. L'Esperimento Reale

L'autore ha preso dati reali del cambio Euro/Dollaro (ogni 30 secondi) e ha fatto una gara:

Sfida 1: Un modello semplice (una linea retta).
Sfida 2: Un modello Transformer (PatchTST), molto complesso.

Il Risultato:
Il modello semplice ha vinto quasi sempre. Il modello complesso ha commesso errori molto più grandi nel 92% dei casi.
Non è che il modello complesso fosse "rotto" o mal addestrato. Era troppo bravo nel trovare pattern che non esistevano, trasformando il rumore in errori costosi.

Conclusione: Cosa dobbiamo imparare?

Il messaggio del paper è un monito per chi fa finanza con l'Intelligenza Artificiale:

"Non puoi risolvere un problema di caos con un modello troppo complesso."

Se il mercato è fondamentalmente imprevedibile (come dice la teoria), cercare di costruire un "super-modello" per prevedere il prezzo esatto di domani è inutile. Anzi, più rendi il modello complesso, più lo spingi a inventare cose che non sono vere.

Cosa fare allora?
Invece di cercare di prevedere il prezzo esatto (che è impossibile), dovremmo cambiare strategia:

Prevedere la distribuzione delle probabilità (es. "c'è il 60% di probabilità che salga, ma non sappiamo di quanto").
Usare modelli che gestiscono l'incertezza, non quelli che cercano di indovinare il numero esatto.

In sintesi: Nel caos finanziario, a volte la risposta più intelligente è ammettere che non si sa nulla, invece di cercare di inventare una storia complessa.

Each language version is independently generated for its own context, not a direct translation.

1. Il Problema

Il lavoro affronta un paradosso osservato nell'apprendimento automatico applicato alle serie temporali finanziarie: mentre le architetture basate su Transformer (come Informer, Autoformer, PatchTST) hanno dimostrato prestazioni eccezionali su dati strutturati (es. carico elettrico, traffico, meteo), falliscono sistematicamente quando applicate alla previsione di prezzi azionari o tassi di cambio.
In contesti finanziari, questi modelli complessi tendono a collassare verso previsioni banali:

Per i prezzi: la traiettoria prevista rimane piatta, vicino all'ultimo prezzo osservato.
Per i rendimenti: le previsioni si concentrano vicino allo zero.

La letteratura esistente attribuisce spesso questo fallimento a fattori euristici come basso rapporto segnale-rumore, non stazionarietà o scarsità di dati, suggerendo che architetture migliori o più dati potrebbero risolvere il problema. Andreoletti sostiene invece che questo comportamento non è un difetto di ottimizzazione o architettura, ma una conseguenza teorica inevitabile dell'uso della perdita quadratica (MSE) su processi stocastici con struttura condizionale debole.

2. Metodologia e Quadro Teorico

L'autore analizza il problema a livello di processo, trattando sia gli input che gli output come segmenti temporali (traiettorie).

Impostazione del problema: Si considera la previsione di una traiettoria futura $Y^{(H)}_t$ data una finestra passata $X^{(L)}_t$ , minimizzando la perdita quadratica media (MSE).
Ottimizzazione del Rischio Empirico (ERM): Si assume che i modelli (inclusi i Transformer) siano sufficientemente espressivi da approssimare qualsiasi funzione misurabile. In regime di ERM con perdita quadratica, il predittore ottimo di Bayes è la media condizionale della traiettoria futura data la storia osservata: $f^*(x) = E[Y | X=x]$ .
Ipotesi Finanziaria: In finanza, sotto l'ipotesi di efficienza dei mercati o dinamica di martingala, il rendimento atteso condizionato al passato è zero (o il prezzo atteso è il prezzo corrente).
- Matematicamente: $E[X_{t+h} | \mathcal{F}_t] = X_t$ (per i prezzi) o $0$ (per i rendimenti).
- Di conseguenza, il predittore ottimo di Bayes è banale: una traiettoria piatta per i prezzi e zero per i rendimenti.

Il Meccanismo del Collasso:
Il cuore dell'analisi risiede nel confronto tra un modello lineare semplice (ben specificato) e un modello altamente espressivo (interpolante, come un Transformer o un k-NN).

Regime a segnale debole: Quando la media condizionale è banale, l'informazione prevedibile è nulla. Il "segnale" è dominato dal rumore irriducibile.
Riuso del rumore (Noise Reuse): I modelli altamente espressivi, cercando di minimizzare l'errore di training, tendono a interpolare i dati, riutilizzando il rumore presente nel set di addestramento per adattarsi perfettamente ai punti di training.
Varianza vs Bias: Poiché il bias è già minimo (il modello ottimo è banale), l'aumento della capacità del modello non riduce il bias, ma introduce una varianza spuria. Il modello inizia a prevedere fluttuazioni casuali attorno alla traiettoria ottima piatta, aumentando l'errore di previsione fuori campione rispetto a un modello lineare semplice che non amplifica il rumore.

3. Contributi Chiave

Spiegazione Processuale del Collasso: Fornisce una giustificazione teorica rigorosa del perché i Transformer falliscono in finanza: non è un problema di capacità di apprendimento, ma il risultato naturale della minimizzazione del rischio empirico su un obiettivo (media condizionale) che è intrinsecamente banale in quel dominio.
Analisi Teorica dell'Errore di Previsione: Dimostra formalmente (Proposizione 2) che, in presenza di rumore dominante, l'errore di previsione atteso di un predittore interpolante è almeno il doppio ( $2H\sigma^2$ ) rispetto a quello di un predittore parametrico semplice ( $H\sigma^2 + O(1/n)$ ), poiché l'interpolante riutilizza il rumore di training nel test.
Validazione Empirica: Confronta un modello Transformer (PatchTST) con un benchmark lineare su dati reali ad alta frequenza (EUR/USD), mostrando che la teoria si traduce in pratica.

4. Risultati Sperimentali

L'autore ha condotto esperimenti su dati del tasso di cambio EUR/USD ad alta frequenza (campionati ogni 30 secondi).

Setup: Finestra di input di 451 osservazioni, orizzonte di previsione di 30 passi. Confronto tra un modello PatchTST e un modello lineare semplice.
Risultati:
- Il modello Transformer (PatchTST) ha prodotto errori di traiettoria sistematicamente più grandi rispetto al modello lineare.
- Il rapporto tra l'errore medio del Transformer e quello lineare è stato di circa 1.71.
- In circa il 92-94% delle finestre di previsione testate, il Transformer ha commesso un errore maggiore del modello lineare.
- La distribuzione degli errori del Transformer è spostata uniformemente verso valori più alti, indicando che il degrado non è dovuto a pochi eventi estremi, ma è pervasivo in tutta la distribuzione.

5. Significato e Implicazioni

Questo studio ha implicazioni profonde per la ricerca nel Financial Machine Learning:

Ridefinizione degli Obiettivi: Suggerisce che la ricerca di architetture più complesse (più layer, più attenzione, ecc.) è inutile e dannosa per la previsione puntuale (point forecast) di prezzi finanziari sotto perdita quadratica.
Cambiamento di Paradigma: Per ottenere progressi, è necessario cambiare l'obiettivo di apprendimento. Invece di prevedere la media condizionale (che è banale), i modelli dovrebbero mirare a catturare l'intera distribuzione condizionale (es. modelli basati su diffusione, approcci probabilistici) o momenti di ordine superiore (volatilità, code della distribuzione).
Limite del Segnale: Il lavoro definisce un limite teorico al rapporto segnale-rumore necessario affinché la previsione di traiettoria abbia senso. Quando il segnale è troppo debole, l'interpolazione diventa un meccanismo di amplificazione del rumore piuttosto che di apprendimento.

In sintesi, il paper conclude che il fallimento dei Transformer in finanza non è un bug, ma una feature attesa della minimizzazione del rischio empirico in un regime di rumore dominante, e invita la comunità a spostare l'attenzione dalla complessità architetturale alla ridefinizione del problema di previsione stesso.

Forecast collapse of transformer-based models under squared loss in financial time series

Il Titolo: Perché i "Super-Cervelli" falliscono quando prevedono il mercato azionario

1. La Metafora del "Previsionista del Meteo" vs. "Il Lancio della Moneta"

2. Il Paradosso: Più sei intelligente, più sbagli

3. La Soluzione Matematica (spiegata facile)

4. L'Esperimento Reale

Conclusione: Cosa dobbiamo imparare?

1. Il Problema

2. Metodologia e Quadro Teorico

3. Contributi Chiave

4. Risultati Sperimentali

5. Significato e Implicazioni

Articoli simili

Isomorphic Functionalities between Ant Colony and Ensemble Learning: Part II-On the Strength of Weak Learnability and the Boosting Paradigm

Scaled Gradient Descent for Ill-Conditioned Low-Rank Matrix Recovery with Optimal Sampling Complexity

Causal Vaccine Effects on Post-infection Outcomes in the Naturally Infected

One-step TMLE for weighted average treatment effects

Two Sample Test for Eigendecompositions of Functional Data