Comparative Analysis of Modern Machine Learning Models for Retail Sales Forecasting

Questo studio dimostra che, nel contesto della previsione delle vendite al dettaglio caratterizzata da dati intermittenti e mancanti, i metodi basati su ensemble come XGBoost superano le architetture di deep learning più complesse, suggerendo che la scelta del modello debba privilegiare l'adeguatezza alle caratteristiche del problema rispetto alla sofisticazione architetturale.

Luka Hobor, Mario Brcic, Lidija Polutnik, Ante Kapetanovic

Pubblicato 2026-03-12
📖 4 min di lettura☕ Lettura da pausa caffè

Each language version is independently generated for its own context, not a direct translation.

Immagina di essere il direttore di una grande catena di supermercati. Ogni giorno hai un problema enorme: quanto cibo e quanti prodotti dovrai avere sugli scaffali la prossima settimana?

Se ne metti troppo, sprechi soldi e il cibo va a male. Se ne metti troppo poco, i clienti se ne vanno arrabbiati da un altro negozio. Il tuo obiettivo è indovinare il futuro, ma il mercato è caotico: a volte piove, a volte c'è una promozione, a volte il tuo concorrente abbassa i prezzi, e a volte i clienti semplicemente non comprano nulla per giorni.

Questo studio è come una gara di scacchi tra diversi "campioni" di intelligenza artificiale per vedere chi è il migliore nel prevedere queste vendite. I ricercatori hanno messo alla prova tre tipi di "campioni" su dati reali di un grande supermercato in Croazia.

Ecco chi erano i contendenti e cosa è successo:

1. I Tre Campioni in Arena

  • I Vecchi Saggi (Modelli Statistici): Sono come i nonni che guardano il cielo per prevedere il tempo. Si basano su regole semplici e vecchie (come la media delle vendite passate). Sono affidabili, ma spesso si perdono nei dettagli moderni e complessi.
  • I Geni Matematici (Reti Neurali / Deep Learning): Sono come supercomputer futuristici, addestrati su milioni di dati. Sono famosi per essere molto potenti, specialmente nei grandi magazzini online (come Amazon) dove c'è un flusso continuo e infinito di ordini. Sono come un chef che sa cucinare piatti complessi se ha ingredienti freschi e abbondanti.
  • I Cacciatori di Pattern (Alberi di Decisione / XGBoost e LightGBM): Immaginali come investigatori privati molto pratici. Non cercano di capire l'universo intero, ma si concentrano su regole logiche: "Se oggi è martedì e c'è pioggia, allora le vendite di ombrelli salgono". Sono bravi a gestire dati "sporchi", incompleti o irregolari.

2. La Sfida: Il Mercato "Frammentato"

Il vero problema di questo supermercato fisico non è come Amazon.

  • Amazon ha un magazzino gigante e ordini costanti. È come un fiume che scorre sempre uguale.
  • Il Supermercato Fisico è come un arcipelago di isole. Ogni negozio è diverso, ogni prodotto ha la sua storia, e spesso ci sono giorni in cui un prodotto non viene venduto affatto (domanda intermittente). Inoltre, i dati sono spesso "bucati" (manca qualche informazione).

I ricercatori hanno detto: "Vediamo chi vince in questo ambiente caotico e frammentato".

3. Il Risultato della Gara: La Sorpresa

Molti pensavano che i "Geni Matematici" (le reti neurali) avrebbero vinto perché sono la tecnologia più moderna e costosa. Invece, hanno vinto gli Investigatori Pratici (XGBoost e LightGBM).

Ecco perché, usando una metafora:

  • I Geni Matematici (Reti Neurali) sono come un orchestra sinfonica. Funzionano benissimo se tutti gli strumenti suonano insieme e c'è molta musica (molti dati). Ma se provi a suonare in una stanza rumorosa, con strumenti che mancano e spartiti incompleti (i dati del supermercato fisico), l'orchestra suona stonato. Hanno bisogno di dati perfetti e continui per brillare.
  • Gli Investigatori Pratici (XGBoost) sono come un squadra di detective esperti. Non hanno bisogno di un'orchestra perfetta. Se manca un pezzo di informazione, dicono: "Ok, usiamo quello che abbiamo e facciamo una stima logica". Sono molto bravi a gestire i "buchi" nei dati e le vendite a singhiozzo.

Il Campione Assoluto: XGBoost.
Ha vinto con un punteggio di errore bassissimo (RMSE di 4.833). È stato preciso, veloce e non si è confuso quando i dati erano sporchi.

4. La Lezione Importante: "Non serve la Ferrari per andare al bar"

Lo studio ci insegna una lezione fondamentale per il mondo reale: non sempre la tecnologia più complessa è la migliore.

  • L'errore comune: Pensare che più un modello è "intelligente" (come le reti neurali), più è bravo.
  • La realtà: Se il tuo problema è specifico (come un supermercato fisico con dati intermittenti), un modello più semplice e mirato funziona meglio, costa meno e richiede meno energia elettrica.

I ricercatori hanno anche provato a "riparare" i dati mancanti usando un metodo sofisticato (SAITS) per aiutare le reti neurali. È stato come dare un occhiale a chi non ci vede bene: le reti neurali sono migliorate un po', ma sono rimaste comunque meno precise degli investigatori pratici.

In Sintesi

Se sei un gestore di un negozio fisico:

  1. Non sprecare soldi e tempo cercando di costruire un "supercomputer" per prevedere le vendite.
  2. Usa strumenti più semplici e robusti (come XGBoost) che sanno adattarsi al caos quotidiano.
  3. La chiave non è la complessità del modello, ma quanto bene si adatta alla natura dei tuoi dati.

In parole povere: Per il caos del mondo reale, a volte è meglio un buon vecchio detective che un super-robot.