Demand Estimation with Text and Image Data

Il paper propone un metodo di stima della domanda che utilizza embedding estratti da immagini e testi tramite modelli di deep learning per inferire i pattern di sostituzione, dimostrando che questo approccio supera i modelli basati su attributi tradizionali nella previsione di scelte alternative e nell'analisi di categorie di prodotti Amazon.

Giovanni Compiani, Ilya Morozov, Stephan Seiler

Pubblicato 2026-02-19
📖 4 min di lettura☕ Lettura da pausa caffè

Each language version is independently generated for its own context, not a direct translation.

Immagina di essere un detective che deve capire perché le persone comprano certi prodotti invece di altri. Nel mondo dell'economia e del marketing, questo è fondamentale: serve per capire se due aziende che si fondono creano un monopolio, per fissare il prezzo giusto di un prodotto o per capire come i consumatori reagiscono alle tasse.

Fino a poco tempo fa, questi detective (i ricercatori) avevano un problema enorme: non vedevano tutto.

Il Problema: La Lista della Spesa Incompleta

Immagina di voler capire perché la gente preferisce un certo libro a un altro. Tradizionalmente, i ricercatori guardavano solo le "etichette" ufficiali del prodotto:

  • Genere (Fantasy, Giallo, Saggistica)
  • Numero di pagine
  • Anno di pubblicazione
  • Prezzo

È come se volessi capire il gusto di un piatto guardando solo la lista degli ingredienti scritti su un foglio, senza mai assaggiarlo o vederlo. Ma la realtà è che le persone scelgono basandosi su cose che è difficile scrivere in una lista: l'aspetto visivo della copertina, il modo in cui è scritta la descrizione, o le emozioni che le recensioni degli altri lettori trasmettono. Queste sono informazioni "non strutturate": immagini e testi grezzi.

La Soluzione: I "Super-occhi" dell'Intelligenza Artificiale

Gli autori di questo studio (Compiani, Morozov e Seiler) hanno avuto un'idea brillante: invece di cercare di scrivere a mano tutte le caratteristiche di un prodotto, perché non usare l'Intelligenza Artificiale (AI) per "guardare" e "leggere" i prodotti come farebbe un umano?

Hanno usato dei modelli di AI già addestrati (come dei super-occhi e super-orecchie digitali) per analizzare:

  1. Le immagini: L'AI guarda la copertina di un libro o la foto di una maglietta e ne estrae un "codice segreto" (chiamato embedding) che cattura colori, stile, atmosfera e design.
  2. Il testo: L'AI legge i titoli, le descrizioni e le recensioni. Non conta solo le parole, ma capisce il significato. Capisce che "avventura mozzafiato" e "piacevole lettura" parlano della stessa cosa, anche se le parole sono diverse.

Il Trucco: Ridurre il Caos

L'AI genera migliaia di questi codici segreti per ogni prodotto. È troppo caos per un modello economico. Quindi, gli autori usano una tecnica matematica (chiamata PCA) che funziona come un filtro per il caffè: separa la parte importante (il gusto del caffè) dai residui inutili (la polvere di caffè). In questo modo, riducono migliaia di codici a poche "dimensioni principali" che spiegano davvero perché un prodotto è diverso dall'altro.

Queste dimensioni diventano poi le nuove "etichette" che inseriscono nel loro modello matematico.

La Prova: L'Esperimento del Libro

Per vedere se il loro metodo funzionava davvero, hanno fatto un esperimento. Hanno mostrato a 10.000 persone una lista di 10 libri, con prezzi e posizioni casuali.

  1. La gente sceglieva il libro che preferiva (la prima scelta).
  2. Poi, togliendo quel libro dalla lista, chiedevano: "Ok, quale prenderesti adesso?" (la seconda scelta).

La "seconda scelta" è la prova del nove: ci dice esattamente cosa la persona avrebbe comprato se il suo preferito non fosse stato disponibile. È la misura perfetta della sostituzione.

Il risultato?
Il modello tradizionale (che guardava solo genere e pagine) sbagliava spesso a prevedere la seconda scelta. Il nuovo modello (che usava le immagini e le recensioni) aveva un'intelligenza quasi umana: capiva che se a qualcuno piaceva un libro di "fantasy oscuro", probabilmente avrebbe scelto un altro libro con una copertina scura e una recensione che parlava di "magia", anche se il genere era scritto diversamente.

Cosa è successo nel mondo reale?

Hanno applicato questo metodo a 40 categorie di prodotti su Amazon (dai vestiti ai videogiochi, dal cibo per animali all'elettronica).

  • Sorprendentemente: A volte le immagini sono più importanti del testo (es. per la moda), ma a volte è il contrario (es. per i videogiochi o i libri).
  • La lezione: Non si può indovinare a priori cosa conta di più. Bisogna raccogliere tutti i dati (foto e testo) e lasciare che l'algoritmo decida cosa è più utile.

In Sintesi: Perché è importante?

Pensa a questo approccio come a un traduttore universale.
Prima, i ricercatori dovevano tradurre manualmente la complessità del mondo reale in una lista noiosa di numeri, perdendo molte sfumature. Ora, usano l'AI per tradurre direttamente le immagini e le parole in "preferenze dei consumatori".

Questo permette di:

  • Prevedere meglio cosa succederà se un'azienda cambia prezzo.
  • Capire meglio quali prodotti sono veri concorrenti (sostituti).
  • Studiare mercati dove è difficile raccogliere dati (come l'arte o i libri), perché le foto e le descrizioni sono sempre disponibili online.

In pratica, hanno dato ai ricercatori un nuovo superpotere: la capacità di "vedere" e "capire" i prodotti esattamente come fanno i consumatori, senza dover chiedere loro cosa pensano, ma semplicemente guardando cosa hanno comprato e cosa hanno scritto.

Ricevi articoli come questo nella tua casella di posta

Digest giornalieri o settimanali personalizzati in base ai tuoi interessi. Riassunti Gist o tecnici, nella tua lingua.

Prova Digest →