Synthetic data for ratemaking: imputation-based methods vs adversarial networks and autoencoders

Questo studio dimostra che i metodi di imputazione basati su MICE offrono un'alternativa efficace e più semplice da implementare rispetto alle reti avversarie e agli autoencoder per la generazione di dati sintetici nella taratura assicurativa, preservando fedelmente le distribuzioni originali e migliorando le prestazioni dei modelli GLM.

Yevhen Havrylenko, Meelis Käärik, Artur Tuttar

Pubblicato Tue, 10 Ma
📖 4 min di lettura☕ Lettura da pausa caffè

Each language version is independently generated for its own context, not a direct translation.

Immagina di essere un attuario, il "mago dei numeri" delle assicurazioni. Il suo compito è calcolare quanto dovresti pagare per l'auto o la casa. Per fare questo con precisione, ha bisogno di una montagna di dati reali: chi ha fatto incidenti, che auto guidano, quanti anni hanno, ecc.

Ma c'è un problema: i dati reali sono segreti. Le compagnie assicurative non possono condividerli per motivi di privacy e sicurezza. Inoltre, raccogliere nuovi dati costa tempo e denaro. È come se un cuoco volesse creare una nuova ricetta, ma non potesse usare gli ingredienti veri perché sono bloccati in un caveau.

La soluzione? Creare dati finti (sintetici) che sembrino così reali da ingannare il mago dei numeri.

Questo articolo scientifico mette alla gara due squadre di "creatori di dati finti" per vedere chi vince:

1. Le Squadre in Gara

Squadra A: I "Falsari" Avanzati (Reti Neurali e GAN)
Immagina questa squadra come un gruppo di artisti digitali super-istruiti. Usano tecnologie complesse chiamate GAN (Reti Generative Avversariali) e Autoencoder.

  • Come funzionano: È come se avessero due robot: uno che dipinge quadri falsi (il generatore) e uno che fa il critico d'arte per dire se sono veri o no (il discriminatore). Si allenano l'uno contro l'altro finché il critico non riesce più a distinguere il falso dal vero.
  • Il difetto: Sono molto potenti, ma richiedono un'istruzione universitaria in informatica per essere usati. Sono costosi, lenti e difficili da gestire per un attuario medio. È come avere un supercomputer per accendere una lampadina.

Squadra B: I "Riparatori" Intelligenti (Metodo MICE)
Questa squadra usa un approccio più semplice, basato su un metodo chiamato MICE (Imputazione Multivariata con Equazioni a Catena).

  • L'analogia: Immagina di avere un puzzle incompleto dove mancano molti pezzi. Invece di inventare il puzzle da zero, prendi i pezzi che hai, li nascondi un po' (li rendi "mancanti") e chiedi a un assistente intelligente (una "Foresta Casuale", un tipo di algoritmo semplice) di indovinare cosa c'era sotto basandosi sui pezzi vicini. Ripeti questo gioco molte volte finché non hai ricostruito un puzzle nuovo che sembra identico all'originale.
  • Il vantaggio: È come usare un coltellino svizzero. Non serve essere ingegneri spaziali per usarlo. È veloce, facile da installare e funziona bene con i dati "disordinati" tipici delle assicurazioni.

2. La Sfida (Il Test)

Gli autori hanno preso un dataset reale di assicurazioni auto francese (chiamato freMTPL2freq) e hanno fatto un esperimento:

  1. Hanno nascosto i dati veri.
  2. Hanno chiesto a entrambe le squadre di ricreare i dati.
  3. Hanno poi usato questi dati finti per addestrare un modello matematico (un GLM) e vedere quanto era bravo a prevedere gli incidenti.

Chi ha vinto?
La sorpresa è che la Squadra B (MICE) ha vinto quasi ovunque!

  • Qualità: I dati creati da MICE erano quasi indistinguibili da quelli reali per quanto riguarda le distribuzioni (es. quanti giovani guidano, quante auto diesel ci sono) e le relazioni tra le variabili.
  • Semplicità: MICE è stato molto più facile da usare. Non ha richiesto ore di configurazione o supercomputer.
  • I GAN (Squadra A): Hanno fatto un buon lavoro, ma a volte hanno creato dati un po' "strani" o hanno faticato con le variabili che hanno molte categorie (come i marchi delle auto). Inoltre, sono stati molto più lenti e complicati da impostare.

3. La Lezione Importante: "Più non significa meglio"

C'è un altro punto cruciale scoperto dagli autori.
Molti pensavano: "Se ho pochi dati veri, aggiungo un mucchio di dati finti, così il mio modello imparerà di più!".
Falso.
L'esperimento ha mostrato che aggiungere dati finti a quelli veri non migliora quasi mai le prestazioni. Anzi, se aggiungi troppi dati finti, il modello potrebbe confondersi e diventare meno preciso. È come se provassi a imparare a guidare guardando un film di un'auto che guida: guardare il film (dati finti) non ti aiuta a guidare meglio se non hai già fatto pratica con l'auto vera.

In Sintesi

Questo studio ci dice che per creare dati finti per le assicurazioni:

  • Non serve sempre la tecnologia più costosa e complessa (le reti neurali avanzate).
  • Metodi più semplici e "vecchi scuola" come MICE, combinati con algoritmi semplici, sono spesso più veloci, più facili da usare e ugualmente efficaci.
  • Usare dati finti per sostituire i dati veri va bene per la ricerca, ma usarli per aggiungere ai dati veri non sempre aiuta a fare previsioni migliori.

È un po' come dire che per cucinare una buona pasta, non serve sempre un robot da cucina da 5.000 euro: a volte una buona pentola e un po' di esperienza (il metodo MICE) fanno un lavoro migliore e più veloce.