Synthetic data for ratemaking: imputation-based methods vs adversarial networks and autoencoders

Each language version is independently generated for its own context, not a direct translation.

Immagina di essere un attuario, il "mago dei numeri" delle assicurazioni. Il suo compito è calcolare quanto dovresti pagare per l'auto o la casa. Per fare questo con precisione, ha bisogno di una montagna di dati reali: chi ha fatto incidenti, che auto guidano, quanti anni hanno, ecc.

Ma c'è un problema: i dati reali sono segreti. Le compagnie assicurative non possono condividerli per motivi di privacy e sicurezza. Inoltre, raccogliere nuovi dati costa tempo e denaro. È come se un cuoco volesse creare una nuova ricetta, ma non potesse usare gli ingredienti veri perché sono bloccati in un caveau.

La soluzione? Creare dati finti (sintetici) che sembrino così reali da ingannare il mago dei numeri.

Questo articolo scientifico mette alla gara due squadre di "creatori di dati finti" per vedere chi vince:

1. Le Squadre in Gara

Squadra A: I "Falsari" Avanzati (Reti Neurali e GAN)
Immagina questa squadra come un gruppo di artisti digitali super-istruiti. Usano tecnologie complesse chiamate GAN (Reti Generative Avversariali) e Autoencoder.

Come funzionano: È come se avessero due robot: uno che dipinge quadri falsi (il generatore) e uno che fa il critico d'arte per dire se sono veri o no (il discriminatore). Si allenano l'uno contro l'altro finché il critico non riesce più a distinguere il falso dal vero.
Il difetto: Sono molto potenti, ma richiedono un'istruzione universitaria in informatica per essere usati. Sono costosi, lenti e difficili da gestire per un attuario medio. È come avere un supercomputer per accendere una lampadina.

Squadra B: I "Riparatori" Intelligenti (Metodo MICE)
Questa squadra usa un approccio più semplice, basato su un metodo chiamato MICE (Imputazione Multivariata con Equazioni a Catena).

L'analogia: Immagina di avere un puzzle incompleto dove mancano molti pezzi. Invece di inventare il puzzle da zero, prendi i pezzi che hai, li nascondi un po' (li rendi "mancanti") e chiedi a un assistente intelligente (una "Foresta Casuale", un tipo di algoritmo semplice) di indovinare cosa c'era sotto basandosi sui pezzi vicini. Ripeti questo gioco molte volte finché non hai ricostruito un puzzle nuovo che sembra identico all'originale.
Il vantaggio: È come usare un coltellino svizzero. Non serve essere ingegneri spaziali per usarlo. È veloce, facile da installare e funziona bene con i dati "disordinati" tipici delle assicurazioni.

2. La Sfida (Il Test)

Gli autori hanno preso un dataset reale di assicurazioni auto francese (chiamato freMTPL2freq) e hanno fatto un esperimento:

Hanno nascosto i dati veri.
Hanno chiesto a entrambe le squadre di ricreare i dati.
Hanno poi usato questi dati finti per addestrare un modello matematico (un GLM) e vedere quanto era bravo a prevedere gli incidenti.

Chi ha vinto?
La sorpresa è che la Squadra B (MICE) ha vinto quasi ovunque!

Qualità: I dati creati da MICE erano quasi indistinguibili da quelli reali per quanto riguarda le distribuzioni (es. quanti giovani guidano, quante auto diesel ci sono) e le relazioni tra le variabili.
Semplicità: MICE è stato molto più facile da usare. Non ha richiesto ore di configurazione o supercomputer.
I GAN (Squadra A): Hanno fatto un buon lavoro, ma a volte hanno creato dati un po' "strani" o hanno faticato con le variabili che hanno molte categorie (come i marchi delle auto). Inoltre, sono stati molto più lenti e complicati da impostare.

3. La Lezione Importante: "Più non significa meglio"

C'è un altro punto cruciale scoperto dagli autori.
Molti pensavano: "Se ho pochi dati veri, aggiungo un mucchio di dati finti, così il mio modello imparerà di più!".
Falso.
L'esperimento ha mostrato che aggiungere dati finti a quelli veri non migliora quasi mai le prestazioni. Anzi, se aggiungi troppi dati finti, il modello potrebbe confondersi e diventare meno preciso. È come se provassi a imparare a guidare guardando un film di un'auto che guida: guardare il film (dati finti) non ti aiuta a guidare meglio se non hai già fatto pratica con l'auto vera.

In Sintesi

Questo studio ci dice che per creare dati finti per le assicurazioni:

Non serve sempre la tecnologia più costosa e complessa (le reti neurali avanzate).
Metodi più semplici e "vecchi scuola" come MICE, combinati con algoritmi semplici, sono spesso più veloci, più facili da usare e ugualmente efficaci.
Usare dati finti per sostituire i dati veri va bene per la ricerca, ma usarli per aggiungere ai dati veri non sempre aiuta a fare previsioni migliori.

È un po' come dire che per cucinare una buona pasta, non serve sempre un robot da cucina da 5.000 euro: a volte una buona pentola e un po' di esperienza (il metodo MICE) fanno un lavoro migliore e più veloce.

Each language version is independently generated for its own context, not a direct translation.

Ecco una sintesi tecnica dettagliata del paper "Synthetic data for ratemaking: imputation-based methods vs adversarial networks and autoencoders" in lingua italiana.

Titolo: Dati sintetici per la tariffazione: metodi basati sull'imputazione contro reti avversarie e autoencoder

1. Il Problema

La tariffazione attuariale (ratemaking) e la modellazione del rischio dipendono criticamente dalla disponibilità di dati di alta qualità. Tuttavia, l'accesso a tali dati è spesso limitato da:

Privacy e sicurezza: Le compagnie assicurative raramente condividono i propri dati per motivi competitivi e di riservatezza.
Costi e disponibilità: L'acquisizione di nuovi dati reali può essere costosa o impossibile, specialmente quando si lanciano nuovi prodotti o si entra in nuovi mercati.
Limitazioni della ricerca: La scarsità di dataset aperti ostacola lo sviluppo e il test di nuove metodologie nella scienza attuariale.

La soluzione proposta è la generazione di dati sintetici, che può essere utilizzata come dataset autonomo per la ricerca o come strumento di data augmentation (ampliamento) per migliorare la generalizzazione dei modelli predittivi. Il problema centrale è identificare quale metodo generativo offra il miglior compromesso tra fedeltà statistica (preservazione delle distribuzioni e delle relazioni multivariate), facilità d'uso e prestazioni nei modelli di tariffazione (GLM).

2. Metodologia

Gli autori confrontano diverse classi di approcci per la generazione di dati tabulari, utilizzando il dataset pubblico freMTPL2freq (responsabilità civile auto francese) come base di riferimento.

Approcci Confrontati:

Metodi basati su MICE (Multivariate Imputation by Chained Equations):
- Sfruttano il framework di imputazione per dati mancanti, trattando la generazione sintetica come un problema di imputazione iterativa.
- Utilizzano Random Forests (RF) come modelli di imputazione per catturare relazioni non lineari senza assumere una distribuzione congiunta specifica.
- Varianti testate:
  - MICE Parzialmente Sintetico: Sostituzione di una parte dei dati originali con valori imputati.
  - MICE Fully Sintetico: Sostituzione completa dei dati originali.
  - MICE Tabulator: Approccio ispirato a Neves et al. (2022) con cicli di amputazione/imputazione.
  - MICE VV: Metodo colonna per colonna (Volker & Vink).
Reti Generative Avversarie (GAN) e Varianti:
- CTGAN (Conditional Tabular GAN): Lo stato dell'arte per dati tabulari.
- CTGAN + Autoencoder (AE): Uso di AE per codificare variabili categoriche ad alta cardinalità prima dell'addestramento della GAN.
- WGAN-GP (Multi-Categorical): Implementazione basata su Côté et al. (2025).
- Tabulator (GAN-based): Basato su GAIN (Generative Adversarial Imputation Networks).
Autoencoder Variational (VAE):
- Approccio proposto da Jamotton e Hainaut (2024) che utilizza trasformazioni quantili e funzioni di perdita miste (cross-entropy e MSE).

Setup Sperimentale:

Generazione del "Ground Truth": Per valutare la capacità dei modelli di apprendere le relazioni strutturali, gli autori simulano i conteggi dei sinistri ( $y$ ) partendo da una funzione nota $f(x)$ (lineare e con interazioni) applicata alle covariate originali, ignorando i valori reali di $y$ nel dataset.
Metriche di Valutazione:
- Metriche di Dataset: MAE/MAPE per distribuzioni marginali (categoriche e numeriche) e per coppie di variabili; preservazione delle correlazioni.
- Metriche di Modello: Coerenza dei coefficienti stimati nei GLM (Poisson) rispetto ai coefficienti veri ( $\beta^*$ ), selezione delle variabili, devianza di Poisson e RMSE.
- Data Augmentation: Valutazione dell'impatto sulla performance del GLM quando si mescolano dati reali e sintetici.
- Usabilità: Valutazione soggettiva della facilità di implementazione.

3. Contributi Chiave

Benchmarking dei metodi MICE in ambito attuariale: Il paper introduce e valida l'uso di MICE con Random Forests per la generazione di dati attuariali, un approccio spesso trascurato a favore dei modelli deep learning.
Analisi comparativa estesa: Confronto di 10 approcci diversi (inclusi ibridi come CTGAN+MICE e CTGAN+AE) su un dataset standardizzato, valutando sia la fedeltà dei dati che l'utilità per la tariffazione.
Valutazione dell'Augmentation: Studio sistematico sull'efficacia dell'aggiunta di dati sintetici ai dati reali per migliorare la previsione dei sinistri, dimostrando che l'augmentation generica non sempre porta benefici.
Focus sull'usabilità pratica: Oltre alle metriche tecniche, viene valutata la complessità operativa, evidenziando come i metodi basati su MICE siano più accessibili ("out-of-the-box") rispetto alle soluzioni deep learning complesse.

4. Risultati Principali

Performance dei Modelli MICE: I metodi basati su MICE (in particolare "MICE Partially Synthetic" e "MICE Fully Synthetic") si sono dimostrati i migliori in termini di:
- Accuratezza dei coefficienti stimati nei GLM (minore distanza dai coefficienti veri).
- Preservazione delle relazioni multivariate e delle distribuzioni marginali.
- Capacità di selezione corretta delle variabili.
- Sono risultati competitivi o superiori rispetto a CTGAN, VAE e WGAN-GP.
Limiti delle GAN: I modelli basati su GAN (incluso CTGAN) hanno mostrato difficoltà nella preservazione delle distribuzioni delle variabili numeriche e nelle interazioni complesse, spesso producendo coefficienti GLM meno stabili. L'uso di Autoencoder per le variabili categoriche ha migliorato la generazione di queste ultime ma ha talvolta peggiorato le prestazioni complessive.
Impatto dell'Augmentation: L'aggiunta di dati sintetici ai dati reali non ha generalmente migliorato le prestazioni predittive dei GLM. Al contrario, aumentare la proporzione di dati sintetici tende ad aumentare l'errore nella stima dei coefficienti (metrica M1), suggerendo che i dati sintetici, se non perfettamente fedeli, possono introdurre rumore o bias.
Usabilità: I metodi MICE (implementati nel pacchetto R mice) sono risultati i più facili da usare, richiedendo meno pre-processing e tuning rispetto alle architetture neurali complesse che necessitano di ambienti Python specifici e configurazioni avanzate.
Eccezioni: In un singolo caso specifico (MICE Parzialmente Sintetico con dati di interazione), l'augmentation ha leggermente migliorato la stima dei coefficienti, ma non è una regola generale.

5. Significato e Conclusioni

Il paper dimostra che i metodi di imputazione statistica classica, in particolare MICE con Random Forests, sono una soluzione robusta, efficace e spesso superiore per la generazione di dati sintetici nel contesto della tariffazione assicurativa rispetto ai modelli generativi deep learning più recenti.

Implicazioni pratiche:

Gli attuari possono adottare soluzioni "out-of-the-box" (come il pacchetto R mice) per generare dati sintetici di alta qualità senza la necessità di competenze avanzate in deep learning.
L'uso di dati sintetici come dataset autonomo è valido per la ricerca e il testing di modelli.
L'uso di dati sintetici per l'augmentation di dataset reali deve essere fatto con cautela, poiché non garantisce automaticamente un miglioramento della performance del modello e può degradare la stima dei parametri se la fedeltà dei dati sintetici non è perfetta.

Il lavoro apre la strada a future ricerche sull'integrazione di vincoli di business (es. limiti di età, gerarchie) nei framework di imputazione e sulla valutazione del rischio di disclosure (privacy) specifico per questi metodi.

Synthetic data for ratemaking: imputation-based methods vs adversarial networks and autoencoders

1. Le Squadre in Gara

2. La Sfida (Il Test)

3. La Lezione Importante: "Più non significa meglio"

In Sintesi

Titolo: Dati sintetici per la tariffazione: metodi basati sull'imputazione contro reti avversarie e autoencoder

1. Il Problema

2. Metodologia

3. Contributi Chiave

4. Risultati Principali

5. Significato e Conclusioni

Articoli simili

Equitable Multi-Task Learning for AI-RANs

SPREAD: Subspace Representation Distillation for Lifelong Imitation Learning

The Temporal Markov Transition Field

SoftJAX & SoftTorch: Empowering Automatic Differentiation Libraries with Informative Gradients

Expressivity-Efficiency Tradeoffs for Hybrid Sequence Models