Synthetic data for ratemaking: imputation-based methods vs adversarial networks and autoencoders

Each language version is independently generated for its own context, not a direct translation.

Verzonken Verzekeringen: Hoe AI en Simpele Statistiek Geheime Data Naken

Stel je voor dat je een verzekeraar bent. Je wilt weten hoe vaak mensen ongelukken hebben, zodat je de juiste premie kunt vragen. Maar daarvoor heb je duizenden dossiers nodig met echte gegevens: de leeftijd van de bestuurder, het type auto, de postcode, en of er een schade is geweest.

Het probleem? Deze dossiers zijn geheim. Ze zitten opgesloten in de kluis van verzekeringsmaatschappijen vanwege privacywetten en concurrentie. Onderzoekers zitten dus met lege handen: ze hebben geen data om nieuwe, betere modellen te testen.

De oplossing in dit artikel? Synthetische data. Ofwel: "verzonken" data. Het is alsof je een perfecte kopie maakt van de echte dossiers, maar dan met verzonnen namen en nummers die er statistisch gezien precies hetzelfde uitzien als het origineel. Zo kunnen onderzoekers spelen met de data zonder dat ze iemand's privacy schenden.

Maar hoe maak je zo'n perfecte kopie? De auteurs van dit paper hebben twee kampen tegen elkaar laten strijden: de nieuwe, dure technologie (Deep Learning) versus de oude, betrouwbare methode (Imputatie).

Hier is hoe het werkt, vertaald in alledaagse termen:

1. De Twee Kampen

Kamp A: De Superhelden (Deep Learning)
Dit zijn de moderne, complexe methoden zoals GANs (Generative Adversarial Networks) en Autoencoders.

De Analogie: Stel je voor dat je een kunstenaar hebt die probeert een schilderij na te maken. Hij heeft een "vervalser" (de Generator) die probeert een nep-schilderij te maken, en een "kunstkenner" (de Discriminator) die probeert te zien of het echt is. Ze vechten tegen elkaar tot de vervalser zo goed is dat de kunstkenner het niet meer kan onderscheiden.
Het nadeel: Dit is als het bouwen van een raket. Het kost veel tijd, veel energie, en je hebt een heel team van ingenieurs nodig om het werkend te krijgen. Als je de raket een beetje verkeerd instelt, crasht hij.

Kamp B: De Slimme Vullers (MICE)
Dit is de methode die de auteurs in dit paper willen promoten: MICE (Multivariate Imputation by Chained Equations).

De Analogie: Stel je voor dat je een puzzel hebt waar een paar stukjes ontbreken. In plaats van een raket te bouwen, gebruik je een slimme gids die zegt: "Oké, als de auto een diesel is en de bestuurder jong, dan is de kans groot dat de postcode X is." De methode kijkt naar de stukjes die er wel zijn, en vult de ontbrekende stukjes in op basis van patronen.
De truc: Ze doen dit niet één keer, maar steeds weer opnieuw. Ze vullen een gat in, kijken naar het resultaat, en vullen het volgende gat in. Uiteindelijk krijg je een complete puzzel die eruitziet als het origineel.
Het voordeel: Dit is als een degelijke hamer en spijker. Geen raketten, geen ingewikkelde code. Het werkt direct uit de doos ("out-of-the-box") en is heel makkelijk te gebruiken.

2. De Grote Wedstrijd

De auteurs hebben deze methoden getest op een echte dataset van autoverzekeringen (de freMTPL2freq). Ze hebben 10 verschillende methoden tegen elkaar laten strijden op drie vlakken:

De Kwaliteit van de Kopie: Ziet de verzonken data eruit als de echte data? (Zijn de verdelingen van leeftijd en schade hetzelfde?)
De Betrouwbaarheid: Als je een verzekeraar een model laat bouwen op de verzonken data, werkt dat model dan net zo goed als op de echte data?
Het Gemak: Hoe makkelijk is het voor een gewone verzekeraar om dit te gebruiken?

3. De Uitslag: De Oude Koeien Winnen

Het resultaat is verrassend voor de tech-wereld:

De Winnaar: De simpele MICE-methode (Kamp B) won op bijna alle fronten. De verzonken data was statistisch het meest betrouwbaar, en de modellen die erop werden getraind, gaven de beste voorspellingen.
De Verliezers: De dure, complexe Deep Learning-methoden (Kamp A) deden het vaak slechter. Ze waren lastig in te stellen en maakten soms rare fouten, vooral bij variabelen met veel mogelijke waarden (zoals het type auto).
De "Hybride" Methode: De auteurs probeerden ook om de twee te mixen (een raket met een hamer), maar dat bleek niet echt nodig. De simpele hamer deed het gewoon beter.

4. Een Belangrijke Waarschuwing: Meer is niet altijd Beter

Een ander interessant punt in het paper is het idee van Data Augmentatie.
Stel, je hebt 100 echte dossiers. Je maakt er 100 verzonnen bij en voegt ze toe, zodat je er 200 hebt. Denk je dat je model dan 2x zo slim wordt?

Nee.
De auteurs ontdekten dat het toevoegen van verzonken data de prestaties van het model niet verbeterde. Sterker nog: hoe meer verzonken data je toevoegt, hoe meer het model begint te "wankelen" en minder nauwkeurig wordt.

De Metafoor: Het is alsof je een kok bent die een soep maakt. Als je de soep verrijkt met een lepel van een "verzonken" bouillon die er net zo uitziet, wordt de soep niet lekkerder. Sterker nog, als je de hele pan vult met die verzonken bouillon, proef je alleen maar nep. Je hebt de echte smaak (de echte data) nodig.

Conclusie voor de Leek

Dit paper zegt eigenlijk: "Hou het simpel."

Voor verzekeraars en onderzoekers die verzonken data nodig hebben, is het niet nodig om de duurste, nieuwste AI-raketten te bouwen. De oude, bewezen statistische methode (MICE) is:

Betrouwbaarder: De data is eerlijker.
Beter: De modellen werken er beter mee.
Eenvoudiger: Iedereen kan het gebruiken zonder een PhD in computerwetenschappen.

Het is een herinnering dat in de wereld van data, soms de meest simpele oplossing de slimste is. Je hoeft niet altijd een raket te bouwen om een maan te bereiken; soms volstaat een goede ladder.

Each language version is independently generated for its own context, not a direct translation.

Hier is een gedetailleerde technische samenvatting van het artikel "Synthetic data for ratemaking: imputation-based methods vs adversarial networks and autoencoders" in het Nederlands.

Probleemstelling

Actuariële tariferingsmodellen (ratemaking) zijn afhankelijk van hoogwaardige data om risico's nauwkeurig te kwantificeren. Echter, toegang tot dergelijke data is vaak beperkt door:

Privacy- en veiligheidszorgen: Verzekeraars delen zelden hun data publiek vanwege concurrentievoordelen en privacyregels.
Beschikbaarheid: Nieuwe markten of producten hebben vaak onvoldoende historische data.
Kosten: Het verzamelen van nieuwe realistische data is tijdrovend en duur.

Synthetische data biedt een oplossing: het kan worden gebruikt als een zelfstandig dataset voor onderzoek of om bestaande data aan te vullen (data augmentatie). Het doel is data te genereren die statistisch vergelijkbaar is met de originele data, maar geen gevoelige informatie onthult. Bestaande literatuur focust voornamelijk op diepe generatieve modellen (zoals GANs en VAEs), maar deze vereisen vaak veel aanpassing per dataset en zijn complex in gebruik.

Methodologie

De auteurs vergelijken verschillende benaderingen voor het genereren van synthetische tabulaire data, met een specifieke focus op het vergelijken van Imputatie-gebaseerde methoden tegenover Diepe Generatieve Modellen.

1. Gebruikte Dataset:

De studie gebruikt het open-source dataset freMTPL2freq (Frans motorrijtuig-derdenaansprakelijkheidsverzekering), bestaande uit 678.013 observaties met 9 verklarende variabelen (5 categorisch, 4 numeriek), 1 blootstellingsvariabele en 1 responsvariabele (aantal claims).
Om de "ware" structuur van de data te kennen, simuleren de auteurs de responsvariabele ( $Y$ ) via een bekende Poisson GLM-formule (lineair en met interacties), in plaats van de originele waarden te gebruiken.

2. Geëvalueerde Methoden:
De auteurs testen 10 verschillende generatiemethoden, ingedeeld in vier categorieën:

GAN-gebaseerde methoden:
- CTGAN: Conditional Tabular GAN.
- CTGAN met AEs: CTGAN waarbij Autoencoders worden gebruikt voor het comprimeren van hoog-cardinale categorische variabelen.
- WGAN-GP: Wasserstein GAN met gradient penalty (gebaseerd op Côté et al., 2025).
- Tabulator: Een GAIN-gebaseerde methode (gebaseerd op Neves et al., 2022).
Imputatie-gebaseerde methoden (MICE):
- Gebaseerd op Multivariate Imputation by Chained Equations (MICE) met Random Forests (RF) als imputatiemodel.
- Varianten: "MICE Partially Synthetic" (75% synthetisch, 25% origineel), "MICE Fully Synthetic" (100% synthetisch via iteratieve imputatie), "MICE Tabulator" (chunk-gebaseerde imputatie), en "MICE VV" (kolom-gebaseerd volgens Volker & Vink).
Hybride methoden:
- Combinaties van CTGAN en MICE (voor numerieke variabelen).
- Combinaties van CTGAN, AEs (voor categorische variabelen) en MICE.
Variational Autoencoders (VAE):
- De methode voorgesteld door Jamotton en Hainaut (2024).

3. Evaluatiemetrics:
De prestaties worden gemeten aan de hand van:

Dataset-metrics: Hoe goed worden marginale verdelingen en multivariate relaties behouden? (Gemeten via MAE/MAPE voor verdelingen en correlaties).
Model-metrics: Hoe consistent zijn GLM's getraind op synthetische data vergeleken met die op originele data?
- Afstand tussen geschatte en ware GLM-coëfficiënten (M1 en M2 metrics).
- Voorspellingsnauwkeurigheid (Poisson deviance en RMSE).
- Variabele selectie (hoeveel juiste/verkeerde variabelen worden geselecteerd?).
Gebruiksgemak: Subjectieve beoordeling van implementatiecomplexiteit en "out-of-the-box" bruikbaarheid.

Belangrijkste Bijdragen

Benchmarking van MICE: De studie introduceert en valideert MICE (met Random Forests) als een competitieve, vaak superieure alternatief voor complexe diepe generatieve modellen in de context van actuariële tariferingsdata.
Uitgebreide Vergelijking: Er wordt een directe vergelijking gemaakt tussen 10 methoden, inclusief bestaande state-of-the-art GANs/VAEs en nieuwe hybride varianten, allemaal getest op dezelfde dataset met bekende "ground truth" relaties.
Data Augmentatie Analyse: De auteurs onderzoeken of het toevoegen van synthetische data aan bestaande data de prestaties van GLM's verbetert.
Praktische Toepasbaarheid: Er wordt een nadruk gelegd op de "ease of use" en implementatiecomplexiteit, een aspect dat vaak wordt genegeerd in academische studies.

Resultaten

Prestaties van MICE: De MICE-gebaseerde methoden (vooral "MICE Partially Synthetic" en "MICE Fully Synthetic") presteren over het algemeen het beste. Ze behalen de hoogste ranglijsten voor nauwkeurigheid van GLM-coëfficiënten, voorspellingsnauwkeurigheid (Poisson deviance) en het behoud van dataverdelingen.
Prestaties van GANs/VAEs: Diepe generatieve modellen (CTGAN, WGAN, VAE) presteren over het algemeen slechter dan MICE, vooral wat betreft de nauwkeurigheid van de geschatte GLM-coëfficiënten en het behoud van complexe multivariate relaties.
- Opmerking: Het gebruik van Autoencoders (AEs) voor het voorverwerken van categorische variabelen verbetert de kwaliteit van deze specifieke variabelen in CTGAN-modellen, maar dit leidt niet tot een algehele prestatieverbetering van het model.
Data Augmentatie: Het generiek toevoegen van synthetische data aan de originele trainingsdata verbetert de prestaties van GLM's niet. In de meeste gevallen verslechtert de nauwkeurigheid van de geschatte coëfficiënten naarmate het aandeel synthetische data toeneemt. Er werd slechts één uitzonderlijke case gevonden waar augmentatie een lichte verbetering gaf.
Gebruiksgemak: MICE is veruit de meest gebruiksvriendelijke methode. Het is geïmplementeerd in het R-pakket mice, vereist minimale pre-processing en is "out-of-the-box" inzetbaar. GANs en VAEs vereisten aanzienlijk meer tijd voor training, complexe pre-processing (zoals one-hot encoding en normalisatie) en specifieke configuratie.
Tijd: MICE- en CTGAN-methoden waren het snelst (ongeveer 3 uur), terwijl aangepaste implementaties (zoals WGAN-GP) aanzienlijk langer duurden (ongeveer 10 uur).

Betekenis en Conclusie

De studie concludeert dat imputatie-gebaseerde methoden (MICE) een krachtig, betrouwbaar en vooral gebruiksvriendelijk alternatief zijn voor de complexe diepe generatieve modellen in de actuariële sector. Voor actuariële tariferingsdoeleinden, waar de interpretatie van coëfficiënten en de stabiliteit van modellen cruciaal zijn, blijken MICE-modellen met Random Forests vaak superieur te zijn aan GANs en VAEs.

De auteurs waarschuwen dat data-augmentatie met synthetische data niet automatisch leidt tot betere modellen; in veel gevallen kan het zelfs de nauwkeurigheid van de coëfficiëntschatters verminderen. De studie benadrukt dat de keuze van de generatiemethode afhankelijk is van het specifieke gebruik: voor "out-of-the-box" toepassingen en het behoud van statistische eigenschappen voor GLM's is MICE de aanbevolen keuze, terwijl diepe modellen mogelijk nuttig kunnen zijn voor specifieke niches (zoals het genereren van hoog-cardinale categorische variabelen), maar dan ten koste van complexiteit en algehele modelstabiliteit.

Synthetic data for ratemaking: imputation-based methods vs adversarial networks and autoencoders

1. De Twee Kampen

2. De Grote Wedstrijd

3. De Uitslag: De Oude Koeien Winnen

4. Een Belangrijke Waarschuwing: Meer is niet altijd Beter

Conclusie voor de Leek

Probleemstelling

Methodologie

Belangrijkste Bijdragen

Resultaten

Betekenis en Conclusie

Meer zoals dit

Equitable Multi-Task Learning for AI-RANs

SPREAD: Subspace Representation Distillation for Lifelong Imitation Learning

The Temporal Markov Transition Field

SoftJAX & SoftTorch: Empowering Automatic Differentiation Libraries with Informative Gradients

Expressivity-Efficiency Tradeoffs for Hybrid Sequence Models