Synthetic data for ratemaking: imputation-based methods vs adversarial networks and autoencoders

Each language version is independently generated for its own context, not a direct translation.

🎭 Das große Problem: Versicherte Daten sind wie ein strenges Geheimnis

Stell dir vor, du bist ein Versicherungsmathematiker (ein Aktuar). Deine Aufgabe ist es, Preise für Versicherungen zu berechnen. Dazu brauchst du riesige Mengen an echten Daten: Wer hat wann einen Unfall gehabt? Wie alt ist der Fahrer? Welche Marke fährt er?

Das Problem: Diese Daten sind hochsensibel. Versicherungen können sie nicht einfach ins Internet stellen, weil es die Privatsphäre der Kunden verletzen würde. Es ist, als ob eine Bank ihre Kontobücher offenlegen müsste – unmöglich!

Aber Forscher brauchen diese Daten, um neue, bessere Modelle zu testen. Und manchmal haben Versicherungen selbst zu wenig Daten, wenn sie ein neues Produkt auf den Markt bringen.

Die Lösung? Man erfindet synthetische Daten. Das sind künstlich erzeugte Datensätze, die wie echte Daten aussehen und sich auch so verhalten, aber keine echten Personen enthalten. Es ist wie ein Schauspieler, der eine Rolle spielt: Er sieht aus wie der echte Charakter, hat aber kein eigenes Leben.

🥊 Der Wettkampf: Die alten Methoden gegen die neuen KI-Riesen

In diesem Papier stellen sich die Autoren eine spannende Frage: Welche Methode ist am besten, um diese "Schauspieler-Daten" zu erzeugen?

Sie vergleichen zwei Lager:

Die "Deep Learning"-Riesen (GANs und Autoencoder):
- Das sind hochmoderne neuronale Netze, die wie geniale, aber komplizierte Künstler sind. Sie lernen aus den echten Daten, wie die Welt funktioniert, und malen dann neue Bilder.
- Vorteil: Sehr mächtig.
- Nachteil: Sie sind schwer zu bedienen, brauchen viel Rechenleistung und sind wie ein teures Rennauto, das man ständig in der Werkstatt haben muss.
Die "Imputations"-Methode (MICE):
- Das klingt kompliziert, ist aber eigentlich ein cleveres "Raten-Spiel". Stell dir vor, du hast ein Puzzle, bei dem einige Teile fehlen. Du schaust dir die vorhandenen Teile an und rätst, was an den fehlenden Stellen stehen könnte, basierend auf den Mustern der anderen Teile.
- Die Methode MICE (Multivariate Imputation by Chained Equations) macht genau das: Sie nimmt echte Daten, löscht vorsichtig einige Teile aus (macht sie "fehlend") und füllt sie dann mit intelligenten Schätzungen wieder auf.
- Vorteil: Einfach zu bedienen, robust und wie ein solides Schweizer Taschenmesser.
- Nachteil: Man dachte lange, es sei nicht so kreativ wie die KI-Riesen.

🔍 Was haben die Forscher herausgefunden?

Die Autoren haben beide Methoden auf einem echten Datensatz (Autoversicherungen in Frankreich) getestet. Hier sind die Ergebnisse in einfachen Worten:

1. Der Überraschungssieger: MICE
Die "einfache" Raten-Methode (MICE) hat überraschend gut abgeschnitten! Sie hat Daten erzeugt, die den echten Daten in fast allen Belangen sehr ähnlich sind.

Warum ist das wichtig? Weil sie viel einfacher zu benutzen ist. Ein normaler Aktuar kann sie sofort nutzen, ohne jahrelang Programmierkenntnisse zu haben. Sie ist der "Alltagsheld" unter den Methoden.

2. Die KI-Riesen (GANs) haben ihre Schwächen
Die komplexen neuronalen Netze waren nicht immer besser. Manchmal haben sie die Daten sogar etwas "verfälscht".

Ein interessanter Fund: Wenn man die KI-Riesen mit einem kleinen Trick (Autoencoder) kombiniert, um sie bei schwierigen Kategorien (z. B. viele verschiedene Autotypen) zu helfen, wurde das Ergebnis bei diesen Kategorien besser. Aber dafür wurde die Methode insgesamt wieder komplizierter und manchmal sogar schlechter bei anderen Dingen.

3. Der "Vergrößerungseffekt" funktioniert nicht
Ein großes Versprechen der synthetischen Daten war: "Wenn wir echte Daten mit künstlichen mischen, werden unsere Modelle noch besser!"

Die Enttäuschung: Das hat in diesem Test nicht funktioniert. Wenn man echte Daten mit synthetischen mischt, wurde das Modell nicht besser. Es war eher so, als würde man eine gute Suppe mit Wasser verdünnen – der Geschmack (die Genauigkeit) wurde nicht besser, manchmal sogar schlechter.

🏁 Das Fazit für den Alltag

Stell dir vor, du willst ein neues Rezept für eine Suppe entwickeln.

Die KI-Methoden sind wie ein Roboter-Koch, der tausende Rezepte analysiert und neue kreiert. Er ist beeindruckend, aber er braucht viel Strom, ist schwer zu programmieren und macht manchmal seltsame Dinge.
Die MICE-Methode ist wie ein erfahrener Koch, der einfach schmeckt, was fehlt, und die Zutaten ergänzt.

Die Botschaft des Papers:
Du musst nicht immer den teuersten, kompliziertesten Roboter-Koch kaufen. Oft reicht der erfahrene Koch (MICE) aus, um hervorragende Ergebnisse zu liefern. Er ist schneller, einfacher zu bedienen und liefert Daten, die für die meisten Zwecke in der Versicherungsbranche perfekt funktionieren.

Zusammengefasst:

Synthetische Daten sind super, um Forschung zu betreiben, ohne echte Daten preiszugeben.
MICE ist der neue Held: Einfach, effektiv und oft besser als die teuren KI-Modelle.
Daten mischen (Echt + Künstlich) macht Modelle nicht automatisch besser.

Es ist also nicht immer "je neuer und komplexer, desto besser". Manchmal ist das bewährte Werkzeug das beste.

Each language version is independently generated for its own context, not a direct translation.

Hier ist eine detaillierte technische Zusammenfassung des vorliegenden Papers auf Deutsch:

Titel: Synthetic data for ratemaking: imputation-based methods vs adversarial networks and autoencoders

Autoren: Yevhen Havrylenko, Meelis Kärrik, Artur Tuttar

1. Problemstellung und Motivation

Die actuarielle Tarifierung (Ratemaking) ist stark von hochwertigen Daten abhängig. Der Zugang zu solchen Daten wird jedoch oft durch hohe Kosten für die Beschaffung neuer Daten, Datenschutzbedenken und den Schutz des Wettbewerbsvorteils von Versicherungsunternehmen eingeschränkt.

Herausforderung: Es gibt nur wenige öffentlich zugängliche actuarielle Datensätze. Zudem benötigen Forscher realistische Daten, um neue Methoden zu testen.
Lösungsansatz: Die Generierung synthetischer Daten, die entweder als eigenständiger Datensatz für die Forschung oder zur Erweiterung (Augmentierung) bestehender Datensätze dienen können.
Fokus: Der Artikel konzentriert sich auf tabellarische Daten (numerisch und kategorisch) ohne starke Verteilungsannahmen, um eine "Out-of-the-Box"-Lösung für die allgemeine Tarifierung zu entwickeln.

Bisherige Studien im actuariellen Bereich (z. B. Kuo, 2020; Côté et al., 2025; Jamotton & Hainaut, 2024) haben sich fast ausschließlich auf tiefe generative Modelle wie Generative Adversarial Networks (GANs) und Variational Autoencoders (VAEs) konzentriert. Diese Methoden erfordern jedoch oft eine erhebliche Anpassung pro Datensatz und sind in der täglichen Praxis schwer zu implementieren.

2. Methodik

Die Autoren vergleichen verschiedene Ansätze zur Generierung synthetischer Daten, wobei sie einen neuen Fokus auf imputationsbasierte Methoden legen.

A. Getestete Methoden

Die Studie evaluiert 10 verschiedene Ansätze, gruppiert in:

GAN-basierte Modelle:
- CTGAN (Conditional Tabular GAN).
- CTGAN mit Autoencodern (AEs) zur Vorverarbeitung kategorischer Variablen.
- Wasserstein GAN mit Gradient Penalty (MC-WGAN-GP).
- Tabulator (basierend auf GAINs).
Imputationsbasierte Modelle (MICE):
- MICE (Multivariate Imputation by Chained Equations): Ein Framework, das fehlende Daten iterativ durch bedingte Verteilungen schätzt. Hier wird Random Forest (RF) als Imputationsmodell verwendet.
- MICE-Strategien:
  - Partially Synthetic: Ein Teil der Originaldaten wird als "fehlend" markiert und durch MICE-RF ersetzt.
  - Fully Synthetic: Alle Originaldaten werden schrittweise durch synthetische Werte ersetzt.
  - Tabulator-Variante: MICE wird in einem Tabulator-Rahmenwerk (ähnlich wie bei Neves et al., 2022) mit mehreren Iterationen eingesetzt.
  - Volker-Vink (VV): Spaltenweise Imputation ohne zufälliges Entfernen von Werten vor dem Training.
Hybrid-Modelle: Kombinationen aus CTGAN und MICE (z. B. CTGAN für die Generierung, gefolgt von MICE zur Korrektur numerischer Variablen).
VAE-basierte Modelle: Der Ansatz von Jamotton und Hainaut (2024).

B. Datengrundlage und Experimentdesign

Datensatz: freMTPL2freq (Französisches Kfz-Haftpflichtversichungs-Dataset mit ~678.000 Beobachtungen, 9 Kovariablen).
Ground Truth: Um die Qualität der Generierung objektiv zu messen, wurden die ursprünglichen Schadenanzahlen durch simulierte Werte ersetzt. Diese basierten auf bekannten linearen und interaktiven Formeln (Poisson-GLM), sodass die "wahren" Parameter ( $\beta^*$ ) bekannt waren.
Evaluationsmetriken:
- Datensatz-Metriken: Ähnlichkeit der marginalen Verteilungen (MAE/MAPE für numerische/kategorische Variablen), Erhaltung der bivariaten Beziehungen und Korrelationsstrukturen.
- Modell-Metriken: Konsistenz der geschätzten GLM-Koeffizienten ( $\hat{\beta}$ ) im Vergleich zu den wahren Werten (M1, M2 Metriken), Poisson-Abweichung (Deviance) und RMSE auf Testdaten.
- Praktikabilität: Subjektive Bewertung der Benutzerfreundlichkeit (Implementierungsaufwand, Preprocessing).

3. Wichtige Beiträge

Benchmarking von MICE: Der Artikel führt MICE-basierte Methoden (mit Random Forests) erstmals umfassend als Alternative zu tiefen generativen Modellen im Kontext der actuariellen Tarifierung ein.
Vergleich von 10 Ansätzen: Eine umfassende Gegenüberstellung bestehender Deep-Learning-Methoden, hybrider Ansätze und der neu eingeführten MICE-Varianten.
Analyse der Daten-Augmentierung: Untersuchung, ob das Mischen von Original- und synthetischen Daten die Vorhersageleistung von GLMs verbessert.
Praktische Bewertung: Betonung der "Ease of Use" als entscheidender Faktor für die Adoption in der Versicherungspraxis.

4. Ergebnisse

A. Qualität der synthetischen Daten

MICE-RF übertrifft Deep Learning: Die MICE-basierten Methoden (insbesondere MICE Partially Synthetic und MICE Fully Synthetic) erzielten in den meisten Metriken die besten Ergebnisse. Sie bewahrten sowohl die marginalen Verteilungen als auch die multivariaten Beziehungen (Korrelationen) besser als GANs und VAEs.
GLM-Konsistenz: Modelle, die auf MICE-Daten trainiert wurden, lieferten Koeffizienten, die den auf Originaldaten trainierten Modellen am nächsten kamen. GAN-basierte Modelle zeigten oft Instabilitäten in den Koeffizienten.
Kategorische Variablen: Hier zeigten CTGANs mit Autoencodern (AEs) eine Verbesserung gegenüber reinen CTGANs, erreichten aber dennoch nicht die Genauigkeit von MICE bei der Erhaltung der Verteilungen.
Numerische Variablen: MICE generierte numerische Werte genauer, während GANs Probleme mit der Varianz (insbesondere bei Dichteverteilungen) hatten.

B. Daten-Augmentierung

Keine signifikante Verbesserung: Das Hinzufügen synthetischer Daten zu den Originaldaten (Augmentierung) führte nicht zu einer Verbesserung der Vorhersageleistung oder der Genauigkeit der Koeffizienten der GLMs.
Trend: Mit zunehmendem Anteil synthetischer Daten verschlechterten sich die Metriken (M1) tendenziell linear, da die synthetischen Daten die "wahre" Struktur der Originaldaten verwässerten. Es gab nur einen einzigen Ausnahmefall, bei dem eine leichte Verbesserung beobachtet wurde.

C. Benutzerfreundlichkeit und Implementierung

MICE: Wird als die benutzerfreundlichste Methode eingestuft. Sie ist in R-Paketen (z. B. mice) gut implementiert, erfordert wenig Vorverarbeitung und kein tiefes Verständnis von Hyperparametern.
Deep Learning (GANs/VAEs): Erfordern erheblichen Aufwand bei der Implementierung, Preprocessing (z. B. One-Hot-Encoding, Normalisierung), Feinabstimmung und oft spezielle Hardware-Umgebungen. Custom-Implementierungen (wie MC-WGAN-GP) waren besonders aufwendig.

5. Bedeutung und Fazit

Die Studie zeigt, dass imputationsbasierte Methoden (MICE mit Random Forests) eine hochwirksame, oft überlegene und deutlich einfachere Alternative zu komplexen Deep-Learning-Modellen für die Generierung synthetischer actuarieller Daten sind.

Für die Praxis: MICE ist die bevorzugte Methode für Actuare, die eine "Out-of-the-Box"-Lösung benötigen, die robust, interpretierbar und leicht zu implementieren ist.
Für die Forschung: Deep generative Modelle sind nicht automatisch überlegen; ihre Vorteile zeigen sich oft nur in spezifischen Nischen, während sie in der allgemeinen Tarifierung oft komplexer und weniger präzise sind.
Augmentierung: Die generische Erweiterung von Datensätzen durch synthetische Daten verbessert die Modellleistung in diesem Kontext nicht automatisch und sollte mit Vorsicht angewendet werden.

Die Autoren empfehlen, MICE als Standardansatz für die Generierung tabellarischer actuarieller Daten zu betrachten und zukünftige Forschung auf die Integration von Geschäftsregeln (Constraints) und die Analyse von Offenlegungsrisiken (Disclosure Risk) zu lenken.