Synthetic data for ratemaking: imputation-based methods vs adversarial networks and autoencoders

Each language version is independently generated for its own context, not a direct translation.

Imaginez que vous êtes un assureur automobile. Votre travail consiste à calculer le prix juste d'une assurance pour chaque conducteur. Pour faire cela avec précision, vous avez besoin de beaucoup de données : l'âge des conducteurs, le modèle de leur voiture, leur historique d'accidents, etc.

Le problème ? Les compagnies d'assurance sont très protectrices de leurs données (c'est confidentiel et stratégique). Elles ne les partagent pas. De plus, si une compagnie lance un nouveau produit, elle n'a pas encore assez de données réelles pour bien le tarifer.

C'est là que l'article de Havrylenko, Käärik et Tuttar intervient. Ils se posent une question simple : « Et si on fabriquait de fausses données qui ressemblent tellement aux vraies qu'elles servent à entraîner nos modèles, sans jamais révéler les secrets des clients ? »

Voici comment ils ont comparé les différentes méthodes pour créer ces « fausses données », expliqué simplement.

1. Les deux camps en présence

Pour fabriquer ces données synthétiques, les chercheurs ont mis en ring deux types de méthodes :

Les « Super-Héros » de l'IA (GANs et Autoencodeurs) :
Imaginez un faussaire d'art (le Générateur) qui essaie de copier un tableau de maître, et un expert en art (le Discriminateur) qui essaie de repérer la copie. Ils s'affrontent des milliers de fois. À force de se battre, le faussaire devient si bon qu'il ne fait plus aucune différence entre l'original et la copie.
- Avantage : Très puissants, capables de recréer des structures complexes.
- Inconvénient : C'est comme un moteur de Formule 1 : ça demande un expert mécanicien, beaucoup de temps de réglage, et ça consomme énormément d'énergie. Si vous ne savez pas bien le conduire, ça ne marche pas.
Les « Mécaniciens de l'imputation » (MICE) :
Imaginez que vous avez un puzzle incomplet. Au lieu de recréer tout le puzzle de zéro, vous regardez les pièces manquantes et vous devinez ce qu'elles devraient être en vous basant sur les pièces voisines. C'est la méthode MICE (Imputation Multiple par Équations Chaînées).
- Avantage : C'est simple, robuste et ça fonctionne « tout de suite » (out-of-the-box). C'est comme une voiture familiale fiable : pas besoin d'être un pilote de course pour conduire.
- Inconvénient : On pourrait penser que c'est trop simple pour des données complexes.

2. Le Grand Test : Qui gagne ?

Les chercheurs ont pris un jeu de données réel (des milliers de polices d'assurance françaises) et ont demandé aux différentes méthodes de fabriquer un jeu de données « faux » mais réaliste. Ensuite, ils ont vérifié deux choses :

La fidélité : Est-ce que les fausses données ressemblent aux vraies ? (Est-ce que la répartition des âges, des marques de voitures est la même ?)
L'utilité : Si on entraîne un modèle de tarification sur ces fausses données, va-t-il donner les mêmes résultats que sur les vraies ?

Le verdict est surprenant :

Les méthodes MICE (les mécaniciens) ont gagné. Elles ont produit des données qui ressemblaient le plus aux vraies et ont permis d'entraîner des modèles de tarification très précis. De plus, elles étaient beaucoup plus faciles à utiliser pour un actuaire moyen.
Les méthodes IA complexes (GANs) ont souvent déçu. Elles ont eu du mal à gérer certaines catégories de données (comme les marques de voitures avec beaucoup de modèles différents) et étaient très difficiles à régler. Parfois, elles produisaient des données qui semblaient bien, mais qui ne permettaient pas de bien prédire les prix.

3. L'astuce de l'augmentation de données

Une idée populaire est de prendre vos vraies données et d'y ajouter un tas de fausses données pour avoir un « super-jeu de données » plus gros.
Les chercheurs ont testé cela. Résultat ? Cela n'a pas vraiment aidé.
Ajouter des données synthétiques à vos vraies données n'a pas amélioré la précision du modèle. En fait, plus vous ajoutez de fausses données, plus le modèle commence à « oublier » la vérité des vraies données et à se tromper un peu plus. C'est comme essayer d'apprendre une langue en écoutant un mélange de locuteurs natifs et de faux locuteurs : au bout d'un moment, vous commencez à parler avec un accent bizarre.

4. La conclusion en images

L'IA complexe (GANs) est comme un chef étoilé qui peut créer un plat incroyable, mais qui demande des ingrédients rares, des heures de préparation et un chef en chef. Si vous ratez une étape, le plat est immangeable.
La méthode MICE est comme un bon vieux four à pain. Ce n'est pas flashy, mais si vous suivez la recette, vous obtenez un pain excellent, à chaque fois, sans stress.

En résumé : Pour les assureurs qui ont besoin de créer des données synthétiques rapidement et simplement pour tester leurs modèles, la méthode « MICE » (basée sur l'imputation) est actuellement la meilleure option. Elle est plus fiable, plus facile à utiliser et donne de meilleurs résultats que les technologies d'IA les plus avancées dans ce contexte précis.

L'article nous rappelle qu'en science des données, parfois, la solution la plus simple et la plus éprouvée est meilleure que la technologie la plus complexe.

Each language version is independently generated for its own context, not a direct translation.

Voici un résumé technique détaillé de l'article « Synthetic data for ratemaking: imputation-based methods vs adversarial networks and autoencoders », rédigé en français.

1. Problématique et Contexte

La tarification actuarielle (ratemaking) repose sur la disponibilité de données de haute qualité. Cependant, l'accès à ces données est souvent limité par des contraintes de confidentialité, de sécurité et de coût, empêchant le partage public de jeux de données réels. De plus, les assureurs peuvent manquer de données lorsqu'ils lancent de nouveaux produits ou entrent sur de nouveaux marchés.

Pour pallier ce manque, la génération de données synthétiques est envisagée comme une solution, soit pour créer des jeux de données publics destinés à la recherche, soit pour augmenter (augmenter) les jeux de données réels afin d'améliorer la généralisation des modèles prédictifs.

L'article se concentre sur un défi spécifique : comparer les méthodes de génération de données tabulaires (mélange de variables numériques et catégorielles) sans hypothèses distributionnelles fortes. L'objectif est d'identifier une méthode « prête à l'emploi » (out-of-the-box) qui préserve fidèlement les distributions marginales, les dépendances multivariées et qui permette d'entraîner des modèles de tarification (GLM) cohérents avec ceux entraînés sur des données réelles.

2. Méthodologie

L'étude comparative utilise le jeu de données public freMTPL2freq (responsabilité civile automobile en France), contenant environ 678 000 observations avec 9 variables explicatives.

Approches Comparées

Les auteurs ont évalué 10 approches de génération de données, regroupées en quatre catégories :

Méthodes basées sur les GAN (Generative Adversarial Networks) :
- CTGAN : Le modèle standard pour les données tabulaires.
- CTGAN avec Autoencodeurs (AE) : Utilisation d'autoencodeurs déterministes pour compresser les variables catégorielles à haute cardinalité avant l'entraînement du CTGAN.
- WGAN-GP (Côte et al.) : Une variante de GAN avec pénalité de gradient.
- Tabulator (Neves et al.) : Une approche basée sur l'imputation par GAIN (GAN d'imputation).
Méthodes basées sur l'Imputation (MICE) :
- Basées sur le MICE (Multivariate Imputation by Chained Equations) utilisant des Forêts Aléatoires (RF) comme modèles d'imputation.
- MICE Partiellement Synthétique : 75 % des cellules sont mises à « manquant » et imputées, laissant 25 % des données originales.
- MICE Fully Synthetic : Toutes les données sont mises à « manquant » et imputées itérativement.
- MICE Tabulator : Adaptation de l'approche Tabulator avec MICE-RF au lieu des GAIN.
- MICE VV (Volker & Vink) : Approche par colonnes séquentielles.
Méthodes Hybrides :
- Combinaison de CTGAN pour la génération initiale suivie d'une étape d'imputation MICE sur les variables numériques.
- Combinaison de CTGAN + AE (pour le catégoriel) + MICE (pour le numérique).
Méthode VAE (Variational Autoencoder) :
- Approche proposée par Jamotton et Hainaut (2024).

Protocole d'Évaluation

Pour évaluer la qualité des données générées, les auteurs ont simulé des comptes de sinistres (réponse) selon deux formules de vérité terrain :

Une relation linéaire pure.
Une relation linéaire avec interactions entre covariables.

Les métriques d'évaluation comprenaient :

Fidélité des données : MAE/MAPE des distributions marginales (numériques et catégorielles) et des paires de variables. Préservation des corrélations.
Utilité du modèle (GLM) : Comparaison des coefficients estimés ( $\hat{\beta}$ ) sur les données synthétiques vs les coefficients réels ( $\beta^*$ ) via les métriques $M_1$ et $M_2$ .
Performance prédictive : Déviance de Poisson et RMSE sur un jeu de test.
Facilité d'utilisation : Évaluation subjective de la complexité de mise en œuvre (prétraitement, configuration, déploiement).
Augmentation de données : Impact de l'ajout de données synthétiques aux données réelles sur la performance du GLM.

3. Contributions Clés

Benchmarking des méthodes d'imputation (MICE) : L'article introduit et évalue rigoureusement l'utilisation du MICE avec des Forêts Aléatoires pour la génération de données actuarielles, une approche souvent négligée au profit des modèles génératifs profonds.
Analyse de l'augmentation de données : Étude systématique de l'impact de l'ajout de données synthétiques aux données réelles sur la précision des coefficients de tarification.
Évaluation de la facilité d'utilisation : Mise en avant de l'aspect pratique (« out-of-the-box ») des méthodes, un critère souvent ignoré dans la littérature académique mais crucial pour les actuaires en entreprise.
Comparaison complète : Benchmark de 10 méthodes sur un jeu de données standardisé (freMTPL2freq) avec des formules de vérité terrain connues.

4. Résultats Principaux

Qualité des Données et Performance des Modèles

Supériorité du MICE-RF : Les méthodes basées sur MICE (notamment MICE Partiellement Synthétique et MICE Fully Synthetic) se sont révélées les plus performantes. Elles préservent mieux les distributions marginales, les structures de dépendance multivariées et produisent des coefficients GLM les plus proches de la vérité terrain.
Limites des GAN/VAE : Les modèles génératifs profonds (CTGAN, WGAN, VAE) ont montré des performances inférieures, en particulier pour la préservation des coefficients du GLM et la gestion des variables catégorielles à haute cardinalité.
Impact des Autoencodeurs (AE) : L'ajout d'autoencodeurs pour prétraiter les variables catégorielles avant le CTGAN a amélioré la génération de ces colonnes spécifiques, mais a dégradé les performances globales sur d'autres métriques (notamment les variables numériques).
Augmentation de données : L'ajout générique de données synthétiques aux données réelles n'a pas amélioré la performance prédictive des GLM. Au contraire, augmenter la proportion de données synthétiques tend à dégrader la précision des coefficients estimés (augmentation de la métrique $M_1$ ), sauf dans un cas très spécifique et marginal.

Facilité d'Utilisation

MICE (R-package mice) : Considéré comme la méthode la plus accessible, nécessitant peu de prétraitement et de configuration.
Générateurs Profonds (CTGAN, WGAN) : Nécessitent un prétraitement complexe (encodage, normalisation), un réglage fin des hyperparamètres et des environnements de calcul spécifiques (souvent Python), les rendant moins pratiques pour un usage quotidien en assurance.

5. Signification et Conclusion

Cet article démontre que les méthodes d'imputation basées sur le MICE, couplées à des modèles non paramétriques comme les Forêts Aléatoires, constituent une alternative robuste, efficace et plus simple à mettre en œuvre que les réseaux antagonistes génératifs (GAN) ou les autoencodeurs variationnels (VAE) pour la génération de données actuarielles.

Points clés à retenir :

Le MICE-RF offre un excellent compromis entre fidélité statistique et simplicité opérationnelle.
L'hypothèse selon laquelle l'augmentation de données synthétiques améliore automatiquement les modèles de tarification est réfutée dans ce contexte ; l'utilisation de données synthétiques pures ou en mélange peut introduire du biais dans l'estimation des coefficients.
Pour les actuaires cherchant une solution « prête à l'emploi » pour partager des données ou tester des méthodologies, les approches d'imputation sont recommandées par rapport aux modèles génératifs complexes qui nécessitent une expertise technique poussée.

L'étude ouvre la voie à de futures recherches sur l'intégration de contraintes métier (ex: âges minimums) dans le cadre MICE et sur l'évaluation des risques de ré-identification (disclosure risk) spécifiques à chaque générateur.