Synthetic data for ratemaking: imputation-based methods vs adversarial networks and autoencoders

Cette étude démontre que les méthodes d'imputation par équations chaînées (MICE) constituent une alternative efficace et plus simple à mettre en œuvre que les réseaux antagonistes génératifs et les autoencodeurs pour la génération de données synthétiques en tarification actuarielle, tout en préservant fidèlement les distributions et les relations multivariées nécessaires à l'entraînement de modèles GLM.

Yevhen Havrylenko, Meelis Käärik, Artur Tuttar

Publié Tue, 10 Ma
📖 5 min de lecture🧠 Analyse approfondie

Each language version is independently generated for its own context, not a direct translation.

Imaginez que vous êtes un assureur automobile. Votre travail consiste à calculer le prix juste d'une assurance pour chaque conducteur. Pour faire cela avec précision, vous avez besoin de beaucoup de données : l'âge des conducteurs, le modèle de leur voiture, leur historique d'accidents, etc.

Le problème ? Les compagnies d'assurance sont très protectrices de leurs données (c'est confidentiel et stratégique). Elles ne les partagent pas. De plus, si une compagnie lance un nouveau produit, elle n'a pas encore assez de données réelles pour bien le tarifer.

C'est là que l'article de Havrylenko, Käärik et Tuttar intervient. Ils se posent une question simple : « Et si on fabriquait de fausses données qui ressemblent tellement aux vraies qu'elles servent à entraîner nos modèles, sans jamais révéler les secrets des clients ? »

Voici comment ils ont comparé les différentes méthodes pour créer ces « fausses données », expliqué simplement.

1. Les deux camps en présence

Pour fabriquer ces données synthétiques, les chercheurs ont mis en ring deux types de méthodes :

  • Les « Super-Héros » de l'IA (GANs et Autoencodeurs) :
    Imaginez un faussaire d'art (le Générateur) qui essaie de copier un tableau de maître, et un expert en art (le Discriminateur) qui essaie de repérer la copie. Ils s'affrontent des milliers de fois. À force de se battre, le faussaire devient si bon qu'il ne fait plus aucune différence entre l'original et la copie.

    • Avantage : Très puissants, capables de recréer des structures complexes.
    • Inconvénient : C'est comme un moteur de Formule 1 : ça demande un expert mécanicien, beaucoup de temps de réglage, et ça consomme énormément d'énergie. Si vous ne savez pas bien le conduire, ça ne marche pas.
  • Les « Mécaniciens de l'imputation » (MICE) :
    Imaginez que vous avez un puzzle incomplet. Au lieu de recréer tout le puzzle de zéro, vous regardez les pièces manquantes et vous devinez ce qu'elles devraient être en vous basant sur les pièces voisines. C'est la méthode MICE (Imputation Multiple par Équations Chaînées).

    • Avantage : C'est simple, robuste et ça fonctionne « tout de suite » (out-of-the-box). C'est comme une voiture familiale fiable : pas besoin d'être un pilote de course pour conduire.
    • Inconvénient : On pourrait penser que c'est trop simple pour des données complexes.

2. Le Grand Test : Qui gagne ?

Les chercheurs ont pris un jeu de données réel (des milliers de polices d'assurance françaises) et ont demandé aux différentes méthodes de fabriquer un jeu de données « faux » mais réaliste. Ensuite, ils ont vérifié deux choses :

  1. La fidélité : Est-ce que les fausses données ressemblent aux vraies ? (Est-ce que la répartition des âges, des marques de voitures est la même ?)
  2. L'utilité : Si on entraîne un modèle de tarification sur ces fausses données, va-t-il donner les mêmes résultats que sur les vraies ?

Le verdict est surprenant :

  • Les méthodes MICE (les mécaniciens) ont gagné. Elles ont produit des données qui ressemblaient le plus aux vraies et ont permis d'entraîner des modèles de tarification très précis. De plus, elles étaient beaucoup plus faciles à utiliser pour un actuaire moyen.
  • Les méthodes IA complexes (GANs) ont souvent déçu. Elles ont eu du mal à gérer certaines catégories de données (comme les marques de voitures avec beaucoup de modèles différents) et étaient très difficiles à régler. Parfois, elles produisaient des données qui semblaient bien, mais qui ne permettaient pas de bien prédire les prix.

3. L'astuce de l'augmentation de données

Une idée populaire est de prendre vos vraies données et d'y ajouter un tas de fausses données pour avoir un « super-jeu de données » plus gros.
Les chercheurs ont testé cela. Résultat ? Cela n'a pas vraiment aidé.
Ajouter des données synthétiques à vos vraies données n'a pas amélioré la précision du modèle. En fait, plus vous ajoutez de fausses données, plus le modèle commence à « oublier » la vérité des vraies données et à se tromper un peu plus. C'est comme essayer d'apprendre une langue en écoutant un mélange de locuteurs natifs et de faux locuteurs : au bout d'un moment, vous commencez à parler avec un accent bizarre.

4. La conclusion en images

  • L'IA complexe (GANs) est comme un chef étoilé qui peut créer un plat incroyable, mais qui demande des ingrédients rares, des heures de préparation et un chef en chef. Si vous ratez une étape, le plat est immangeable.
  • La méthode MICE est comme un bon vieux four à pain. Ce n'est pas flashy, mais si vous suivez la recette, vous obtenez un pain excellent, à chaque fois, sans stress.

En résumé : Pour les assureurs qui ont besoin de créer des données synthétiques rapidement et simplement pour tester leurs modèles, la méthode « MICE » (basée sur l'imputation) est actuellement la meilleure option. Elle est plus fiable, plus facile à utiliser et donne de meilleurs résultats que les technologies d'IA les plus avancées dans ce contexte précis.

L'article nous rappelle qu'en science des données, parfois, la solution la plus simple et la plus éprouvée est meilleure que la technologie la plus complexe.