Transfer Learning for Loan Recovery Prediction under Distribution Shifts with Heterogeneous Feature Spaces

Each language version is independently generated for its own context, not a direct translation.

🏦 Le Dilemme de la Banque : "Comment prédire l'avenir quand on a peu de données ?"

Imaginez que vous êtes un gestionnaire de risques dans une banque. Votre travail consiste à prédire combien d'argent vous pourrez récupérer si un client fait défaut (ne rembourse pas son prêt). C'est ce qu'on appelle le taux de recouvrement.

Le problème, c'est que les défauts de paiement sont rares. C'est comme essayer de prédire la météo d'une tempête de neige dans le désert : vous avez très peu d'exemples réels pour apprendre. De plus, chaque banque a ses propres dossiers : l'une a des prêts pour des bateaux, l'autre pour des immeubles. Les informations disponibles (les "caractéristiques") sont souvent différentes.

La question centrale : Comment utiliser l'expérience d'une grande banque (qui a beaucoup de données) pour aider une petite banque spécialisée (qui en a très peu), même si leurs dossiers ne parlent pas exactement le même langage ?

🚀 La Solution : Un "Super-Cerveau" Adaptatif (FT–MDN–Transformer)

Les auteurs de ce papier ont créé un nouveau modèle d'intelligence artificielle, qu'ils appellent FT–MDN–Transformer. Pour le comprendre, utilisons une analogie culinaire.

1. Le Chef Cuisinier et ses Recettes (Le Modèle)

Imaginez un chef cuisinier très talentueux (le modèle) qui a passé des années à apprendre à cuisiner dans une grande école de cuisine (la Source, avec beaucoup de données). Il connaît parfaitement les saveurs, les textures et comment les ingrédients interagissent.

Maintenant, ce chef doit travailler dans un petit restaurant local (la Cible, avec peu de données).

Le problème : Le petit restaurant n'a pas les mêmes ingrédients que l'école. Il manque certains épices, et il en a d'autres que l'école n'utilise jamais.
L'ancienne méthode : Les anciens chefs (les modèles classiques) s'arrêtaient net. S'ils ne trouvaient pas un ingrédient précis, ils ne pouvaient plus cuisiner. Ou alors, ils devaient tout réapprendre depuis zéro, ce qui prenait trop de temps et de données.
La nouvelle méthode (FT–MDN–Transformer) : Ce chef est un génie de l'adaptation.
- Il utilise des "masques" : Si un ingrédient manque, il le cache simplement et continue de cuisiner avec ce qu'il a.
- Il est capable d'apprendre de nouveaux ingrédients très vite (le Fine-tuning).
- Il ne se contente pas de donner une seule recette (un chiffre unique). Il imagine toutes les possibilités : "Il y a 50% de chances que le plat soit excellent, et 50% qu'il soit moyen". C'est ce qu'on appelle une prédiction de distribution.

2. L'Analogie du "Brouillard" (Les Déplacements de Distribution)

Parfois, le restaurant local a une cuisine très différente de l'école.

Déplacement de covariables (Covariate Shift) : Les ingrédients sont les mêmes, mais ils sont de meilleure qualité ou plus frais. Le chef s'adapte facilement.
Déplacement conditionnel (Conditional Shift) : La façon de cuisiner a changé. Un ingrédient qui était doux dans l'école est piquant ici. Le chef doit ajuster ses gestes, mais il y arrive bien.
Déplacement d'étiquette (Label Shift) : C'est le vrai défi. Imaginez que dans le petit restaurant, les clients aiment tout à fait le contraire de ce qu'ils aimaient à l'école. Même le meilleur chef du monde aura du mal à prédire les goûts s'il n'a pas assez d'avis locaux pour se corriger. C'est le point faible du modèle : si la nature même des défauts change radicalement, l'expérience passée aide moins.

🧪 Les Expériences : Cuisine en Laboratoire et en Vrai

Les chercheurs ont testé leur chef de deux manières :

En vrai (Données réelles) : Ils ont pris des données de prêts d'une grande banque internationale (GCD) et ont essayé de les appliquer à un portefeuille d'obligations d'une petite équipe (UP5).
- Résultat : Le chef a réussi à utiliser son expérience pour améliorer les prédictions, même avec très peu de données locales. Il a même réussi à gérer le fait que les deux banques n'utilisaient pas les mêmes colonnes de données (certains champs étaient vides ou différents).
En laboratoire (Simulation) : Ils ont créé des milliers de scénarios fictifs pour tester le chef dans des conditions extrêmes (tempêtes, ingrédients manquants, goûts changeants).
- Résultat : Le chef est très robuste. Il ne panique pas quand il manque des ingrédients. Il est excellent tant que le "goût" général des clients ne change pas trop radicalement.

💡 Les Leçons à Retenir (Pourquoi c'est important ?)

Ne regardez pas seulement la moyenne : Les anciens modèles donnaient un seul chiffre (ex: "On récupérera 60%"). Le nouveau modèle donne une carte des risques. Il dit : "Il y a un risque que ce soit 10%, mais aussi un risque que ce soit 90%". C'est crucial pour les banques qui doivent se préparer aux pires scénarios (les queues de distribution).
L'adaptation est la clé : On n'a plus besoin que les données soient parfaitement identiques d'une banque à l'autre. On peut transférer le savoir même si les dossiers sont différents, grâce à cette architecture flexible.
Le piège du changement de nature : Si la nature des défauts change complètement (par exemple, passer de prêts immobiliers sûrs à des prêts très risqués), l'expérience passée a ses limites. Il faut surveiller cela de près.

🎯 En Résumé

Ce papier nous dit que l'intelligence artificielle peut aider les banques à mieux gérer les risques, même quand elles ont peu de données, à condition d'utiliser un modèle capable de s'adapter aux différences de dossiers et de prédire non pas un seul chiffre, mais toute une gamme de scénarios possibles. C'est comme passer d'un GPS qui vous dit juste "tournez à droite" à un copilote qui vous dit "tournez à droite, mais attention, il y a 30% de chances qu'il y ait un accident, donc gardez une vitesse prudente".

Each language version is independently generated for its own context, not a direct translation.

1. Problématique et Contexte

La prédiction précise des taux de recouvrement (Recovery Rates - RR), définis comme la fraction d'un prêt récupérée après défaut (RR = 1 - LGD), est cruciale pour la gestion des risques de crédit, la provisionnement et la détermination du capital réglementaire. Cependant, deux défis majeurs entravent cette modélisation :

Pénurie de données : Les défauts sont des événements rares, ce qui rend les données de recouvrement limitées, en particulier pour les portefeuilles spécialisés ou de niche.
Hétérogénéité des espaces de caractéristiques (Features) : Les portefeuilles de prêts diffèrent souvent non seulement par la distribution des données (décalage de distribution), mais aussi par les variables disponibles. Un portefeuille peut contenir des détails sur les garanties ou des classifications internes absents dans un autre, créant des espaces de caractéristiques hétérogènes avec un chevauchement partiel.

Les approches d'apprentissage par transfert (Transfer Learning - TL) classiques supposent souvent des schémas de caractéristiques identiques entre le domaine source (riche en données) et le domaine cible (pauvre en données). De plus, la plupart des modèles se concentrent sur des estimations ponctuelles (moyenne), ce qui masque la nature multimodale et la complexité de la distribution des taux de recouvrement (souvent bimodale).

2. Méthodologie : FT–MDN–Transformer

Pour répondre à ces défis, les auteurs proposent FT–MDN–Transformer, une architecture de type Transformer conçue spécifiquement pour les données tabulaires, intégrant un réseau de densité de mélange (Mixture Density Network - MDN).

Architecture Principale

Tokenisation par caractéristique (Feature-wise Tokenization) : Contrairement aux modèles traditionnels qui concatènent les caractéristiques, chaque variable (numérique ou catégorielle) est mappée à un token individuel dans une séquence de longueur fixe. Cela permet au modèle de gérer dynamiquement l'absence de certaines variables.
Masquage et Adaptation de Schéma :
- Les caractéristiques partagées entre les domaines source et cible utilisent les mêmes embeddings pré-entraînés.
- Les caractéristiques absentes dans le domaine cible sont représentées par des tokens de remplissage (PAD) masqués dans le mécanisme d'attention, empêchant le modèle de s'appuyer sur des données inexistantes.
- Les nouvelles caractéristiques spécifiques au domaine cible sont initialisées et entraînées lors du fine-tuning.
Tête MDN (Mixture Density Network) : Au lieu de prédire une seule valeur, la tête de sortie modélise la distribution conditionnelle complète $P(R|X)$ comme un mélange de $K$ distributions gaussiennes :
$\hat{p}(R | X) = \sum_{k=1}^{K} \alpha_k \mathcal{N}(R | \mu_k, \sigma^2_k)$
Cela permet de capturer la multimodalité (ex: recouvrements proches de 0 ou de 1) et l'hétéroscédasticité.

Protocole d'Entraînement (Transfer Learning)

L'approche suit un schéma en deux étapes :

Pré-entraînement : Le modèle est entraîné sur le domaine source (riche en données) soit sur l'ensemble des caractéristiques source, soit uniquement sur les caractéristiques partagées.
Fine-tuning : Le modèle est adapté au domaine cible (peu de données). Les embeddings partagés sont gelés initialement, puis tous les paramètres sont dégelés pour une optimisation conjointe, permettant d'intégrer les nouvelles caractéristiques cibles sans oublier les connaissances acquises.

3. Contributions Clés

Architecture Innovante : Introduction du FT–MDN–Transformer, capable de réaliser un transfert d'apprentissage robuste à travers des espaces de caractéristiques hétérogènes (schémas non identiques) tout en produisant des prévisions de distributions complètes.
Évaluation Empirique Rigoureuse : Utilisation de deux jeux de données réels liés (GCD pour les prêts comme source, UP5 pour les obligations comme cible) présentant un faible chevauchement de caractéristiques (37 sur 147/256) et des distributions de recouvrement très différentes.
Cadre de Simulation Contrôlée : Développement d'un cadre de simulation Monte Carlo permettant de générer des données synthétiques réalistes avec des décalages de distribution contrôlés (décalage de covariables, conditionnel et d'étiquettes) pour isoler les effets de chaque type de shift.

4. Résultats Principaux

Sur Données Réelles (GCD $\to$ UP5)

Supériorité du TL : Le FT–MDN–Transformer surpasse les modèles entraînés uniquement sur les données cibles (Target-Baseline) lorsque les données cibles sont limitées.
Impact du Schéma : La stratégie de pré-entraînement sur les caractéristiques partagées uniquement, suivie d'une expansion vers le schéma complet cible, s'est révélée plus efficace que le pré-entraînement sur l'ensemble des caractéristiques source (qui peuvent être absentes dans la cible).
Modélisation Distributionnelle : Le modèle capture avec précision la bimodalité des taux de recouvrement, offrant une information bien supérieure aux métriques ponctuelles (comme la moyenne) pour la gestion des risques de queue.

Sur Données Simulées (Robustesse aux Décalages)

Robustesse aux Décalages de Covariables et Conditionnels : Le modèle maintient une performance élevée même lorsque les distributions des caractéristiques ou les relations caractéristiques-étiquettes changent.
Sensibilité au Décalage d'Étiquette (Label Shift) : La performance se dégrade significativement lorsque la distribution marginale des taux de recouvrement (la proportion de défauts avec recouvrement élevé vs faible) change radicalement entre source et cible. C'est le défi le plus difficile pour le transfert.
Efficacité Échantillonnaire : Le transfert d'apprentissage apporte le plus grand bénéfice lorsque le nombre d'observations cibles est très faible (ex: $N < 500$ ). À mesure que la taille de l'échantillon cible augmente, les modèles entraînés uniquement sur la cible rattrapent progressivement les modèles de transfert.
Comparaison avec les Baselines : Les modèles basés sur des arbres (XGBoost) et des MLP échouent souvent face à l'hétérogénéité des schémas (quand des caractéristiques disparaissent ou apparaissent), tandis que le FT–MDN–Transformer reste stable.

5. Signification et Implications

Pour la Gestion des Risques : L'approche permet de modéliser l'incertitude et les risques de queue (tail risk) de manière plus fidèle, ce qui est essentiel pour le stress testing et le calcul du capital réglementaire.
Pour la Pratique Bancaire : L'étude démontre qu'il est possible d'exploiter des données de portefeuilles historiques riches pour améliorer la modélisation de portefeuilles de niche ou de nouveaux produits, même si les données disponibles ne sont pas parfaitement alignées.
Limites et Avenir : La principale limite identifiée est la sensibilité au décalage d'étiquette (changement de la distribution des taux de recouvrement eux-mêmes). Les auteurs suggèrent que pour des transferts réussis, les distributions marginales des cibles doivent rester alignées, ou des mécanismes de correction de décalage d'étiquette doivent être intégrés.

En conclusion, cet article établit que l'apprentissage par transfert, couplé à des architectures capables de gérer l'hétérogénéité des schémas et de modéliser des distributions complètes, est une solution viable et puissante pour la prédiction des taux de recouvrement dans des environnements de données financières complexes et parcimonieux.