A Visualization for Comparative Analysis of Regression Models

Each language version is independently generated for its own context, not a direct translation.

🎯 Le Problème : Pourquoi les notes scolaires ne suffisent pas

Imaginez que vous êtes le directeur d'une école et que vous devez choisir le meilleur professeur de mathématiques parmi 12 candidats. Pour les départager, vous regardez simplement leur moyenne générale (comme le MAE ou le RMSE dans le papier).

Le Professeur A a une moyenne de 14/20.
Le Professeur B a une moyenne de 14/20.

Selon les chiffres, ils sont identiques. Mais en réalité, l'histoire est différente :

Le Professeur A est très régulier : il donne toujours 14/20 à tout le monde.
Le Professeur B est extrême : il donne 20/20 à certains élèves et 8/20 à d'autres.

Si vous devez choisir pour un examen de sécurité (où une erreur coûte cher), le Professeur B est dangereux, même si sa moyenne est la même ! C'est le problème des méthodes actuelles : les chiffres résumés cachent la vérité. Ils nous disent "à quel point" on se trompe, mais pas "comment" on se trompe.

🛠️ La Solution : Une nouvelle méthode de comparaison visuelle

Les auteurs de cet article proposent de ne plus se fier uniquement aux chiffres, mais de regarder les erreurs comme si on regardait une carte au trésor. Leur méthode se fait en deux étapes :

Étape 1 : Le tri rapide (La vue à 1 dimension)

Imaginez que vous avez une boîte à outils avec 12 marteaux. Avant de choisir, vous les alignez sur une table pour voir leur taille et leur poids.

Ils utilisent des graphiques en "boîtes" (boxplots) pour voir la répartition des erreurs de chaque modèle.
Cela permet de rejeter rapidement les "mauvais marteaux" (ceux qui font trop d'erreurs énormes) et de garder les 2 ou 3 meilleurs candidats pour un duel final.

Étape 2 : Le duel en 2D (L'espace des erreurs)

C'est le cœur de leur invention. Prenons les deux meilleurs modèles restants (appelons-les Modèle A et Modèle B). Au lieu de les comparer séparément, on les met en face à face sur un même graphique.

L'axe horizontal représente l'erreur du Modèle A.
L'axe vertical représente l'erreur du Modèle B.
Chaque point sur le graphique est un cas précis (par exemple, la prédiction de la température pour un jour donné).

Comment lire cette carte ?

La diagonale centrale : C'est la ligne de partage. Si un point est sur cette ligne, les deux modèles ont fait la même erreur.
Les zones de victoire :
- Si le point est dans la zone orange, le Modèle A a fait moins d'erreur que le B.
- Si le point est dans la zone verte, c'est l'inverse.
La couleur (la densité) : C'est ici que ça devient magique. Au lieu de voir des milliers de points qui se chevauchent (comme une pluie de moustiques), ils utilisent une carte de chaleur.
- Rouge/Orange : C'est là où il y a le plus de points (la "normale", là où les modèles se comportent bien).
- Bleu/Froid : C'est là où il y a peu de points, souvent des erreurs extrêmes (les "monstres" ou les cas rares).

L'astuce de génie : La "Boussole" mathématique (Distance de Mahalanobis)

Normalement, pour mesurer la distance entre deux points, on utilise une règle simple (comme la distance à vol d'oiseau). Mais dans ce monde d'erreurs, les données sont souvent déformées (comme un ballon de rugby étiré).

Les auteurs utilisent une règle spéciale appelée distance de Mahalanobis.

Imaginez que vous essayez de mesurer la distance dans une pièce remplie de coussins élastiques. Une règle rigide ne fonctionne pas.
La distance de Mahalanobis, elle, s'adapte à la forme des coussins. Elle comprend que si une erreur augmente, l'autre a tendance à augmenter aussi (corrélation).
Cela permet de repérer les vrais outliers (les erreurs bizarres) qui seraient invisibles avec une règle classique.

🏭 L'Exemple Concret : La maintenance des machines

Pour prouver leur méthode, ils l'ont testée sur des machines industrielles. Le but était de prédire quand une machine allait casser (sa "durée de vie restante").

Le piège : Si on prédit que la machine va durer 10 ans alors qu'elle casse dans 1 an, c'est catastrophique (panne inattendue). Si on prédit 1 an alors qu'elle dure 10, on change juste la pièce un peu trop tôt (coûteux, mais pas dangereux).
Le résultat des chiffres : Deux modèles semblaient presque pareils.
Le résultat de la carte visuelle : La carte a révélé que le Modèle "sûr" faisait systématiquement des erreurs dans une direction (il sous-estimait la durée de vie pour être prudent), tandis que l'autre était trop confiant.

Grâce à cette carte, le décideur a pu choisir le modèle qui évite les pannes surprises, même si ses chiffres globaux n'étaient pas les meilleurs.

💡 En résumé

Cette méthode transforme la comparaison de modèles d'une course de vitesse (qui a le chiffre le plus bas ?) en une enquête policière (comment se comporte le suspect ?).

Au lieu de se fier à un seul chiffre qui ment parfois, on regarde la carte complète des erreurs :

Où sont les erreurs normales ?
Où sont les erreurs dangereuses ?
Les deux modèles se trompent-ils sur les mêmes cas ?

C'est un outil puissant pour prendre des décisions plus intelligentes, surtout quand les erreurs peuvent coûter cher ou mettre des vies en danger.

Each language version is independently generated for its own context, not a direct translation.

1. Problématique

L'évaluation des modèles de régression repose traditionnellement sur des métriques scalaires agrégées telles que l'erreur absolue moyenne (MAE), l'erreur quadratique moyenne (RMSE) ou le coefficient de détermination ( $R^2$ ). Bien que ces indicateurs soient utiles pour distinguer les modèles performants des modèles médiocres, l'article identifie trois limitations majeures lorsqu'ils sont utilisés pour comparer des modèles concurrents :

Masquage des distributions d'erreurs : Des scores similaires peuvent cacher des comportements d'erreur radicalement différents (ex. : un modèle avec quelques erreurs extrêmes vs un modèle avec des erreurs modérées mais constantes).
Perte de la directionnalité : Les métriques standards (basées sur des valeurs absolues ou carrées) ignorent si le modèle sous-estime ou surestime systématiquement la cible.
Absence de comparaison par instance : Les métriques globales ne révèlent pas comment les modèles diffèrent sur des individus spécifiques, ni les corrélations entre leurs erreurs.

De plus, les visualisations classiques (nuages de points prédiction/réel, histogrammes, diagrammes en boîte) souffrent souvent de problèmes de surcharge visuelle (overplotting) ou ne permettent pas une comparaison directe et structurée entre deux modèles sur l'ensemble du jeu de données.

2. Méthodologie Proposée

Les auteurs proposent une approche de visualisation en deux étapes pour analyser et comparer les performances des modèles de régression :

Étape 1 : Comparaison 1D (Sélection des modèles)

Cette phase vise à filtrer rapidement les modèles sous-performants et à identifier les candidats prometteurs.

Boîtes à moustaches (Boxplots) : Utilisées pour visualiser la dispersion et la distribution des erreurs de chaque modèle, mettant en évidence les médianes, les écarts interquartiles et les valeurs aberrantes (outliers).
Nuages de points colorés : Des graphiques "Prédit vs Réel" sont générés pour chaque modèle, où la couleur indique la magnitude de l'erreur (couleurs chaudes pour les erreurs faibles, froides pour les erreurs élevées). Cela permet d'identifier les zones de performance (ex. : précision sur les faibles valeurs vs erreurs sur les hautes valeurs).

Étape 2 : Espace d'Erreur 2D (Comparaison détaillée)

Pour les modèles sélectionnés, une comparaison directe est effectuée dans un espace bidimensionnel appelé "2D Error Space".

Représentation : L'axe des abscisses représente l'erreur du modèle A ( $r_A$ ) et l'axe des ordonnées l'erreur du modèle B ( $r_B$ ).
Zones de comparaison : Deux diagonales structurent l'espace :
- $y = x$ : Erreurs absolues égales.
- $y = -x$ : Cas où un modèle surestime autant que l'autre sous-estime.
- Ces diagonales créent des zones en forme d'horloge (hourglass) indiquant quel modèle est meilleur (erreur absolue plus faible) pour chaque point de données.
Visualisation de la densité et de la proximité : Au lieu d'un simple nuage de points, les auteurs utilisent une carte de couleurs (colormap) basée sur la proximité par rapport à la médiane de la distribution des erreurs.
- Les couleurs chaudes (rouge/orange) indiquent une forte densité proche de la médiane.
- Les couleurs froides (bleu) indiquent des points éloignés (outliers).
- Une frontière blanche marque la zone contenant 50% des points (médiane).
Métrique de distance : Pour calculer cette proximité, l'article recommande l'utilisation de la distance de Mahalanobis plutôt que de la distance euclidienne.
- La distance de Mahalanobis prend en compte les corrélations entre les erreurs des deux modèles et les différences d'échelle.
- Elle permet de mieux identifier les structures de données allongées et les outliers qui seraient masqués par une métrique euclidienne circulaire.

3. Contributions Clés

Nouvelle approche de visualisation : Introduction d'un espace d'erreur 2D permettant de comparer directement les erreurs appariées de deux modèles, révélant des structures (corrélations, biais systématiques) invisibles aux métriques scalaires.
Intégration de la distance de Mahalanobis : Application de cette distance pour la visualisation de la densité, offrant une interprétation plus robuste de la distribution des erreurs en tenant compte de la covariance.
Méthodologie en deux temps : Une stratégie combinant un filtrage 1D rapide et une analyse 2D approfondie pour guider le choix du modèle.
Outils ouverts : Le code d'implémentation est rendu disponible pour la reproductibilité.

4. Résultats et Étude de Cas

L'approche est validée sur trois jeux de données réels, dont une étude de cas détaillée sur le jeu de données AI4I 2020 Predictive Maintenance (estimation de la durée de vie restante - RUL).

Contexte : Comparaison de deux réseaux de neurones identiques en architecture, mais entraînés avec des fonctions de perte asymétriques différentes (l'un pénalise fortement la surestimation, l'autre est plus équilibré).
Résultats des métriques classiques : Le modèle E1 (pénalisation forte de la surestimation) présente un MAE et un RMSE légèrement inférieurs à ceux du modèle E2, suggérant une meilleure performance globale.
Résultats de la visualisation 2D :
- L'espace d'erreur 2D révèle que les erreurs des deux modèles sont fortement corrélées (ils échouent sur les mêmes individus).
- La distribution forme un nuage allongé légèrement au-dessus de la ligne $y=x$ , indiquant que les erreurs du modèle E2 sont systématiquement plus grandes (arithmétiquement) que celles du modèle E1.
- La visualisation confirme que le modèle E1 est plus "conservateur" (sous-estime pour éviter les défaillances inattendues), ce qui est crucial dans un contexte de maintenance industrielle où la surestimation est critique.
Conclusion de l'étude : La visualisation permet de valider le choix du modèle E1 non seulement pour sa précision globale, mais pour son comportement structurel adapté au coût asymétrique des erreurs, ce que les métriques seules ne pouvaient pas expliciter clairement.

5. Signification et Impact

Cet article démontre que les métriques agrégées traditionnelles sont insuffisantes pour une sélection de modèles rigoureuse, en particulier dans des domaines critiques (santé, conduite autonome, maintenance industrielle).
La méthodologie proposée offre aux praticiens une capacité d'analyse supérieure :

Elle permet de détecter des biais directionnels (sous/surestimation).
Elle révèle les corrélations d'erreurs entre modèles.
Elle identifie les outliers de manière plus fiable grâce à la distance de Mahalanobis.
Elle transforme la comparaison de modèles d'un exercice purement numérique en une analyse visuelle interprétable, facilitant la prise de décision éclairée sur le compromis entre précision, robustesse et risque opérationnel.