A Visualization for Comparative Analysis of Regression Models

Cet article propose une nouvelle méthode de visualisation pour comparer les modèles de régression en représentant les résidus dans un espace bidimensionnel via la distance de Mahalanobis et une carte de couleurs, afin de révéler des motifs d'erreur et des corrélations que les métriques agrégées traditionnelles masquent.

Nassime Mountasir (ICube), Baptiste Lafabregue (ICube), Bruno Albert (ICube), Nicolas Lachiche (ICube)

Publié 2026-03-23
📖 5 min de lecture🧠 Analyse approfondie

Each language version is independently generated for its own context, not a direct translation.

🎯 Le Problème : Pourquoi les notes scolaires ne suffisent pas

Imaginez que vous êtes le directeur d'une école et que vous devez choisir le meilleur professeur de mathématiques parmi 12 candidats. Pour les départager, vous regardez simplement leur moyenne générale (comme le MAE ou le RMSE dans le papier).

  • Le Professeur A a une moyenne de 14/20.
  • Le Professeur B a une moyenne de 14/20.

Selon les chiffres, ils sont identiques. Mais en réalité, l'histoire est différente :

  • Le Professeur A est très régulier : il donne toujours 14/20 à tout le monde.
  • Le Professeur B est extrême : il donne 20/20 à certains élèves et 8/20 à d'autres.

Si vous devez choisir pour un examen de sécurité (où une erreur coûte cher), le Professeur B est dangereux, même si sa moyenne est la même ! C'est le problème des méthodes actuelles : les chiffres résumés cachent la vérité. Ils nous disent "à quel point" on se trompe, mais pas "comment" on se trompe.

🛠️ La Solution : Une nouvelle méthode de comparaison visuelle

Les auteurs de cet article proposent de ne plus se fier uniquement aux chiffres, mais de regarder les erreurs comme si on regardait une carte au trésor. Leur méthode se fait en deux étapes :

Étape 1 : Le tri rapide (La vue à 1 dimension)

Imaginez que vous avez une boîte à outils avec 12 marteaux. Avant de choisir, vous les alignez sur une table pour voir leur taille et leur poids.

  • Ils utilisent des graphiques en "boîtes" (boxplots) pour voir la répartition des erreurs de chaque modèle.
  • Cela permet de rejeter rapidement les "mauvais marteaux" (ceux qui font trop d'erreurs énormes) et de garder les 2 ou 3 meilleurs candidats pour un duel final.

Étape 2 : Le duel en 2D (L'espace des erreurs)

C'est le cœur de leur invention. Prenons les deux meilleurs modèles restants (appelons-les Modèle A et Modèle B). Au lieu de les comparer séparément, on les met en face à face sur un même graphique.

  • L'axe horizontal représente l'erreur du Modèle A.
  • L'axe vertical représente l'erreur du Modèle B.
  • Chaque point sur le graphique est un cas précis (par exemple, la prédiction de la température pour un jour donné).

Comment lire cette carte ?

  1. La diagonale centrale : C'est la ligne de partage. Si un point est sur cette ligne, les deux modèles ont fait la même erreur.
  2. Les zones de victoire :
    • Si le point est dans la zone orange, le Modèle A a fait moins d'erreur que le B.
    • Si le point est dans la zone verte, c'est l'inverse.
  3. La couleur (la densité) : C'est ici que ça devient magique. Au lieu de voir des milliers de points qui se chevauchent (comme une pluie de moustiques), ils utilisent une carte de chaleur.
    • Rouge/Orange : C'est là où il y a le plus de points (la "normale", là où les modèles se comportent bien).
    • Bleu/Froid : C'est là où il y a peu de points, souvent des erreurs extrêmes (les "monstres" ou les cas rares).

L'astuce de génie : La "Boussole" mathématique (Distance de Mahalanobis)

Normalement, pour mesurer la distance entre deux points, on utilise une règle simple (comme la distance à vol d'oiseau). Mais dans ce monde d'erreurs, les données sont souvent déformées (comme un ballon de rugby étiré).

Les auteurs utilisent une règle spéciale appelée distance de Mahalanobis.

  • Imaginez que vous essayez de mesurer la distance dans une pièce remplie de coussins élastiques. Une règle rigide ne fonctionne pas.
  • La distance de Mahalanobis, elle, s'adapte à la forme des coussins. Elle comprend que si une erreur augmente, l'autre a tendance à augmenter aussi (corrélation).
  • Cela permet de repérer les vrais outliers (les erreurs bizarres) qui seraient invisibles avec une règle classique.

🏭 L'Exemple Concret : La maintenance des machines

Pour prouver leur méthode, ils l'ont testée sur des machines industrielles. Le but était de prédire quand une machine allait casser (sa "durée de vie restante").

  • Le piège : Si on prédit que la machine va durer 10 ans alors qu'elle casse dans 1 an, c'est catastrophique (panne inattendue). Si on prédit 1 an alors qu'elle dure 10, on change juste la pièce un peu trop tôt (coûteux, mais pas dangereux).
  • Le résultat des chiffres : Deux modèles semblaient presque pareils.
  • Le résultat de la carte visuelle : La carte a révélé que le Modèle "sûr" faisait systématiquement des erreurs dans une direction (il sous-estimait la durée de vie pour être prudent), tandis que l'autre était trop confiant.

Grâce à cette carte, le décideur a pu choisir le modèle qui évite les pannes surprises, même si ses chiffres globaux n'étaient pas les meilleurs.

💡 En résumé

Cette méthode transforme la comparaison de modèles d'une course de vitesse (qui a le chiffre le plus bas ?) en une enquête policière (comment se comporte le suspect ?).

Au lieu de se fier à un seul chiffre qui ment parfois, on regarde la carte complète des erreurs :

  1. Où sont les erreurs normales ?
  2. Où sont les erreurs dangereuses ?
  3. Les deux modèles se trompent-ils sur les mêmes cas ?

C'est un outil puissant pour prendre des décisions plus intelligentes, surtout quand les erreurs peuvent coûter cher ou mettre des vies en danger.