A Visualization for Comparative Analysis of Regression Models

Dit artikel introduceert een nieuwe visualisatiemethode die residuen in een tweedimensionale ruimte, de Mahalanobis-afstand en een kleurenschaal voor percentielen combineert om de prestaties van regressiemodellen gedetailleerder te vergelijken dan traditionele geaggregeerde metrieken.

Nassime Mountasir (ICube), Baptiste Lafabregue (ICube), Bruno Albert (ICube), Nicolas Lachiche (ICube)

Gepubliceerd 2026-03-23
📖 5 min leestijd🧠 Diepgaand

Each language version is independently generated for its own context, not a direct translation.

Titel: Waarom een enkele score niet genoeg is: Een nieuwe manier om voorspellende modellen te vergelijken

Stel je voor dat je een groep van twaalf koks hebt die allemaal een gerecht moeten bereiden. Je wilt weten wie de beste kok is. De traditionele manier om dit te doen, is door te kijken naar één enkel cijfer: de gemiddelde smaak. Als de gemiddelde smaak een 8 is, is de kok goed. Als het een 4 is, is hij slecht.

Maar wat als twee koks allebei een gemiddelde van 7,5 hebben? De ene kok maakt soms een perfect gerecht, maar af en toe een verschrikkelijk zout stukje (een extreme fout). De andere kok maakt altijd een 'voldoende' gerecht, maar nooit iets dat echt uitblinkt of echt mislukt. Met alleen het gemiddelde cijfer zie je dit verschil niet. Je zou de verkeerde kok kunnen kiezen voor een situatie waarin je geen enkele fout mag maken (zoals bij een operatie of het besturen van een zelfrijdende auto).

Dit is precies het probleem dat de auteurs van dit paper, Nassime Mountasir en zijn collega's, oplossen. Ze zeggen: "Stop met kijken naar alleen het gemiddelde cijfer. Kijk naar de hele foto."

Hier is hoe hun nieuwe methode werkt, vertaald naar alledaagse taal:

1. Het probleem: De "Gemiddelde" valkuil

In de wereld van data (machine learning) gebruiken mensen vaak cijfers zoals MAE of RMSE om te zeggen hoe goed een model is. Dit zijn als het ware de "smaakcijfers".

  • Het nadeel: Deze cijfers vegen alles onder de mat. Ze vertellen je niet waar de fouten zitten. Is het model soms heel ver van de waarheid? Neigt het er altijd naar om te hoog of te laag te schatten? Traditionele cijfers verbergen deze details.

2. De oplossing: Twee stappen naar inzicht

De auteurs stellen een nieuwe manier voor om modellen te vergelijken, alsof je een detective bent die twee verdachten naast elkaar zet.

Stap 1: De "Sneltest" (1D Vergelijking)

Eerst kijken we naar alle modellen tegelijk. Stel je een rij van twaalf mensen voor die elk een bal gooien naar een doel.

  • In plaats van alleen te kijken wie het dichtst bij het doel landt, kijken we naar een doosdiagram (een soort grafiek die laat zien hoe wijd de ballen verspreid liggen).
  • Dit helpt je snel de slechte koks (die ballen ver weg gooien) te verwijderen. Maar het vertelt je nog niet alles over de beste koks. Sommige gooien soms ver, maar vaak heel dichtbij; anderen gooien consistent gemiddeld.

Stap 2: De "Twee-Modellen Duel" (2D Error Space)

Nu we de beste twee koks hebben gekozen (laten we ze Kok A en Kok B noemen), moeten we ze tegen elkaar laten strijden. Dit doen ze met een speciale kaart: de 2D Foutenruimte.

  • Het idee: Je plakt een punt op een kaart voor elke voorspelling die ze hebben gedaan.
    • De horizontale as (x) is de fout van Kok A.
    • De verticale as (y) is de fout van Kok B.
  • De lijnen: Er loopt een diagonale lijn door het midden. Als een punt op deze lijn ligt, hebben beide koks evenveel fout gemaakt.
    • Ligt het punt erboven? Dan was Kok A beter.
    • Ligt het punt eronder? Dan was Kok B beter.
  • De kleuren (De warmtekaart): In plaats van duizenden puntjes die elkaar verstoppen, kleuren ze de gebieden in.
    • Warm kleuren (rood/oranje): Hier zitten de meeste punten. Dit is waar de koks meestal zitten (hun "normale" gedrag).
    • Koude kleuren (blauw): Hier zitten de uitschieters. De rare momenten waarop ze echt iets geks deden.
  • De "Magische Liniaal" (Mahalanobis afstand): Normaal meet je afstand met een rechte liniaal (Euclidische afstand). Maar wat als de fouten van de koks met elkaar verbonden zijn? Wat als Kok A een fout maakt, Kok B dat ook doet? De auteurs gebruiken een slimme "gebogen liniaal" (Mahalanobis afstand) die rekening houdt met deze verbindingen. Hierdoor zie je de echte vorm van de fouten beter, alsof je een elastiekje gebruikt in plaats van een stijve liniaal.

3. Een echt voorbeeld: De machine die kapot gaat

In het paper testen ze dit op een echte situatie: het voorspellen van wanneer een machine stuk gaat (onderhoud).

  • Situatie: Als je denkt dat de machine nog lang meegaat (te optimistisch), maar hij breekt nu al, is dat gevaarlijk. Als je denkt dat hij nu kapot gaat (te pessimistisch), maar hij gaat nog lang mee, is dat alleen maar geldverspilling.
  • Het resultaat: Twee modellen hadden bijna hetzelfde "gemiddelde" cijfer. Maar op de nieuwe kaart zagen ze iets anders:
    • Model 1 maakte soms grote fouten, maar was heel voorzichtig (gaf vaak te vroeg onderhoud).
    • Model 2 was gemiddeld iets nauwkeuriger, maar had een patroon van te optimistische voorspellingen.
  • De conclusie: Als je wilt voorkomen dat de machine onverwacht stopt, kies je voor Model 1, zelfs als het gemiddelde cijfer iets slechter is. De kaart maakte dit patroon zichtbaar, terwijl de traditionele cijfers het verborgen hielden.

Samenvatting

De kernboodschap van dit paper is: Kijk niet alleen naar het eindcijfer.

Het is alsof je een auto koopt. Je kijkt niet alleen naar de topsnelheid (het gemiddelde cijfer), maar je wilt ook weten: Is hij veilig bij regen? Is hij comfortabel op slecht wegdek? Heeft hij een zwakke rem?

De auteurs bieden een nieuwe "spiegel" (de 2D Error Space met kleuren en slimme afstanden) waarmee je precies kunt zien hoe een model fouten maakt. Hierdoor kun je de juiste keuze maken voor de juiste situatie, in plaats van blind te vertrouwen op een getal.