A Visualization for Comparative Analysis of Regression Models

Each language version is independently generated for its own context, not a direct translation.

Titel: Waarom een enkele score niet genoeg is: Een nieuwe manier om voorspellende modellen te vergelijken

Stel je voor dat je een groep van twaalf koks hebt die allemaal een gerecht moeten bereiden. Je wilt weten wie de beste kok is. De traditionele manier om dit te doen, is door te kijken naar één enkel cijfer: de gemiddelde smaak. Als de gemiddelde smaak een 8 is, is de kok goed. Als het een 4 is, is hij slecht.

Maar wat als twee koks allebei een gemiddelde van 7,5 hebben? De ene kok maakt soms een perfect gerecht, maar af en toe een verschrikkelijk zout stukje (een extreme fout). De andere kok maakt altijd een 'voldoende' gerecht, maar nooit iets dat echt uitblinkt of echt mislukt. Met alleen het gemiddelde cijfer zie je dit verschil niet. Je zou de verkeerde kok kunnen kiezen voor een situatie waarin je geen enkele fout mag maken (zoals bij een operatie of het besturen van een zelfrijdende auto).

Dit is precies het probleem dat de auteurs van dit paper, Nassime Mountasir en zijn collega's, oplossen. Ze zeggen: "Stop met kijken naar alleen het gemiddelde cijfer. Kijk naar de hele foto."

Hier is hoe hun nieuwe methode werkt, vertaald naar alledaagse taal:

1. Het probleem: De "Gemiddelde" valkuil

In de wereld van data (machine learning) gebruiken mensen vaak cijfers zoals MAE of RMSE om te zeggen hoe goed een model is. Dit zijn als het ware de "smaakcijfers".

Het nadeel: Deze cijfers vegen alles onder de mat. Ze vertellen je niet waar de fouten zitten. Is het model soms heel ver van de waarheid? Neigt het er altijd naar om te hoog of te laag te schatten? Traditionele cijfers verbergen deze details.

2. De oplossing: Twee stappen naar inzicht

De auteurs stellen een nieuwe manier voor om modellen te vergelijken, alsof je een detective bent die twee verdachten naast elkaar zet.

Stap 1: De "Sneltest" (1D Vergelijking)

Eerst kijken we naar alle modellen tegelijk. Stel je een rij van twaalf mensen voor die elk een bal gooien naar een doel.

In plaats van alleen te kijken wie het dichtst bij het doel landt, kijken we naar een doosdiagram (een soort grafiek die laat zien hoe wijd de ballen verspreid liggen).
Dit helpt je snel de slechte koks (die ballen ver weg gooien) te verwijderen. Maar het vertelt je nog niet alles over de beste koks. Sommige gooien soms ver, maar vaak heel dichtbij; anderen gooien consistent gemiddeld.

Stap 2: De "Twee-Modellen Duel" (2D Error Space)

Nu we de beste twee koks hebben gekozen (laten we ze Kok A en Kok B noemen), moeten we ze tegen elkaar laten strijden. Dit doen ze met een speciale kaart: de 2D Foutenruimte.

Het idee: Je plakt een punt op een kaart voor elke voorspelling die ze hebben gedaan.
- De horizontale as (x) is de fout van Kok A.
- De verticale as (y) is de fout van Kok B.
De lijnen: Er loopt een diagonale lijn door het midden. Als een punt op deze lijn ligt, hebben beide koks evenveel fout gemaakt.
- Ligt het punt erboven? Dan was Kok A beter.
- Ligt het punt eronder? Dan was Kok B beter.
De kleuren (De warmtekaart): In plaats van duizenden puntjes die elkaar verstoppen, kleuren ze de gebieden in.
- Warm kleuren (rood/oranje): Hier zitten de meeste punten. Dit is waar de koks meestal zitten (hun "normale" gedrag).
- Koude kleuren (blauw): Hier zitten de uitschieters. De rare momenten waarop ze echt iets geks deden.
De "Magische Liniaal" (Mahalanobis afstand): Normaal meet je afstand met een rechte liniaal (Euclidische afstand). Maar wat als de fouten van de koks met elkaar verbonden zijn? Wat als Kok A een fout maakt, Kok B dat ook doet? De auteurs gebruiken een slimme "gebogen liniaal" (Mahalanobis afstand) die rekening houdt met deze verbindingen. Hierdoor zie je de echte vorm van de fouten beter, alsof je een elastiekje gebruikt in plaats van een stijve liniaal.

3. Een echt voorbeeld: De machine die kapot gaat

In het paper testen ze dit op een echte situatie: het voorspellen van wanneer een machine stuk gaat (onderhoud).

Situatie: Als je denkt dat de machine nog lang meegaat (te optimistisch), maar hij breekt nu al, is dat gevaarlijk. Als je denkt dat hij nu kapot gaat (te pessimistisch), maar hij gaat nog lang mee, is dat alleen maar geldverspilling.
Het resultaat: Twee modellen hadden bijna hetzelfde "gemiddelde" cijfer. Maar op de nieuwe kaart zagen ze iets anders:
- Model 1 maakte soms grote fouten, maar was heel voorzichtig (gaf vaak te vroeg onderhoud).
- Model 2 was gemiddeld iets nauwkeuriger, maar had een patroon van te optimistische voorspellingen.
De conclusie: Als je wilt voorkomen dat de machine onverwacht stopt, kies je voor Model 1, zelfs als het gemiddelde cijfer iets slechter is. De kaart maakte dit patroon zichtbaar, terwijl de traditionele cijfers het verborgen hielden.

Samenvatting

De kernboodschap van dit paper is: Kijk niet alleen naar het eindcijfer.

Het is alsof je een auto koopt. Je kijkt niet alleen naar de topsnelheid (het gemiddelde cijfer), maar je wilt ook weten: Is hij veilig bij regen? Is hij comfortabel op slecht wegdek? Heeft hij een zwakke rem?

De auteurs bieden een nieuwe "spiegel" (de 2D Error Space met kleuren en slimme afstanden) waarmee je precies kunt zien hoe een model fouten maakt. Hierdoor kun je de juiste keuze maken voor de juiste situatie, in plaats van blind te vertrouwen op een getal.

Each language version is independently generated for its own context, not a direct translation.

Probleemstelling

Traditionele evaluatiemethoden voor regressiemodellen vertrouwen sterk op geaggregeerde numerieke metrics zoals MAE (Mean Absolute Error), RMSE (Root Mean Square Error) en $R^2$ . Hoewel deze metrics nuttig zijn om modellen met duidelijke prestatieverschillen te onderscheiden, hebben ze ernstige beperkingen bij het vergelijken van concurrerende modellen:

Te veel aggregatie: Ze vatten complexe foutverdelingen samen tot één getal, waardoor nuances in de aard van de fouten verloren gaan.
Verborgen gedrag: Ze kunnen onderscheid maken tussen extreme uitbijters (outliers) en systematische fouten niet duidelijk maken. Bijvoorbeeld, een model met enkele grote fouten kan een vergelijkbare RMSE hebben als een model met veel kleine fouten, hoewel hun gedrag fundamenteel anders is.
Richtingloosheid: Standaard metrics gebruiken absolute of gekwadrateerde fouten, waardoor het onderscheid tussen onder- en overschatting (bias) verdwijnt.
Gebrek aan context: Bestaande visualisaties (zoals scatterplots van voorspelling vs. werkelijkheid) worden onleesbaar bij grote datasets door overlapping van punten en bieden geen directe vergelijking tussen twee specifieke modellen.

Methodologie

De auteurs stellen een tweestaps-visualisatiemethodologie voor om regressiemodellen grafisch te vergelijken, gebaseerd op drie kerncomponenten:

Stap 1: 1D Visualisatie voor Modelselectie

Om eerst de slechtst presterende modellen te filteren, worden één-dimensionale visualisaties gebruikt:

Boxplots: Deze tonen de spreiding van fouten per model, inclusief mediaan, interkwartielafstand en uitbijters. Dit helpt bij het identificeren van modellen met consistente prestaties versus die met grote variabiliteit.
Gekleurde Scatterplots: Voorspelde waarden worden uitgezet tegen werkelijke waarden, waarbij een kleurenschaal de grootte van de fout aangeeft. Dit onthult patronen, zoals of een model systematisch faalt bij hoge of lage waarden.

Stap 2: De 2D Error Space (Foutruimte)

Voor de gedetailleerde vergelijking van twee geselecteerde modellen wordt een tweedimensionale ruimte gecreëerd:

Asen: De X-as vertegenwoordigt de fout van Model A ( $\hat{y}_A - y$ ) en de Y-as de fout van Model B ( $\hat{y}_B - y$ ).
Diagonalen:
- De lijn $y = x$ geeft punten waar beide modellen even grote fouten maken.
- De lijn $y = -x$ geeft punten waar het ene model evenveel overschat als het andere onderschat.
- De ruimte wordt opgedeeld in "vergelijkingszones" (oranje en groen) die aangeven welk model voor een specifiek datapunt de kleinere absolute fout heeft.
Kleurenschaal op Percentielen: In plaats van een simpele dichtheidskaart (zoals KDE of hexbin), wordt elke punt gekleurd op basis van zijn afstand tot de mediaan van de verdeling.
- Warme kleuren (rood/oranje) duiden op punten dicht bij de mediaan (dicht bij de "normale" fout).
- Koele kleuren (blauw) duiden op punten ver weg van de mediaan (uitbijters).
- Dit maakt het mogelijk om zowel de dichtheid als de afwijking van de centrale tendens tegelijkertijd te zien.
Mahalanobis-afstand: Om de afstand tot de mediaan te berekenen, gebruiken de auteurs de Mahalanobis-afstand in plaats van de Euclidische afstand.
- De Euclidische afstand behandelt variabelen als onafhankelijk en ignoreert schaalverschillen.
- De Mahalanobis-afstand houdt rekening met de correlatie tussen de fouten van de twee modellen en hun schaal. Dit resulteert in een ellipsvormige verdeling in plaats van een cirkel, wat de werkelijke structuur van de data en de uitbijters nauwkeuriger weergeeft.

Kernbijdragen

Nieuwe Visualisatieframework: Een gestructureerde aanpak die eerst 1D-tools gebruikt voor filtering en vervolgens een geavanceerde 2D-foutruimte voor diepgaande analyse.
Percentiel-gebaseerde Kleuring: Een innovatieve manier om dichtheid en afwijkingen tegelijkertijd te visualiseren door gebruik te maken van de afstand tot de mediaan, wat inzicht geeft in de robuustheid van het model.
Toepassing van Mahalanobis-afstand: Het integreren van deze statistische maatstaf in de visualisatie om correlaties tussen modelfouten te corrigeren, wat leidt tot een robuustere interpretatie van de ruimtelijke verdeling.
Praktische Validatie: De methode wordt getest op drie datasets, waaronder een industriële dataset voor voorspellend onderhoud (AI4I 2020), waarbij asymmetrische kosten van fouten (over- vs. onderschatting) cruciaal zijn.

Resultaten

In de casestudie met de AI4I 2020 dataset werden twee neurale netwerken vergeleken die identiek waren opgezet, maar verschillende verliesfuncties gebruikten (met verschillende straffen voor overschatting).

Traditionele Metrics: Toonden dat Model E1 iets beter presteerde dan Model E2 (lagere MAE en RMSE), maar het verschil was marginaal.
2D Error Space: Onthulde een cruciaal structureel verschil. De fouten lagen in een langwerpige wolk langs de diagonaal, wat aangeeft dat de modellen op dezelfde individuen falen. Echter, de punten lagen systematisch boven de lijn $y=x$ , wat betekent dat Model E2 systematisch grotere fouten maakte dan Model E1.
Conclusie: De visualisatie bevestigde dat Model E1 de voorkeur had in een context waar overschatting (en daardoor onverwachte uitval) gevaarlijker is dan onderschatting. De metrics hadden dit gedetailleerde inzicht in de richting en structuur van de fouten niet kunnen bieden.

Betekenis en Impact

Deze paper benadrukt dat numerieke metrics onvoldoende zijn voor een eerlijke en diepgaande vergelijking van regressiemodellen, vooral in kritieke toepassingen zoals medische diagnose of autonoom rijden.

Inzicht in Foutpatronen: De methode stelt onderzoekers en praktici in staat om patronen te ontdekken die door aggregatie worden verdoezeld, zoals systematische bias of specifieke uitbijter-gedrag.
Betere Besluitvorming: Door de correlatie tussen fouten en de richting van de afwijkingen te visualiseren, kunnen stakeholders betere afwegingen maken tussen modellen, gebaseerd op de specifieke kosten van fouten in hun domein.
Robuustheid: Het gebruik van de Mahalanobis-afstand zorgt ervoor dat de vergelijking statistisch geldig blijft, zelfs wanneer de foutverdelingen gecorreleerd zijn of verschillende schalen hebben.

Kortom, de auteurs bieden een essentieel visueel toolkit dat de interpretatie van regressiemodellen transformeert van een statische numerieke beoordeling naar een dynamische, structurele analyse.