A Visualization for Comparative Analysis of Regression Models

Each language version is independently generated for its own context, not a direct translation.

Das Problem: Warum die üblichen Noten nicht reichen

Stellen Sie sich vor, Sie wollen zwei verschiedene Autos vergleichen, um zu sehen, welches besser fährt. Die übliche Methode in der Welt der Datenwissenschaft ist, einfach auf den Treibstoffverbrauch (die „Durchschnittszahl") zu schauen.

Auto A verbraucht im Durchschnitt 5 Liter.
Auto B verbraucht im Durchschnitt 5,1 Liter.

Nach dieser einfachen Zahl ist Auto A das Gewinner-Auto. Aber das sagt Ihnen nichts darüber, wie die Autos fahren:

Fährt Auto A immer gleichmäßig, oder hat es manchmal einen plötzlichen Aussetzer, bei dem es 20 Liter verbraucht?
Fährt Auto B vielleicht sehr stabil, aber es neigt dazu, immer ein wenig zu schnell zu sein (was in einer Stadt gefährlich ist), während Auto A manchmal zu langsam ist?

In der Welt der KI-Modelle (die versuchen, Zahlen vorherzusagen, wie z. B. den Preis eines Hauses oder die Lebensdauer einer Maschine) machen Forscher genau diesen Fehler. Sie schauen nur auf eine einzige Zahl wie den Mittelwert des Fehlers (MAE oder RMSE). Das ist wie das Betrachten nur des Durchschnitts-Treibstoffverbrauchs. Es verdeckt wichtige Details:

Extreme Ausreißer: Ein Modell kann im Durchschnitt gut sein, aber manchmal katastrophale Fehler machen (wie ein Auto, das plötzlich in einen Graben fährt).
Richtung des Fehlers: Schätzt das Modell immer zu hoch oder immer zu niedrig? (Wie ein Uhrwerk, das immer 5 Minuten zu spät ist – das ist anders als eines, das zufällig mal zu früh, mal zu spät ist).
Versteckte Unterschiede: Zwei Modelle können fast den gleichen Durchschnittsfehler haben, aber völlig unterschiedliche Fehlermuster aufweisen.

Die Lösung: Ein neuer Blickwinkel (Die „Fehler-Karte")

Die Autoren dieses Papiers schlagen vor, nicht nur auf die Zahl zu schauen, sondern sich die Fehler der Modelle wie eine Landkarte anzusehen. Sie nennen ihre Methode eine „grafische Vergleichsmethode".

Man kann sich das in zwei Schritten vorstellen:

Schritt 1: Der erste Filter (Die 1D-Ansicht)

Stellen Sie sich vor, Sie haben 12 verschiedene Kandidaten für ein Jobinterview. Bevor Sie sich die Details ansehen, sortieren Sie sie nach ihrem Lebenslauf.

Die Autoren nutzen dafür Boxplots (eine Art Diagramm, das zeigt, wie breit die Streuung der Fehler ist).
Das ist wie ein „Schnell-Check": Welche Kandidaten haben überhaupt keine großen Ausreißer? Wer ist stabil? Wer ist chaotisch?
So filtern sie die schlechten Modelle heraus und bleiben bei den wenigen besten übrig.

Schritt 2: Der große Showdown (Die 2D-Fehler-Raum)

Jetzt nehmen wir die zwei besten Kandidaten (nennen wir sie Modell A und Modell B) und stellen sie gegeneinander. Hier kommt der kreative Teil:

Stellen Sie sich ein Koordinatensystem vor (ein X-Y-Diagramm):

Die X-Achse zeigt den Fehler von Modell A.
Die Y-Achse zeigt den Fehler von Modell B.
Jeder Punkt auf dem Diagramm ist ein einzelner Testfall (z. B. ein bestimmtes Haus oder eine Maschine).

Die magischen Linien:

Eine diagonale Linie in der Mitte bedeutet: „Beide Modelle haben den gleichen Fehler gemacht."
Wenn ein Punkt unter dieser Linie liegt, war Modell A besser.
Wenn ein Punkt über der Linie liegt, war Modell B besser.

Der Clou: Die Farben und die Distanz
Normalerweise sieht man nur viele Punkte, die sich überlagern (wie ein Haufen Murmeln). Die Autoren machen das Diagramm aber farbig:

Die Farben zeigen die Dichte: Wo liegen die meisten Punkte? (Wie ein Wärmebild, das zeigt, wo die Menschenmenge am dichtesten ist).
Die Farbe zeigt die Nähe zum „Mittelpunkt": Sie nutzen eine spezielle mathematische Regel (die Mahalanobis-Distanz), um zu messen, wie „normal" ein Fehler ist.
- Warme Farben (Rot/Orange): Diese Fehler liegen nah am Durchschnitt. Das ist „sicher".
- Kalte Farben (Blau): Diese Fehler sind weit weg vom Durchschnitt. Das sind die gefährlichen Ausreißer, die man sofort sehen muss.

Warum ist das besser als eine einfache Zahl?
Stellen Sie sich vor, Sie sind ein Arzt, der eine Diagnose stellt.

Modell A macht oft kleine Fehler, aber manchmal schätzt es eine Krankheit als „unbedenklich" ein, obwohl sie tödlich ist (ein gefährlicher Ausreißer).
Modell B macht oft Fehler, aber es schätzt immer „zu vorsichtig" ein (es sagt „vielleicht krank", auch wenn es gesund ist).

Eine einfache Durchschnittszahl würde vielleicht sagen: „Beide sind gleich gut." Aber auf der Fehler-Karte sieht man sofort: Modell A hat blaue Punkte in der gefährlichen Zone (zu wenig Vorsicht), während Modell B nur rote Punkte hat (zu viel Vorsicht, aber sicher).

Ein konkretes Beispiel aus dem Papier

Die Autoren testeten das an einer Maschine, die bald kaputtgehen könnte (Predictive Maintenance).

Szenario: Wenn die KI sagt, die Maschine hält noch lange (sie überschätzt), könnte sie plötzlich ausfallen und einen Unfall verursachen. Wenn sie sagt, sie hält nicht lange (sie unterschätzt), wird sie nur früher gewartet – das kostet Geld, ist aber sicher.
Das Ergebnis: Zwei neuronale Netze hatten fast die gleichen Durchschnittswerte. Aber die Grafik zeigte:
- Das eine Modell war „optimistisch" (sagte, alles ist gut) und hatte gefährliche Fehler.
- Das andere Modell war „konservativ" (sagte, besser vorsichtig sein) und machte sicherere Fehler.

Dank der Grafik konnten die Forscher sofort sehen: „Wir nehmen das konservative Modell, auch wenn die Durchschnittszahl nur minimal schlechter ist, weil es keine tödlichen Ausreißer macht."

Fazit

Die Botschaft der Autoren ist einfach: Zahlen lügen nicht, aber sie können täuschen, wenn man sie isoliert betrachtet.

Statt nur auf den „Durchschnittsfehler" zu schauen, sollten wir uns die Landkarte der Fehler ansehen. So erkennen wir Muster, Ausreißer und die wahre Natur der Modelle – genau wie ein Autofahrer nicht nur auf den Tankzeiger schaut, sondern auch auf die Straße, die Kurven und das Wetter achtet.

Each language version is independently generated for its own context, not a direct translation.

1. Problemstellung

Die Bewertung von Regressionsmodellen stützt sich in der Regel auf aggregierte numerische Metriken wie den mittleren absoluten Fehler (MAE), die quadratische mittlere Fehler (RMSE) oder das Bestimmtheitsmaß ( $R^2$ ). Obwohl diese Metriken nützlich sind, um grobe Unterschiede zwischen sehr guten und sehr schlechten Modellen zu identifizieren, weisen sie erhebliche Einschränkungen auf:

Informationsverlust: Sie fassen die Fehlerverteilung zu stark zusammen und verdecken wichtige Details über die Natur und Verteilung der Vorhersagefehler.
Unterscheidungsschwäche: Bei Modellen mit ähnlichen Metrikwerten können fundamentale Unterschiede in der Fehlerstruktur (z. B. systematische Unter- vs. Überschätzung, Vorhandensein von Ausreißern) nicht erkannt werden.
Fehlende Kontextualisierung: Metriken geben keine Auskunft darüber, ob Fehler in kritischen Bereichen auftreten oder ob Modelle bei bestimmten Datenbereichen versagen.

Das Ziel des Papers ist es, eine Methode zur grafischen Vergleichbarkeit von Regressionsmodellen zu entwickeln, die diese aggregierten Metriken ergänzt, um ein umfassenderes Verständnis der Modellleistung zu ermöglichen.

2. Methodik

Die Autoren schlagen einen zweistufigen visuellen Analyseansatz vor, der von der groben Auswahl von Modellen bis zum detaillierten Vergleich führt:

Schritt 1: 1D-Visualisierung zur Modellauswahl

Zunächst werden alle Kandidatenmodelle mittels eindimensionaler Visualisierungen analysiert, um unterperformende Modelle auszuschließen und vielversprechende Kandidaten zu identifizieren.

Boxplots: Diese zeigen die Streuung der Fehler, den Median und Ausreißer. Sie ermöglichen einen schnellen Vergleich der Konsistenz der Vorhersagen.
Streudiagramme (Predicted vs. Real): Um die Fehlermuster über den gesamten Wertebereich zu verstehen, werden Vorhersagen gegen die tatsächlichen Werte geplottet. Eine Farbskala (warm für geringe Fehler, kalt für große Fehler) visualisiert die Genauigkeit in verschiedenen Bereichen.

Schritt 2: Der 2D-Feherraum (2D Error Space)

Für den direkten Vergleich zweier ausgewählter Modelle wird ein zweidimensionaler Raum definiert:

Achsen: Die x-Achse stellt den Fehler des ersten Modells ( $r_1$ ) und die y-Achse den Fehler des zweiten Modells ( $r_2$ ) dar.
Diagonalen:
- Die Diagonale $y = x$ repräsentiert Punkte, bei denen beide Modelle den gleichen Fehler haben.
- Die Diagonale $y = -x$ zeigt Fälle, in denen ein Modell so stark überschätzt, wie das andere unterschätzt.
Vergleichszonen: Der Raum wird in zwei Bereiche unterteilt (z. B. orange und grün), die anzeigen, welches der beiden Modelle für einen bestimmten Datenpunkt den kleineren absoluten Fehler hat.

Komponenten der 2D-Visualisierung

Um die Dichte und Struktur der Fehlerpunkte im 2D-Raum effektiv darzustellen, werden drei technische Komponenten kombiniert:

Farbkodierte Dichte (Colormap): Anstelle von einfachen Streudiagrammen (die bei großen Datensätzen zu Überlappungen führen) oder Kernel-Density-Estimation (KDE, die Ausreißer verwischen kann), wird eine Darstellung basierend auf der Proximität zum Median verwendet. Punkte nahe dem Median werden warm (rot/orange) eingefärbt, weiter entfernte Punkte kalt (blau). Dies visualisiert die Verteilungsdichte und hebt Ausreißer hervor.
Percentile-Grenzen: Eine weiße Grenze markiert den Bereich, in dem die Anzahl der Punkte innerhalb gleich der Anzahl außerhalb ist, was eine schnelle Identifizierung des Kerns der Verteilung ermöglicht.
Mahalanobis-Distanz: Anstelle der euklidischen Distanz wird die Mahalanobis-Distanz verwendet, um die Punkte vom Median zu messen.
- Vorteil: Sie berücksichtigt die Korrelation zwischen den Fehlerachsen und die unterschiedlichen Skalierungen der Variablen.
- Effekt: Während die euklidische Distanz kreisförmige Bereiche annimmt, erkennt die Mahalanobis-Distanz elliptische Strukturen, die die tatsächliche Datenverteilung und die Abhängigkeit der Fehler beider Modelle zueinander korrekt abbilden. Dies verbessert die Identifikation von Ausreißern und die Interpretation der Datenstruktur.

3. Wichtige Beiträge

Neue Visualisierungsmethode: Einführung des „2D Error Space" als Werkzeug zum direkten Paarvergleich von Regressionsmodellen.
Kombination von Dichte und Distanz: Entwicklung einer Farbkodierung basierend auf der Distanz zum Median (anstatt reiner Dichte), die sowohl die Konzentration als auch die Ausreißer klar darstellt.
Integration der Mahalanobis-Distanz: Anwendung dieser Distanzmetrik im Kontext der Fehlerverteilung, um Korrelationen und Skaleneffekte zu berücksichtigen, was bei der Interpretation von Modellvergleichen oft übersehen wird.
Zweistufiger Workflow: Ein systematischer Ansatz, der von der 1D-Filterung zur 2D-Detailanalyse führt.

4. Ergebnisse und Fallstudie

Die Methode wurde an drei realen Datensätzen getestet, wobei ein Fokus auf dem AI4I 2020 Predictive Maintenance Dataset lag.

Experiment: Zwei neuronale Netze mit identischer Architektur wurden trainiert, unterschieden sich jedoch in der Asymmetrie ihrer Verlustfunktion (Loss Function).
- Modell E1: Straft Überschätzung stark ab (konservativ).
- Modell E2: Straft Überschätzung weniger stark (optimistisch).
Ergebnis der Metriken: Herkömmliche Metriken (MAE, RMSE, $R^2$ ) zeigten nur marginale Unterschiede, wobei Modell E1 leicht besser abschnitt.
Ergebnis der Visualisierung: Der 2D-Feherraum enthüllte eine entscheidende strukturelle Differenz:
- Die Fehler waren stark korreliert (die Modelle scheiterten an denselben Instanzen).
- Die Punktwolke lag systematisch über der Identitätslinie ( $y=x$ ), was zeigte, dass die Fehler von Modell E2 arithmetisch größer waren als die von E1.
- Dies bestätigte, dass Modell E1 aufgrund seiner konservativen Natur (systematische Unterschätzung) besser geeignet ist, um kritische Ausfälle zu vermeiden, obwohl die aggregierten Metriken den Unterschied kaum zeigten.

5. Bedeutung und Fazit

Das Paper zeigt auf, dass aggregierte Metriken allein für die Bewertung von Regressionsmodellen unzureichend sind, insbesondere in sicherheitskritischen Anwendungen (wie medizinischer Diagnose oder Predictive Maintenance), wo die Art des Fehlers (Über- vs. Unterschätzung) wichtiger ist als der Durchschnittswert.

Die vorgestellte Methodik ermöglicht es:

Muster und Fehlerverteilungen zu erkennen, die durch MAE/RMSE verdeckt werden.
Die Korrelation zwischen den Fehlern verschiedener Modelle zu visualisieren.
Fundiertere Entscheidungen bei der Modellauswahl zu treffen, indem nicht nur die Genauigkeit, sondern auch die Robustheit und das Fehlverhalten gegenüber bestimmten Datenmustern betrachtet wird.

Die Autoren planen zukünftig, diese Visualisierungstools um die Analyse von Fehlerentwicklungen über verschiedene Domänen oder Betriebsbedingungen zu erweitern, um die Interpretierbarkeit in dynamischen Umgebungen weiter zu steigern.