Least trimmed squares regression with missing values and cellwise outliers

Each language version is independently generated for its own context, not a direct translation.

Hier ist eine einfache Erklärung der Forschung von Jakob Raymaekers und Peter J. Rousseeuw, als würde man sie einem Freund beim Kaffee erzählen – ganz ohne komplizierte Formeln.

Das Problem: Der kaputte Datensatz

Stell dir vor, du möchtest ein Rezept finden, das erklärt, wie das Wetter (die Antwort) von verschiedenen Faktoren abhängt: Temperatur, Luftfeuchtigkeit, Windgeschwindigkeit (die Eingabedaten).

Normalerweise schauen wir uns alle Daten an und suchen die beste Linie, die durch die Punkte passt. Aber in der echten Welt gibt es zwei Arten von Problemen:

Der ganze Fall ist verrückt (Casewise Outlier): Ein ganzer Datensatz ist falsch. Vielleicht wurde ein Tag im Juli fälschlicherweise als "Schneesturm im Januar" eingetragen. Das ist wie ein komplett falsches Rezept in deinem Kochbuch.
Einzelne Zellen sind kaputt (Cellwise Outlier): Das ist das Tückische. Die meisten Daten sind okay, aber einzelne Zahlen sind falsch. Vielleicht steht bei einem Datensatz die Temperatur richtig, aber die Luftfeuchtigkeit wurde versehentlich als "1000%" eingetragen (statt 80%). Oder bei einer Person ist das Alter "400 Jahre".

Frühere Methoden waren wie ein sturer Koch: Wenn ein ganzer Datensatz falsch war, warf er ihn weg. Wenn aber nur ein Wert in einer Zeile falsch war, ließen sich die alten Methoden oft täuschen und zogen die ganze Vorhersage in die falsche Richtung.

Die neue Lösung: "CellLTS" – Der clevere Daten-Detektiv

Die Autoren haben eine neue Methode namens CellLTS entwickelt. Stell sie dir wie einen sehr sorgfältigen Detektiv vor, der in zwei Schritten arbeitet:

Schritt 1: Die Reinigung (Das "Waschen" der Zutaten)

Bevor der Detektiv überhaupt anfängt zu kochen, schaut er sich nur die Zutaten (die Eingabedaten) an, ignoriert das Ergebnis (das Wetter) und sucht nach verdächtigen Werten.

Die Symmetrie-Trick: Um auch krumme, unregelmäßige Daten zu verstehen, nutzt der Detektiv einen Trick. Er vergleicht jeden Datensatz nicht nur mit sich selbst, sondern mit jedem anderen Datensatz. Er bildet Paare und schaut sich die Unterschiede an. Das macht die Daten "runder" und leichter zu verarbeiten, ähnlich wie man einen krummen Apfel schält, um das Fruchtfleisch zu sehen.
Der Putz-Algorithmus: Er sucht nach den "400-Jahre-Alten" oder den "1000%-Luftfeuchtigkeit". Sobald er sie findet, markiert er sie als "verdächtig" und ersetzt sie durch einen vernünftigen Schätzwert (Imputation), basierend auf den anderen, sauberen Daten.
Das Ergebnis: Er hat jetzt eine "gereinigte" Tabelle, in der die offensichtlichen Fehler behoben sind.

Schritt 2: Die Vorhersage (Das Kochen)

Jetzt nimmt er diese gereinigte Tabelle und berechnet die Beziehung zu den Ergebnissen (dem Wetter). Aber er ist vorsichtig: Er ignoriert die 25% der Fälle, die am weitesten von der Linie abweichen (das ist die "Least Trimmed Squares"-Methode). Er sucht also nur nach der Linie, die auf die meisten sauberen Daten passt, und lässt die restlichen Ausreißer links liegen.

Warum ist das so besonders?

Das Geniale an dieser Methode ist, dass sie Vorhersagen für neue Fälle machen kann, auch wenn diese neuen Fälle noch Fehler enthalten!

Die Analogie mit dem neuen Kunden:
Stell dir vor, du hast ein Modell, um den Preis eines Hauses vorherzusagen.

Der alte Weg: Ein neues Haus kommt rein. Der Wert für die "Anzahl der Zimmer" wurde aber versehentlich als "1000" eingetragen. Der alte Computer denkt: "Wow, 1000 Zimmer! Das muss ein riesiges Schloss sein!" und berechnet einen astronomischen Preis.
Der CellLTS-Weg: Der Detektiv sieht die 1000 Zimmer. Er denkt: "Moment mal, das ist unmöglich." Er markiert diese Zelle als Fehler, korrigiert sie auf einen realistischen Wert (z. B. 4 Zimmer) und berechnet dann den Preis.

Das ist wie ein erfahrener Immobilienmakler, der nicht blind auf die Zahlen schaut, sondern weiß, dass ein "1000-Zimmer-Haus" in dieser Gegend nicht existiert, und den Fehler automatisch ausgleicht.

Was haben sie herausgefunden?

Robustheit: Die Methode funktioniert auch dann gut, wenn die Daten schief verteilt sind (nicht normal) oder Lücken haben (fehlende Werte).
Bessere Vorhersagen: In Tests hat CellLTS deutlich besser abgeschnitten als die alten Methoden, besonders wenn es darum ging, Vorhersagen für neue, vielleicht fehlerhafte Daten zu treffen.
Echte Anwendung: Sie haben es auf echte Daten über Krebssterblichkeit in den USA angewendet. Dabei stießen sie auf lustige Fehler: Ein Landkreis hatte ein "Medianalter" von 400 Jahren (offensichtlich ein Tippfehler). CellLTS hat das erkannt und korrigiert, während andere Methoden dadurch verzerrt worden wären. Sie fanden auch heraus, dass bestimmte Gebiete in Alaska besondere Muster haben, die man nur sieht, wenn man die Daten genau reinigt.

Fazit

Die Autoren haben einen neuen Algorithmus gebaut, der Daten nicht nur "liest", sondern sie "versteht". Er weiß, wann eine Zahl falsch ist, korrigiert sie im Hintergrund und liefert dann eine zuverlässige Vorhersage – egal ob die Daten perfekt sind oder voller kleiner und großer Fehler stecken. Es ist wie ein unsichtbarer Filter, der den Müll aus den Daten filtert, bevor er die eigentliche Arbeit macht.

Each language version is independently generated for its own context, not a direct translation.

Hier ist eine detaillierte technische Zusammenfassung des Papers „Least trimmed squares regression with missing values and cellwise outliers" von Jakob Raymaekers und Peter J. Rousseeuw auf Deutsch.

1. Problemstellung

Die Regression ist ein fundamentales Werkzeug der Statistik, das jedoch häufig mit realen Daten konfrontiert wird, die Ausreißer enthalten. Traditionelle robuste Regressionsmethoden (wie Least Trimmed Squares, LTS) behandeln primär Fallweise Ausreißer (casewise outliers). Dabei wird angenommen, dass eine gesamte Beobachtung (eine Zeile im Datensatz) entweder sauber oder vollständig verdorben ist.

In der Praxis treten jedoch häufig Zellenweise Ausreißer (cellwise outliers) auf: Einzelne Einträge in der Datenmatrix (sowohl bei den Prädiktoren als auch bei der Zielvariable) sind fehlerhaft oder verdächtig, während der Rest der Zeile korrekt sein kann.

Herausforderung: Bestehende zellenweise robuste Methoden (z. B. Shooting S, CR-Lasso) sind oft stark von der Annahme normalverteilter Daten abhängig, liefern keine robusten Vorhersagen für neue Daten (Out-of-Sample) oder können fehlende Werte nicht effektiv handhaben.
Ziel: Entwicklung einer Methode, die robust gegenüber sowohl fallweisen als auch zellenweisen Ausreißern ist, fehlende Werte behandelt, mit schiefen Verteilungen umgehen kann und robuste Vorhersagen für neue Fälle ermöglicht.

2. Methodik: Der CellLTS-Algorithmus

Die Autoren schlagen eine zweistufige Methode vor, die sie CellLTS nennen. Das Kernkonzept besteht darin, die Prädiktoren zunächst zu bereinigen und dann eine robuste Regression durchzuführen. Um Schiefen in den Daten zu kompensieren, wird eine Symmetrisierung der Variablen angewendet.

Schritt 1: Bereinigung der Prädiktoren (Regressoren)

In diesem Schritt werden die Prädiktor-Matrix $X$ von zellenweisen Ausreißern befreit und fehlende Werte interpoliert, ohne Informationen aus der Zielvariable $Y$ zu nutzen.

Symmetrisierung: Um die Annahme der Zellweise Minimum Covariance Determinant (cellMCD) Methode (die für elliptische/normalverteilte Daten optimiert ist) zu erfüllen, wird jede Spalte von $X$ symmetrisiert. Dies geschieht durch Bildung aller paarweisen Differenzen $x_i - x_j$ . Dies macht die Verteilung näher an einer Normalverteilung.
Schätzung von Lage und Streuung: Auf den symmetrisierten Daten wird der cellMCD-Schätzer angewendet. Dieser schätzt robust den Mittelwert $\hat{\mu}_X$ und die Kovarianzmatrix $\hat{\Sigma}_X$ und identifiziert gleichzeitig verdächtige Zellen.
Flagging und Imputation: Basierend auf den robusten z-Scores werden Zellen als Ausreißer markiert (Flagging). Diese Zellen werden dann durch eine lineare Vorhersage basierend auf den robusten Parametern $\hat{\mu}_X$ und $\hat{\Sigma}_X$ ersetzt (Imputation). Das Ergebnis ist eine bereinigte Matrix $\tilde{X}$ .

Schritt 2: Robuste Regression

In diesem Schritt wird die Zielvariable $Y$ auf die bereinigte Matrix $\tilde{X}$ regressiert.

Symmetrisierung von Y: Auch die Zielvariable wird symmetrisiert ( $y_i - y_j$ ), um Schiefen zu behandeln.
Least Trimmed Squares (LTS): Es wird eine LTS-Regressionsanalyse durchgeführt. LTS minimiert die Summe der kleinsten quadrierten Residuen einer Teilmenge der Daten (typischerweise 75%), was robust gegenüber fallweisen Ausreißern in $Y$ ist.
Ridge-Strafterm: Um Kollinearitätsprobleme zu vermeiden, wird ein kleiner Ridge-Strafterm ( $\lambda ||\beta||_2^2$ ) hinzugefügt. Da die Variablen in Schritt 1 standardisiert wurden, sind die Koeffizienten vergleichbar, was die Strafe sinnvoll macht.
Rücktransformation: Die geschätzten Koeffizienten werden zurück in die ursprüngliche Skala transformiert, um den Achsenabschnitt und die Steigungen für das ursprüngliche Modell zu erhalten.

Vorhersage für neue Daten (Out-of-Sample)

Ein entscheidender Vorteil von CellLTS ist die Fähigkeit, robuste Vorhersagen für neue Fälle $x^*$ zu treffen, die selbst Ausreißer oder fehlende Werte enthalten können:

Anstatt $x^*$ direkt in die Regressionsgleichung einzusetzen, wird $x^*$ zunächst mit dem im Schritt 1 geschätzten $\hat{\mu}_X$ und $\hat{\Sigma}_X$ verarbeitet.
Zellen in $x^*$ werden flaggt und imputiert, falls sie als Ausreißer erkannt werden.
Erst dann wird die Vorhersage $\hat{y} = \hat{\alpha} + \hat{x}^T \hat{\beta}$ berechnet. Dies verhindert, dass ein einzelner fehlerhafter Eintrag in einem neuen Datensatz die Vorhersage katastrophal verfälscht.

3. Schlüsselbeiträge

Erste Methode für Out-of-Sample-Vorhersagen: CellLTS ist die erste zellenweise robuste Regressionsmethode, die explizit für robuste Vorhersagen auf neuen, potenziell verdorbenen Daten ausgelegt ist.
Theoretische Durchbruchsgrenze (Breakdown Point): Die Autoren leiten den ersten theoretischen Breakdown-Wert für eine zellenweise robuste Regressionsmethode her. Der Wert liegt bei ca. 29,3% ($1 - 1/\sqrt{2}$) der kontaminierten Zellen pro Variable. Dies bedeutet, dass die Methode stabil bleibt, solange weniger als ~29% der Zellen in einer Spalte verdorben sind.
Umgang mit fehlenden Werten und Schiefen: Durch die Kombination von cellMCD-Imputation und Symmetrisierung (Pairwise Differences) kann die Methode sowohl fehlende Daten als auch stark schief verteilte Daten verarbeiten, ohne dass eine vorherige Transformation der Rohdaten nötig ist.
Algorithmische Effizienz: Die Optimierung des LTS-Ziels unter Berücksichtigung der Strafterme wird durch eine modifizierte Version des FastLTS-Algorithmus realisiert.

4. Ergebnisse

Simulationen

Die Leistung von CellLTS wurde in umfangreichen Simulationen mit verschiedenen Verteilungen (Normal, Exponential, Lognormal) und Ausreißer-Szenarien (10% und 20% zellenweise Ausreißer) verglichen.

Vergleichspartner: OLS, 3SGS (Leung et al.), Shooting S (Öllerer et al.) und CR-Lasso (Su et al.).
Ergebnisse:
- Koeffizienten-Genauigkeit: CellLTS liefert deutlich genauere Schätzungen der Regressionskoeffizienten als die Konkurrenz, insbesondere bei hohen Ausreißerstärken ( $\gamma$ ).
- Vorhersagegenauigkeit (MSE): CellLTS übertrifft alle anderen Methoden bei der Vorhersage auf neuen, kontaminierten Daten. Während andere Methoden bei Ausreißern in den neuen Prädiktoren versagen, bleibt CellLTS stabil, da es die neuen Daten vor der Vorhersage bereinigt.
- Symmetrisierung: Die Verwendung einer Teilmenge von paarweisen Differenzen (mit $k=20$ Permutationen) liefert fast die gleiche Genauigkeit wie die Berechnung aller $O(n^2)$ Differenzen, ist aber recheneffizienter.

Reale Datenanwendung (US Cancer Dataset)

Die Methode wurde auf einen Datensatz mit Krebssterblichkeitsraten in US-Countys angewendet (3047 Beobachtungen, 33 Variablen).

Erkenntnisse: CellLTS identifizierte signifikante Fehler in den Daten, die OLS übersehen hätte.
- Beispiel: Ein County mit einem Medianalter von 400 Jahren (offensichtlicher Fehler) verzerrte den OLS-Koeffizienten für das Alter stark. CellLTS flaggte diesen Wert und imputierte ihn korrekt, was zu einem plausiblen negativen Koeffizienten für das Alter führte.
- Beispiel: Williamsburg City, Virginia, hatte einen extrem hohen Krebs-Index, der als Fehler identifiziert wurde. CellLTS imputierte einen realistischeren Wert.
Interpretierbarkeit: Die Methode generiert eine "Cellmap", die visuell darstellt, welche Zellen als verdächtig eingestuft wurden. Dies ermöglicht eine detaillierte Datenqualitätsanalyse auf Ebene einzelner Einträge.

5. Bedeutung und Fazit

Das Paper stellt einen bedeutenden Fortschritt in der robusten Statistik dar. Es adressiert die Lücke zwischen der theoretischen Behandlung von zellenweisen Ausreißern und der praktischen Notwendigkeit, robuste Vorhersagen für reale, unvollständige und fehlerhafte Daten zu treffen.

Praktische Relevanz: In vielen Anwendungen (z. B. Finanzdaten, medizinische Studien, Umweltdaten) sind einzelne Messfehler in Zeilen häufiger als komplette Zeilenfehler. CellLTS bietet ein Werkzeug, um diese Daten direkt zu nutzen, ohne sie manuell bereinigen zu müssen.
Robustheit: Die Methode ist nicht nur gegen Ausreißer in der Zielvariable robust, sondern schützt auch vor "schlechten" Prädiktoren, was für die Vorhersagekraft entscheidend ist.
Verfügbarkeit: Der Code ist als R-Paket verfügbar, was die Anwendung in der Praxis erleichtert.

Zusammenfassend bietet CellLTS einen umfassenden Ansatz, der die Vorteile von LTS (Fallweise Robustheit), cellMCD (Zellenweise Robustheit und Imputation) und Symmetrisierung (Umgang mit Schiefen) vereint und dabei theoretisch fundierte Garantien für die Stabilität liefert.