Least trimmed squares regression with missing values and cellwise outliers

Each language version is independently generated for its own context, not a direct translation.

🧱 De Bouwmeester en de Gebrekkige Steen

Stel je voor dat je een huis wilt bouwen op basis van een blauwdruk. Je hebt een grote stapel bakstenen (je data) nodig om de muren te maken. Meestal zijn deze bakstenen perfect: ze zijn recht, hebben de juiste maat en passen precies in elkaar.

Maar in de echte wereld is dat zelden zo. Soms heb je te maken met:

Verkeerde bakstenen: Een hele steen is kapot of van een heel ander type (een "uitbijter" in een hele rij).
Gaten in de bakstenen: Een steen is half weggesleten of mist een stukje (ontbrekende data).
Scheve bakstenen: Een steen is perfect, maar één hoekje is afgebroken of verkeerd gemarkeerd (een "cel" die fout is, terwijl de rest van de steen goed is).

De meeste oude bouwmethodes (zoals de klassieke "Kleinste Kwadraten" of OLS) kijken naar de hele stapel. Als er één grote, scheve baksteen in zit, trekt die de hele muur scheef. Het resultaat is een huis dat niet recht staat.

🕵️‍♂️ De Nieuwe Methode: "CellLTS"

Jakob Raymaekers en Peter Rousseeuw hebben een nieuwe, slimme bouwmeester bedacht: CellLTS. Deze methode is speciaal ontworpen om om te gaan met die rare situaties: gebrekkige stenen, gaten en zelfs als de hele baksteen verkeerd is.

Hun geheim bestaat uit twee stappen, alsof je eerst de bakstenen sorteert en pas daarna bouwt.

Stap 1: De "Schoonmaakbeurt" (De Regressoren)

Voordat je begint met bouwen, kijkt de bouwmeester eerst alleen naar de bakstenen die de muur vormen (de voorspellers).

Het probleem: Soms is één hoekje van een baksteen verkeerd gemarkeerd (bijvoorbeeld: "leeftijd 400 jaar" in plaats van 40).
De oplossing: De bouwmeester gebruikt een slimme scanner (een methode genaamd cellMCD). Deze scanner kijkt niet naar de hele steen, maar naar elk klein hoekje (elke "cel").
- Als een hoekje verdacht is, wordt het gemarkeerd.
- Vervolgens wordt dat hoekje "ingevuld" met de beste schatting die past bij de andere hoekjes van die steen.
- Als er gaten zijn (ontbrekende data), worden die ook slim ingevuld.

Analogie: Stel je voor dat je een puzzel hebt waarbij één stukje verkeerd is gedrukt. In plaats van de hele puzzel weg te gooien, knip je dat ene stukje eraf en plakt je een nieuw stukje erop dat perfect past bij de rest van de afbeelding.

Stap 2: De "Symmetrische Spiegel" (Omgaan met scheefheid)

Soms zijn de bakstenen niet eerlijk verdeeld; misschien heb je veel kleine stenen en maar één gigantische. Dit maakt het moeilijk om een rechte lijn te trekken.

De truc: De bouwmeester maakt een spiegelbeeld van zijn data. Hij neemt elke steen en vergelijkt hem met elke andere steen. Hierdoor worden extreme uitschieters "geglad" en wordt de verdeling eerlijker. Het is alsof je een scheve foto eerst spiegelt en dan de gemiddelde lijn trekt; de scheefheid verdwijnt.

Stap 3: Bouwen met een "Veilige Zone" (LTS)

Nu de bakstenen schoon en recht zijn, begint het echte bouwen.

De bouwmeester gebruikt een methode genaamd Least Trimmed Squares (LTS).
In plaats van te proberen alle bakstenen perfect te laten passen, kijkt hij alleen naar de beste 75% van de bakstenen. De overige 25% (die misschien nog steeds een beetje scheef zijn of vreemd gedragen) worden genegeerd.
Zo krijg je een muur die perfect recht staat, gebaseerd op de meeste betrouwbare stenen.

🚀 Voorspellen in de Wereld (Out-of-sample)

Het echte genie van deze methode zit in het voorspellen van nieuwe situaties.
Stel, je wilt voorspellen wat de kankersterfte is in een nieuw dorpje waar je nog nooit bent geweest.

Oude methode: Je neemt de cijfers van dat dorpje en plakt ze direct in je formule. Als er een foutje in die cijfers zit (bijv. een verkeerde invoer van de bevolkingsgrootte), is je voorspelling compleet verkeerd.
CellLTS methode: De bouwmeester zegt: "Wacht even, ik ga eerst kijken of die nieuwe cijfers kloppen."
- Hij scant de nieuwe cijfers op foutjes.
- Als hij een foutje ziet (bijv. "inkomen: 1 miljard dollar"), corrigeert hij dat eerst.
- Pas daarna gebruikt hij zijn formule om een voorspelling te doen.

Dit betekent dat je zelfs als de invoer data imperfect is, toch een betrouwbaar antwoord krijgt.

🏥 Het Reële Voorbeeld: Kanker en Amerika

Om te bewijzen dat dit werkt, hebben de auteurs gekeken naar data van de VS over kankersterfte per provincie.

Ze zagen rare dingen: een provincie met een gemiddelde leeftijd van 400 jaar (een duidelijke fout) of een stad met een extreem hoge kankercijfer die eigenlijk een fout was.
De oude methodes werden hierdoor in de war gebracht en gaven verkeerde conclusies (bijvoorbeeld: "Leeftijd heeft geen invloed op kanker").
CellLTS zag die fouten, corrigeerde ze en gaf een veel logischer beeld: "Ah, leeftijd heeft wel degelijk invloed, maar we hadden een paar rare data-punten die dat verstopten."

🎯 Conclusie in één zin

Deze nieuwe methode is als een slimme, kritische chef-kok: hij gooit niet de hele maaltijd weg als er één slechte aardappel in de zak zit. Hij pakt die ene aardappel eruit, vervangt hem door een goede, en bereidt dan een gerecht dat perfect smaakt, zelfs als de ingrediënten niet 100% perfect waren.

Dit maakt statistiek veel betrouwbaarder voor de echte wereld, waar data nooit perfect is.

Each language version is independently generated for its own context, not a direct translation.

Hier is een gedetailleerde technische samenvatting van het artikel "Least trimmed squares regression with missing values and cellwise outliers" van Jakob Raymaekers en Peter J. Rousseeuw, in het Nederlands.

Probleemstelling

Traditionele regressiemethoden, zoals Kleinste Kwarten (OLS), zijn zeer gevoelig voor uitschieters. Bestaande robuuste methoden (zoals LTS, S-estimators en MM-estimators) gaan uit van casewise outliers: het veronderstellen dat een hele observatie (rij in de datamatrix) verdacht of foutief is.

In de praktijk komen echter vaker cellwise outliers voor: individuele waarden in de datamatrix (zowel in de voorspellers als in de responsvariabele) die verdacht zijn, terwijl de rest van die observatie correct kan zijn. Bestaande cellwise robuuste regressiemethoden (zoals 3SGS, Shooting S en CR-Lasso) hebben drie belangrijke beperkingen:

Ze zijn vaak afhankelijk van de aanname dat de schone data bij benadering Gaussisch verdeeld is.
Ze bieden geen betrouwbare out-of-sample voorspellingen voor nieuwe data die zelf ook cellwise outliers of ontbrekende waarden kunnen bevatten.
Ze gaan vaak uit van symmetrische verdelingen, wat problematisch is bij scheve data.

Daarnaast ontbreekt er een methode die zowel ontbrekende waarden als cellwise outliers tegelijkertijd en robuust kan behandelen.

Methodologie: De CellLTS-methode

De auteurs stellen een nieuwe tweestapsmethode voor, genaamd CellLTS (Cellwise Least Trimmed Squares), die de volgende kenmerken combineert:

1. Symmetrisatie (Data Transformatie)
Om de aanname van normaliteit te verzwakken en de methode robuuster te maken voor scheve verdelingen, wordt de data gesymmetriseerd.

Voor elke variabele worden alle parenverschillen berekend ( $x_i - x_j$ ).
Dit creëert een nieuwe dataset met $n(n-1)$ waarnemingen die symmetrisch rond 0 zijn.
Dit maakt de verdeling dichter bij een Gaussische verdeling, wat de prestaties van de onderliggende schatters verbetert.

2. Stap 1: Reiniging van de regressoren (Cellwise Robuustheid)
Voordat de regressie wordt uitgevoerd, wordt de matrix van de voorspellers ( $X$ ) gereinigd:

De CellMCD-schatter (Cellwise Minimum Covariance Determinant) wordt toegepast op de gesymmetriseerde voorspellers.
CellMCD schat het locatie- en spreidingsmatrix en identificeert verdachte cellen (outliers) en ontbrekende waarden.
Verdachte cellen worden geïmputeerd met hun beste lineaire voorspelling gebaseerd op de robuuste schattingen van locatie en covariantie.
Dit resulteert in een schone matrix $\hat{X}$ .

3. Stap 2: Casewise Robuuste Regressie
Op de gereinigde data wordt een robuuste regressie uitgevoerd:

De responsvariabele $y$ wordt eveneens gesymmetriseerd en gestandaardiseerd.
Er wordt een Least Trimmed Squares (LTS) regressie uitgevoerd op de gesymmetriseerde en gereinigde data. LTS minimaliseert de som van de $h$ kleinste kwadratische residuen (in plaats van alle residuen), wat robuustheid biedt tegen casewise outliers in de respons.
Een straalterm (ridge penalty) wordt toegevoegd om collineariteit te voorkomen.
De intercept en de coëfficiënten worden teruggetransformeerd naar de oorspronkelijke schaal.

4. Out-of-Sample Voorspelling
Een uniek kenmerk is de aanpak voor nieuwe data ( $x^*$ ):

De methode gaat er niet van uit dat nieuwe data schoon is.
Eerst worden de cellen van $x^*$ gecontroleerd op outliers en ontbrekende waarden (met dezelfde CellMCD-logica als in stap 1).
Verdachte cellen worden geïmputeerd.
Pas daarna wordt de voorspelling berekend met de robuuste coëfficiënten. Dit voorkomt dat een enkele foutieve waarde in een nieuwe observatie de voorspelling volledig verstoort.

Belangrijkste Bijdragen

Eerste Breakdown-resultaat voor Cellwise Regressie: De auteurs bewijzen dat CellLTS een breakdown-waarde heeft van ongeveer $29% $($ 1 - 1/\sqrt{2}$) voor cellwise contaminatie. Dit is een theoretisch mijlpaal, aangezien dit de eerste keer is dat zo'n resultaat wordt bewezen voor een cellwise robuuste regressiemethode.
Robuuste Out-of-Sample Voorspelling: Het is de eerste methode die expliciet ontworpen is om betrouwbare voorspellingen te doen voor nieuwe data die zelf ook vervuild kan zijn met outliers of ontbrekende waarden.
Omgaan met Scheve Data: Door middel van symmetrisatie is de methode niet beperkt tot Gaussische data en werkt hij goed bij scheve verdelingen.
Integratie van Ontbrekende Waarden: De methode behandelt ontbrekende waarden en outliers in één coherent raamwerk zonder voorafgaande imputatie nodig te hebben.

Resultaten

Simulatiestudie:

De prestaties van CellLTS werden vergeleken met OLS, 3SGS, Shooting S en STMW (CR-Lasso).
Coëfficiëntenschatting: CellLTS leverde de meest accurate schattingen op, zelfs bij hoge mate van cellwise contaminatie (20%) en bij scheve verdelingen (exponentieel en log-normaal). Andere methoden vertoonden grote afwijkingen bij toenemende uitbijtergrootte ( $\gamma$ ).
Voorspellingsvermogen: CellLTS had de laagste Mean Squared Error (MSE) voor out-of-sample voorspellingen. Andere methoden faalden hier vaak omdat ze de nieuwe data niet eerst "reinigden".
Symmetrisatie-efficiëntie: Het gebruik van een subset van parenverschillen (via $k$ willekeurige permutaties) bleek bijna even goed te presteren als het berekenen van alle $O(n^2)$ paren, maar is computatieel veel efficiënter.

Toepassing op Real Data (Kankersterfte in de VS):

De methode werd toegepast op een dataset van 3047 county's met 33 variabelen.
Vergelijking OLS vs. CellLTS: De coëfficiënten voor OLS en CellLTS waren vaak vergelijkbaar, maar er waren significante verschillen bij variabelen met extreme outliers (bijv. mediaanleeftijd). OLS werd beïnvloed door datafouten (zoals een leeftijd van 400 jaar), terwijl CellLTS deze corrigeerde.
Detectie van Datafouten: De "cellmap" (visualisatie van verdachte cellen) identificeerde logische fouten (bijv. kankerdoodsoorzaak lager dan sterftecijfer, onrealistische leeftijden) en verklaarde afwijkende patronen (bijv. hoge sterfte in Alaska door demografische factoren).
CellLTS leverde een beter model op en gaf inzicht in welke specifieke data-punten de analyse verstoorden.

Betekenis en Conclusie

Deze paper introduceert een fundamentele doorbraak in robuuste statistiek door de kloof tussen casewise en cellwise robustheid te overbruggen. De CellLTS-methode biedt een praktische oplossing voor real-world data, die vaak onvolledig is en vervuild met individuele meetfouten.

De belangrijkste implicaties zijn:

Betrouwbaardere Modellen: Regressiemodellen zijn minder gevoelig voor datakwaliteitsproblemen.
Betere Voorspellingen: Het vermogen om nieuwe, mogelijk vervuilde data te "reinigen" voordat er een voorspelling wordt gedaan, maakt de methode ideaal voor operationele toepassingen.
Theoretische Onderbouwing: Het bewijs van de breakdown-waarde geeft een solide theoretische basis voor het gebruik van cellwise robuuste methoden.

De auteurs maken hun R-code en scripts openbaar beschikbaar, wat de reproduceerbaarheid en toepasbaarheid van de methode in de praktijk vergroot.