t-SNE Exaggerates Clusters, Provably

Each language version is independently generated for its own context, not a direct translation.

Titel: Waarom t-SNE je een leugen vertelt (en waarom je dat moet weten)

Stel je voor dat je een enorme, chaotische berg met duizenden verschillende voorwerpen hebt. Je wilt weten hoe deze voorwerpen met elkaar samenhangen. Welke zijn op elkaar gelijk? Welke zijn totaal anders? Om dit te begrijpen, gebruik je een magische bril genaamd t-SNE. Deze bril pakt die enorme berg en projecteert hem op een klein, plat stukje papier (een 2D-afbeelding) dat mensen kunnen lezen.

Voor jaren dachten wetenschappers en data-analisten: "Als ik twee groepjes voorwerpen dicht bij elkaar zie op dit papier, dan moeten die voorwerpen ook echt dicht bij elkaar in de echte wereld zitten. En als ik een eenzame, verre punt zie, dan is dat echt een rare uitschieter."

Dit nieuwe onderzoek van de auteurs (Noah Bergam, Szymon Snoeck en Nakul Verma) zegt echter: "Denk niet te snel. Die bril is een leugenaar."

Hier is wat ze hebben ontdekt, vertaald naar alledaagse taal:

1. De "Magische Kleefkracht" (Groepen zien er altijd groots uit)

Stel je voor dat je een klaslokaal hebt.

Scenario A: De leerlingen zitten in twee duidelijke groepen: de sporters links en de muzikanten rechts. Ze zijn ver uit elkaar.
Scenario B: De leerlingen zitten willekeurig door elkaar, alsof er geen groepsverband is.

Het verrassende resultaat van de auteurs is: t-SNE kan beide scenario's omzetten in exact dezelfde foto.

Op de foto zie je twee perfecte, gescheiden groepjes. Maar je kunt niet zien of de leerlingen in de echte wereld wel of niet bij elkaar hoorden. De techniek "versterkt" de groepen zo sterk dat zelfs een rommelige hoop mensen er op de foto uitziet als een perfect georganiseerde parade.

De les: Als je op een t-SNE-plaatje twee mooie groepjes ziet, betekent dat niet per se dat die groepen in de data ook echt sterk gescheiden waren. Het kan een illusie zijn.

2. De "Kleine Verandering, Grote Chaos" (Instabiliteit)

Stel je voor dat je een foto maakt van een groep mensen die in een perfect vierkant staan. Als je nu één persoon een millimeter opzij duwt, zou je verwachten dat de foto er nog steeds ongeveer hetzelfde uitziet.

Bij t-SNE is dat niet zo. Als je de data (de afstanden tussen punten) maar heel, heel weinig verandert (bijvoorbeeld door een klein stukje ruis toe te voegen), kan de hele foto volledig instorten.

Het effect: Een dataset die er op papier perfect uitzag, kan na een minimale aanpassing plotseling lijken alsof er geen groepen meer zijn, of juist alsof er nieuwe, vreemde groepen ontstaan.
De les: Je kunt niet blindelings vertrouwen op de vorm die t-SNE maakt. Een kleine verandering in de invoer kan leiden tot een totaal andere interpretatie.

3. De "Vergiftige Pijl" (Eén punt kan alles bederven)

Dit is misschien wel het meest verrassende deel. Stel je voor dat je een dataset hebt met twee duidelijke groepen (bijvoorbeeld: echte nieuwsberichten en nepnieuws).
Nu voeg je één enkel punt toe. Laten we dit een "vergiftig punt" noemen. Dit punt wordt strategisch geplaatst (bijvoorbeeld precies in het midden van alles).

Het resultaat? De hele mooie indeling in twee groepen verdwijnt. De t-SNE-afbeelding toont nu een grote, rommelige brij waar de groepen niet meer te onderscheiden zijn.

Waarom? Omdat t-SNE kijkt naar "wie is mijn naaste buur?". Het vergiftige punt wordt de naaste buur van bijna iedereen. De hele structuur klampt zich vast aan dat ene punt en vergeet de oorspronkelijke groepen.
De les: Je kunt de structuur van een dataset volledig verstoren door slechts één verkeerd punt toe te voegen.

4. De "Vergeten Uitschieter" (Outliers verdwijnen)

Vaak gebruiken mensen t-SNE om rare punten te vinden (bijvoorbeeld: fraude in banktransacties). Je hoopt dat die fraudeurs ver weg van de rest staan op de kaart.

Maar t-SNE houdt ervan om alles "dicht bij elkaar" te houden. Zelfs als een punt in de echte data extreem ver weg zit (een echte uitschieter), zal t-SNE proberen om dat punt toch dicht bij de rest te duwen op de kaart.

Het effect: In plaats van een geïsoleerd punt ver weg te zien, zie je dat de fraudeur "op de rand" van de groep staat, of zelfs tussen de normale mensen zit. De bril maakt de uitschieters onzichtbaar.
De les: Gebruik t-SNE nooit om op zoek te gaan naar rare punten of fraude. Het is daarvoor niet gemaakt; het probeert juist alles netjes bij elkaar te houden.

Samenvatting in één zin

t-SNE is een geweldige kunstenaar die prachtige, duidelijke schilderijen maakt van complexe data, maar het is een kunstenaar die de waarheid aanpast om het mooi te maken. Het versterkt groepen die misschien niet bestaan, en het verbergt uitschieters die juist belangrijk zijn.

Advies voor de leek:
Gebruik t-SNE om te verken en om mooie patronen te zien die je misschien wilt onderzoeken. Maar vertrouw er nooit op om conclusies te trekken over hoe sterk die groepen echt zijn, of om te zeggen: "Kijk, daar zit de fraudeur!" Gebruik voor dat laatste andere, betrouwbaardere methoden.

Each language version is independently generated for its own context, not a direct translation.

Titel: T-SNE Exagereert Clusters, Bewezen

Auteurs: Noah Bergam, Szymon Snoeck, & Nakul Verma (Columbia University)

1. Het Probleem

t-Distributed Stochastic Neighbor Embedding (t-SNE) is een van de meest gebruikte methoden voor data-visualisatie en exploratieve data-analyse, met name in velden zoals single-cell genomics en interpretatie van taalkundige modellen. De algemene overtuiging is dat t-SNE visualisaties produceert waarvan de structuur de inputdata trouw weergeeft.

Het paper daagt deze veronderstelling uit. De auteurs stellen dat t-SNE fundamenteel tekortschiet in het betrouwbaar weergeven van twee cruciale aspecten van de inputdata:

De sterkte van clustering: Het is onmogelijk om uit een t-SNE-visualisatie af te leiden hoe sterk gescheiden de clusters in de originele data waren.
De extremiteit van uitbijters (outliers): t-SNE is theoretisch onbekwaam om extreme uitbijters weer te geven; deze worden vaak opgeslokt in de clusterstructuur van de rest van de data.

Dit is geen louter academische kwestie, maar heeft serieuze gevolgen voor wetenschappelijke conclusies, hypothesevorming en experimenteel ontwerp.

2. Methodologie

De auteurs combineren strikte wiskundige bewijzen met empirische experimenten om de beperkingen van t-SNE te analyseren.

Theoretisch Kader: Ze definiëren t-SNE als een optimalisatieprobleem waarbij de Kullback-Leibler (KL)-divergentie tussen de input-affiniteitsmatrix $P$ (gebaseerd op Gaußische verdeling) en de output-affiniteitsmatrix $Q$ (gebaseerd op een t-verdeling) wordt geminimaliseerd. Ze analyseren de stationaire punten (lokale minima) van deze functie.
Kernmechanismen: De analyse richt zich op twee specifieke eigenschappen van t-SNE die tot misleiding leiden:
1. Additieve invariantie: t-SNE is invariant ten opzichte van additieve verschuivingen in de kwadratische afstanden tussen punten. Als men aan alle onderlinge afstanden een constante $C$ toevoegt, blijft de output identiek.
2. Asymmetrie in affiniteit: De input-affiniteit gedraagt zich als een genormaliseerd dichtstbijzijnde-buur-graaf, terwijl de output-affiniteit meer lijkt op een radius-buur-graaf. Dit zorgt ervoor dat de output probeert uitbijters dicht bij andere punten te houden, zelfs als ze in de input extreem ver weg zijn.
Experimenten: De theorie wordt gevalideerd met synthetische data (zoals reguliere simplexen en mengsels van Gaussische verdelingen) en real-world datasets (o.a. PBMC3k single-cell data en BBC nieuwsartikelen). Ze vergelijken t-SNE ook met PCA en UMAP.

3. Belangrijkste Bijdragen en Resultaten

A. Misrepresentatie van Cluster Salientie (Sterkte)

Stelling 3 & Corollarium 4: De auteurs bewijzen dat elke t-SNE-visualisatie met goed gescheiden clusters exact hetzelfde kan worden geproduceerd door een dataset met willekeurig zwakke clusterseparatie. Er bestaat een "impostor-dataset" ( $X_\epsilon$ ) met een minimale silhouette-score die een identieke t-SNE-output oplevert als een dataset met perfecte clusters.
Conclusie: Uit een mooie, gescheiden t-SNE-plot kan men geen conclusies trekken over de werkelijke sterkte van de clusters in de inputdata.
Instabiliteit (Stelling 5): Kleine perturbaties (kleine veranderingen) in de onderlinge afstanden van de inputdata kunnen leiden tot volledig verschillende visualisaties. Dit komt doordat t-SNE gevoelig is voor de verdeling van afstanden, niet alleen de rangorde.

B. Instabiliteit door "Poison Points"

Stelling 7: Het toevoegen van slechts één enkel "vergiftig punt" (poison point) op het centroid van de data kan de volledige clusterstructuur in de output vernietigen.
Mechanisme: In hoge dimensies (waar data vaak als een reguliere simplex gedraagt) wordt dit ene punt de dichtstbijzijnde buur voor de meeste andere punten. Hierdoor wordt de affiniteit binnen de echte clusters onderdrukt en de affiniteit naar het gifpunt versterkt. Dit effect is zo sterk dat een goed geklauste dataset en een volledig ongeclusterde dataset na toevoeging van dit punt dezelfde t-SNE-output kunnen hebben.

C. Misrepresentatie van Uitbijters (Outliers)

Stelling 9: Ongeacht de input, kan een stationaire t-SNE-embeddings een uitbijter nooit verder dan een bepaalde afstand (ongeveer $\alpha \approx 3.266$ ) van de rest van de data weergeven.
Vergelijking met PCA: Waar PCA extreme uitbijters correct weergeeft (ze blijven ver weg), "sluist" t-SNE deze uitbijters vaak terug in de clusterstructuur of plaatst ze aan de rand, waardoor ze niet als anomalieën herkenbaar zijn.
Empirisch bewijs: In financiële datasets (fraudedetectie) en synthetische data worden uitbijters door t-SNE gemaskeerd, terwijl ze door PCA duidelijk zichtbaar blijven.

4. Significatie en Implicaties

Theoretische Doorbraak: Dit is het eerste werk dat systematisch de faalmodi van t-SNE theoretisch analyseert en bewijst dat het niet mogelijk is om bepaalde eigenschappen van de input (zoals clustersterkte en uitbijter-extreemheid) te infereren uit de output.
Praktische Waarschuwing: De paper waarschuwt wetenschappers en data-analisten om t-SNE-visualisaties met een korreltje zout te nemen. Het zien van clusters betekent niet dat de data sterk geklaust is; het zien van een "blob" betekent niet dat er geen clusters zijn.
Toepasbaarheid: De bevindingen suggereren dat t-SNE een ongeschikt hulpmiddel is voor taken zoals uitbijterdetectie of het bepalen van de kwaliteit van clustering.
Breder Kader: De auteurs suggereren dat deze problemen mogelijk ook van toepassing zijn op andere krachtgebaseerde dimensionalisatiemethoden (zoals UMAP, hoewel UMAP iets minder extreem reageert op gifpunten, vertoont het vergelijkbare gedrag met uitbijters).

Conclusie

De paper concludeert dat t-SNE, ondanks zijn praktische succes, fundamentele wiskundige beperkingen heeft die leiden tot misleidende visualisaties. De methode neigt ertoe clusters te exagereer en uitbijters te onderdrukken. De auteurs pleiten voor een kritischer gebruik van t-SNE en voor verder theoretisch onderzoek naar wat er wel en niet bewezen kan worden uit data-visualisaties.

t-SNE Exaggerates Clusters, Provably

1. De "Magische Kleefkracht" (Groepen zien er altijd groots uit)

2. De "Kleine Verandering, Grote Chaos" (Instabiliteit)

3. De "Vergiftige Pijl" (Eén punt kan alles bederven)

4. De "Vergeten Uitschieter" (Outliers verdwijnen)

Samenvatting in één zin

Titel: T-SNE Exagereert Clusters, Bewezen

1. Het Probleem

2. Methodologie

3. Belangrijkste Bijdragen en Resultaten

A. Misrepresentatie van Cluster Salientie (Sterkte)

B. Instabiliteit door "Poison Points"

C. Misrepresentatie van Uitbijters (Outliers)

4. Significatie en Implicaties

Conclusie

Meer zoals dit

A Benchmark of Classical and Deep Learning Models for Agricultural Commodity Price Forecasting on A Novel Bangladeshi Market Price Dataset

Probabilistic Language Tries: A Unified Framework for Compression, Decision Policies, and Execution Reuse

FLeX: Fourier-based Low-rank EXpansion for multilingual transfer

Spectral Edge Dynamics Reveal Functional Modes of Learning

S3S^3S3: Stratified Scaling Search for Test-Time in Diffusion Language Models

$S^3$ : Stratified Scaling Search for Test-Time in Diffusion Language Models