t-SNE Exaggerates Clusters, Provably

Dit artikel bewijst dat t-SNE clusters systematisch overdrijft en dat zowel de sterkte van input-clustering als de extremiteit van uitbijters niet betrouwbaar uit de output kunnen worden afgeleid.

Noah Bergam, Szymon Snoeck, Nakul Verma

Gepubliceerd 2026-03-03
📖 5 min leestijd🧠 Diepgaand

Each language version is independently generated for its own context, not a direct translation.

Titel: Waarom t-SNE je een leugen vertelt (en waarom je dat moet weten)

Stel je voor dat je een enorme, chaotische berg met duizenden verschillende voorwerpen hebt. Je wilt weten hoe deze voorwerpen met elkaar samenhangen. Welke zijn op elkaar gelijk? Welke zijn totaal anders? Om dit te begrijpen, gebruik je een magische bril genaamd t-SNE. Deze bril pakt die enorme berg en projecteert hem op een klein, plat stukje papier (een 2D-afbeelding) dat mensen kunnen lezen.

Voor jaren dachten wetenschappers en data-analisten: "Als ik twee groepjes voorwerpen dicht bij elkaar zie op dit papier, dan moeten die voorwerpen ook echt dicht bij elkaar in de echte wereld zitten. En als ik een eenzame, verre punt zie, dan is dat echt een rare uitschieter."

Dit nieuwe onderzoek van de auteurs (Noah Bergam, Szymon Snoeck en Nakul Verma) zegt echter: "Denk niet te snel. Die bril is een leugenaar."

Hier is wat ze hebben ontdekt, vertaald naar alledaagse taal:

1. De "Magische Kleefkracht" (Groepen zien er altijd groots uit)

Stel je voor dat je een klaslokaal hebt.

  • Scenario A: De leerlingen zitten in twee duidelijke groepen: de sporters links en de muzikanten rechts. Ze zijn ver uit elkaar.
  • Scenario B: De leerlingen zitten willekeurig door elkaar, alsof er geen groepsverband is.

Het verrassende resultaat van de auteurs is: t-SNE kan beide scenario's omzetten in exact dezelfde foto.

Op de foto zie je twee perfecte, gescheiden groepjes. Maar je kunt niet zien of de leerlingen in de echte wereld wel of niet bij elkaar hoorden. De techniek "versterkt" de groepen zo sterk dat zelfs een rommelige hoop mensen er op de foto uitziet als een perfect georganiseerde parade.

  • De les: Als je op een t-SNE-plaatje twee mooie groepjes ziet, betekent dat niet per se dat die groepen in de data ook echt sterk gescheiden waren. Het kan een illusie zijn.

2. De "Kleine Verandering, Grote Chaos" (Instabiliteit)

Stel je voor dat je een foto maakt van een groep mensen die in een perfect vierkant staan. Als je nu één persoon een millimeter opzij duwt, zou je verwachten dat de foto er nog steeds ongeveer hetzelfde uitziet.

Bij t-SNE is dat niet zo. Als je de data (de afstanden tussen punten) maar heel, heel weinig verandert (bijvoorbeeld door een klein stukje ruis toe te voegen), kan de hele foto volledig instorten.

  • Het effect: Een dataset die er op papier perfect uitzag, kan na een minimale aanpassing plotseling lijken alsof er geen groepen meer zijn, of juist alsof er nieuwe, vreemde groepen ontstaan.
  • De les: Je kunt niet blindelings vertrouwen op de vorm die t-SNE maakt. Een kleine verandering in de invoer kan leiden tot een totaal andere interpretatie.

3. De "Vergiftige Pijl" (Eén punt kan alles bederven)

Dit is misschien wel het meest verrassende deel. Stel je voor dat je een dataset hebt met twee duidelijke groepen (bijvoorbeeld: echte nieuwsberichten en nepnieuws).
Nu voeg je één enkel punt toe. Laten we dit een "vergiftig punt" noemen. Dit punt wordt strategisch geplaatst (bijvoorbeeld precies in het midden van alles).

Het resultaat? De hele mooie indeling in twee groepen verdwijnt. De t-SNE-afbeelding toont nu een grote, rommelige brij waar de groepen niet meer te onderscheiden zijn.

  • Waarom? Omdat t-SNE kijkt naar "wie is mijn naaste buur?". Het vergiftige punt wordt de naaste buur van bijna iedereen. De hele structuur klampt zich vast aan dat ene punt en vergeet de oorspronkelijke groepen.
  • De les: Je kunt de structuur van een dataset volledig verstoren door slechts één verkeerd punt toe te voegen.

4. De "Vergeten Uitschieter" (Outliers verdwijnen)

Vaak gebruiken mensen t-SNE om rare punten te vinden (bijvoorbeeld: fraude in banktransacties). Je hoopt dat die fraudeurs ver weg van de rest staan op de kaart.

Maar t-SNE houdt ervan om alles "dicht bij elkaar" te houden. Zelfs als een punt in de echte data extreem ver weg zit (een echte uitschieter), zal t-SNE proberen om dat punt toch dicht bij de rest te duwen op de kaart.

  • Het effect: In plaats van een geïsoleerd punt ver weg te zien, zie je dat de fraudeur "op de rand" van de groep staat, of zelfs tussen de normale mensen zit. De bril maakt de uitschieters onzichtbaar.
  • De les: Gebruik t-SNE nooit om op zoek te gaan naar rare punten of fraude. Het is daarvoor niet gemaakt; het probeert juist alles netjes bij elkaar te houden.

Samenvatting in één zin

t-SNE is een geweldige kunstenaar die prachtige, duidelijke schilderijen maakt van complexe data, maar het is een kunstenaar die de waarheid aanpast om het mooi te maken. Het versterkt groepen die misschien niet bestaan, en het verbergt uitschieters die juist belangrijk zijn.

Advies voor de leek:
Gebruik t-SNE om te verken en om mooie patronen te zien die je misschien wilt onderzoeken. Maar vertrouw er nooit op om conclusies te trekken over hoe sterk die groepen echt zijn, of om te zeggen: "Kijk, daar zit de fraudeur!" Gebruik voor dat laatste andere, betrouwbaardere methoden.

Ontvang papers zoals deze in je inbox

Gepersonaliseerde dagelijkse of wekelijkse digests op basis van jouw interesses. Gists of technische samenvattingen, in jouw taal.

Probeer Digest →