t-SNE Exaggerates Clusters, Provably

Cet article démontre de manière théorique et pratique que le t-SNE exagère la structure des regroupements, rendant impossible l'inférence fiable de la force des clusters d'entrée ou de l'extrémité des points aberrants à partir de ses visualisations.

Noah Bergam, Szymon Snoeck, Nakul Verma

Publié 2026-03-03
📖 5 min de lecture🧠 Analyse approfondie

Each language version is independently generated for its own context, not a direct translation.

🎨 Le Magicien qui Ment : Pourquoi t-SNE exagère la réalité

Imaginez que vous avez une immense boîte remplie de milliers de billes de différentes couleurs. Certaines sont regroupées par couleur (rouge avec rouge, bleu avec bleu), d'autres sont éparpillées au hasard, et quelques-unes sont des "intrus" très loin de tout le monde.

Votre but est de prendre toutes ces billes en 3D (ou même en 1000 dimensions !) et de les étaler sur une simple feuille de papier en 2D pour voir les groupes. C'est ce que fait t-SNE, l'outil de visualisation le plus célèbre au monde pour les data scientists.

Les chercheurs de ce papier (Noah, Szymon et Nakul) ont découvert une vérité dérangeante : t-SNE est un magicien qui triche. Il ne montre pas toujours la vérité. Il peut transformer un tas de billes mélangées en un dessin de groupes parfaits, ou au contraire, faire disparaître un groupe bien formé.

Voici les trois grands mensonges qu'il raconte, expliqués avec des analogies :

1. Le Mensonge de la "Force" des Groupes (L'illusion de la séparation)

Le problème : Vous voyez deux îles bien séparées sur la carte de t-SNE. Vous pensez : "Wow, ces deux groupes sont très différents et bien séparés dans la réalité !"
La réalité : Ce n'est peut-être pas vrai.

  • L'analogie : Imaginez que vous avez deux tas de sable. Dans la réalité, les tas sont collés l'un à l'autre, presque indistinguables. Mais t-SNE, comme un photographe qui utilise un filtre "contraste extrême", peut les étaler sur la photo pour qu'ils semblent être à des kilomètres l'un de l'autre.
  • Ce que prouvent les auteurs : Ils ont démontré mathématiquement qu'on peut créer un "faux jeu de données" (un imposteur) où les points sont presque collés les uns aux autres, mais qui donne exactement la même image que des points très éloignés.
  • La leçon : Si vous voyez deux groupes bien séparés sur un graphique t-SNE, ne vous fiez pas à la distance entre eux. Cela ne signifie pas qu'ils étaient aussi séparés dans les données réelles.

2. Le Mensonge de la "Stabilité" (L'effet papillon)

Le problème : Vous changez une toute petite donnée (une seule bille), et tout le dessin s'effondre ou change radicalement.
La réalité : t-SNE est extrêmement fragile.

  • L'analogie : Imaginez une tour de Jenga (un jeu de blocs). Si vous retirez un seul bloc au hasard, la tour ne bouge pas. Mais avec t-SNE, c'est comme si retirer un seul grain de poussière faisait s'effondrer toute la structure ou la transformer en un château complètement différent.
  • L'attaque "Poison" : Les auteurs ont montré qu'en ajoutant un seul point mal placé au milieu de vos données (un "point empoisonné"), on peut détruire la structure de groupes. Des données qui formaient deux groupes clairs peuvent soudainement ressembler à une seule grosse boule informe.
  • La leçon : Si vous changez légèrement vos données (ou si vous avez un bruit de fond), le résultat de t-SNE peut être totalement différent. C'est dangereux pour la prise de décision.

3. Le Mensonge des "Outliers" (Les intrus invisibles)

Le problème : Vous avez un point très bizarre, très loin de tout le monde (un fraudeur dans un jeu de données bancaires, par exemple). Vous espérez le voir tout seul sur le graphique.
La réalité : t-SNE va le "forcer" à se fondre dans la foule.

  • L'analogie : Imaginez un grand bal. Il y a 1000 personnes qui dansent en groupe. Soudain, un extraterrestre arrive, très loin de la piste de danse.
    • PCA (un autre outil) : L'extraterrestre resterait tout seul, bien visible, loin de tout le monde.
    • t-SNE : t-SNE est comme un organisateur de bal obsédé par le fait que "tout le monde doit se tenir la main". Il va attraper l'extraterrestre et le coller au bord de la piste de danse, en lui disant : "Viens, tiens la main de ce groupe, on ne veut pas de solitaires ici !".
  • Ce que prouvent les auteurs : Ils ont prouvé que t-SNE a une limite mathématique : il ne peut jamais montrer un point comme étant "très, très loin". Il va toujours essayer de le rapprocher de quelqu'un, même si c'est faux.
  • La leçon : Si vous cherchez des anomalies (fraudes, erreurs, cas rares), ne utilisez pas t-SNE. Il cachera vos intrus au sein des groupes normaux.

🏁 En résumé : Que faut-il retenir ?

Ce papier ne dit pas que t-SNE est inutile. Il dit qu'il faut faire très attention à comment on l'utilise et comment on lit ses résultats.

  1. Ne confiez pas tout à la distance : Si deux groupes sont loin sur le graphique, ce n'est pas une preuve qu'ils sont loin dans la réalité.
  2. Méfiez-vous des détails : Un tout petit changement dans vos données peut changer tout le dessin.
  3. Oubliez-le pour les anomalies : Si vous cherchez des points bizarres, t-SNE va les cacher. Utilisez d'autres outils (comme la PCA) pour cela.

La conclusion des auteurs : t-SNE est un outil magnifique pour explorer des données et trouver des idées, mais il ne faut jamais le prendre comme une vérité absolue ou une preuve scientifique. C'est une carte dessinée par un artiste, pas un relevé topographique précis.

Recevez des articles comme celui-ci dans votre boîte mail

Digests quotidiens ou hebdomadaires personnalisés selon vos intérêts. Résumés Gist ou techniques, dans votre langue.

Essayer Digest →