t-SNE Exaggerates Clusters, Provably

Questo articolo dimostra che, contrariamente alla convinzione diffusa, l'algoritmo t-SNE esagera le strutture a cluster e rende inaffidabile l'interpretazione della forza dei raggruppamenti o della natura dei punti anomali presenti nei dati di input.

Noah Bergam, Szymon Snoeck, Nakul Verma

Pubblicato 2026-03-03
📖 4 min di lettura☕ Lettura da pausa caffè

Each language version is independently generated for its own context, not a direct translation.

🎨 Il "Filtro Instagram" che mente: Perché il t-SNE inganna i nostri occhi

Immagina di avere una stanza piena di persone. Alcune sono amici stretti che ridono insieme (i cluster), altre sono estranei che stanno in disparte, e c'è anche un tizio che è così fuori posto da sembrare un alieno (un outlier).

Il t-SNE è uno strumento informatico molto famoso che serve a prendere questa stanza affollata e a proiettarla su un foglio di carta (o uno schermo) in modo che possiamo vederla tutta insieme. L'idea è: "Se due persone sono vicine nella stanza, dovrebbero essere vicine anche sul foglio. Se sono lontane, devono esserlo anche lì."

Tutti pensavano che questo strumento fosse onesto, come una mappa fedele. Questo paper dice: "No, non è così. Il t-SNE è un mago che fa trucchi di prestigio e spesso mente."

Ecco i due grandi trucchi che ha scoperto:

1. Il Trucco del "Gruppo Finto" (L'Esagerazione dei Cluster)

Immagina di avere due gruppi di persone nella stanza.

  • Scenario A: I due gruppi sono separati da un muro alto 10 metri. Sono chiaramente divisi.
  • Scenario B: I due gruppi sono mescolati, si toccano quasi, c'è un caos totale.

Il paper dimostra che il t-SNE può disegnare esattamente lo stesso disegno per entrambi gli scenari! Sul foglio vedrai due palline perfette e separate, anche se nella realtà le persone erano tutte mischiate.

L'analogia: È come se avessi un filtro per le foto che rende sempre i capelli più voluminosi. Se hai i capelli lisci o arruffati, il filtro li rende tutti ugualmente "gonfi". Se vedi una foto con i capelli gonfi, non puoi sapere se la persona aveva i capelli lisci o arruffati prima del filtro. Il t-SNE prende dati che non hanno struttura e crea una struttura bellissima e ordinata dal nulla. Non puoi fidarti di quanto siano "forti" i gruppi che vedi.

2. Il Trucco dell'"Intruso Invisibile" (Gli Outlier)

Ora immagina che nella stanza ci sia un tizio vestito da alieno, lontanissimo da tutti gli altri.

  • La realtà: L'alieno è a 100 metri da tutti.
  • Il disegno del t-SNE: L'alieno finisce per essere schiacciato dentro il gruppo principale, o comunque molto vicino agli altri, come se fosse uno di loro.

Il t-SNE ha un "piede di porco" matematico che lo spinge a non lasciare nessuno troppo isolato. Se un punto è troppo lontano, il t-SNE lo trascina indietro nel gruppo per non "sporcarsi" il disegno.

L'analogia: È come un genitore che, quando porta i figli al parco, tiene sempre la mano del bambino più timido per non perderlo. Anche se il bambino vuole correre lontano, il genitore lo tiene vicino. Il t-SNE fa lo stesso: tiene gli "stranieri" (gli outlier) vicini alla folla, nascondendo il fatto che in realtà erano pericolosamente lontani.

3. Il "Punto Veleno" (L'Attacco Adversarial)

C'è un altro dettaglio spaventoso. Il paper mostra che basta aggiungere un solo punto sbagliato (chiamato "punto veleno") in mezzo ai dati per distruggere completamente il disegno.
Se metti un punto esattamente al centro della stanza, il t-SNE può smettere di vedere i gruppi e disegnare tutto come una grande macchia informe.

L'analogia: È come se in una partita a calcio, un solo arbitro che si siede al centro del campo potesse far credere che non ci siano due squadre, ma solo un gruppo di persone che corrono a caso. Basta un piccolo inganno per far crollare l'intera interpretazione.

🧐 Cosa dobbiamo imparare da tutto questo?

Il messaggio finale del paper è: "Prendi le visualizzazioni del t-SNE con le pinze".

  1. Non fidarti ciecamente: Se vedi due cerchi perfetti, non significa che i dati siano così separati. Potrebbero essere un caos totale.
  2. Non cercare i "cattivi": Se stai cercando frodi o dati anomali (outlier), il t-SNE è lo strumento sbagliato. Li nasconderà nel gruppo.
  3. È un'arte, non una scienza esatta: Il t-SNE è fantastico per esplorare dati e trovare possibili idee, ma non è una prova matematica della realtà. È come guardare un quadro impressionista: è bello e ti dà un'idea, ma non è una fotografia fedele.

In sintesi: il t-SNE è un artista che ama le forme belle e ordinate, anche a costo di mentire sulla realtà dei dati. Sta a noi, scienziati e analisti, non farsi abbagliare dalla bellezza del disegno.

Ricevi articoli come questo nella tua casella di posta

Digest giornalieri o settimanali personalizzati in base ai tuoi interessi. Riassunti Gist o tecnici, nella tua lingua.

Prova Digest →