t-SNE Exaggerates Clusters, Provably

Each language version is independently generated for its own context, not a direct translation.

🗺️ 핵심 내용: "지도는 현실을 왜곡할 수 있다"

우리가 t-SNE 를 사용하는 이유는 고차원 (복잡한) 데이터를 2 차원 (평면) 지도로 그려서 **무리 (Cluster)**를 찾기 위함입니다. 예를 들어, "이 사람들은 모두 같은 취향을 가진 그룹이야"라고 눈으로 확인하고 싶을 때 쓰죠.

하지만 이 논문은 **"지도에 무리가 뚜렷하게 그려져 있다고 해서, 실제 데이터가 그렇게 뭉쳐 있는 건 아닐 수도 있다"**고 경고합니다. 반대로 **"실제로 뭉쳐 있는 데이터도 지도에서는 뭉개져 보일 수 있다"**고도 말합니다.

1. "가짜 무리"를 만드는 마법 (과장된 군집)

비유: "모두가 서로 1km 떨어져 있는 마을을 지도에 그리면?"

상황: imagine 하세요. 100 명의 사람들이 서로 아주 멀리 떨어져서 (1km 씩) 흩어져 있는 광활한 평야에 있다고 합시다. 서로 친한 친구도, 같은 취향의 그룹도 전혀 없습니다. (데이터상 군집이 없음)
t-SNE 의 행동: 그런데 t-SNE 가 이 지도를 그릴 때, 마치 마법처럼 그 사람들을 두 개의 뚜렷한 마을로 나누어 그립니다. 지도를 보는 사람은 "아! 저 두 마을은 확실히 다른 그룹이구나!"라고 착각하게 됩니다.
논문이 증명한 것: t-SNE 는 입력된 데이터가 아무리 흩어져 있어도, 지도상에서는 완벽한 무리를 만들어낼 수 있습니다. 즉, 지도에서 무리가 보인다고 해서 "실제 데이터가 그렇게 뭉쳐 있다"고 믿으면 안 된다는 뜻입니다.

2. "진짜 무리"를 지워버리는 독약 (단 한 점의 파괴)

비유: "친구 모임에 낯선 사람이 하나 끼어들면?"

상황: 1,000 명의 사람들이 두 개의 명확한 그룹 (A 팀, B 팀) 으로 나뉘어 즐겁게 대화하고 있습니다.
t-SNE 의 행동: 이때, 단 한 명의 '독약 (Poison Point)' 같은 사람이 모임 한가운데에 끼어듭니다. 이 사람은 A 팀과 B 팀 모두와 거리가 비슷하게 떨어져 있습니다.
결과: 놀랍게도 t-SNE 가 그리는 지도에서는 A 팀과 B 팀의 구분이 완전히 사라집니다. 모든 사람들이 이 낯선 사람 주위로 뭉쳐버리거나, 원래의 그룹 구조가 완전히 무너져 보입니다.
논문이 증명한 것: 데이터에 단 한 개의 이상한 점만 추가되어도, t-SNE 는 원래의 중요한 구조를 완전히 망가뜨릴 수 있습니다. 이는 t-SNE 가 매우 불안정하다는 뜻입니다.

3. "외톨이"를 숨기는 능력 (이상치 은폐)

비유: "거대한 성단 옆에 있는 외로운 별"

상황: 수만 개의 별이 모여 거대한 성단 (군집) 을 이루고 있는데, 그로부터 아주 멀리 떨어진 곳에 외로운 별 하나가 떠 있습니다. (이것은 데이터에서 '사기 거래'나 '이상 징후' 같은 중요한 정보일 수 있습니다.)
t-SNE 의 행동: t-SNE 가 이 지도를 그릴 때, 그 외로운 별을 성단에서 아주 멀리 떼어놓지 않습니다. 오히려 성단의 가장자리에 붙여놓거나, 성단 안으로 끌어당겨서 마치 그 별도 성단의 일부인 것처럼 보여줍니다.
논문이 증명한 것: t-SNE 는 극단적으로 멀리 떨어진 데이터 (이상치) 를 제대로 표현하지 못합니다. 사기 거래를 찾아야 하는데, t-SNE 를 쓰면 사기꾼들이 정상 고객들 속에 섞여 있는 것처럼 보일 수 있어 위험합니다.

4. 왜 이런 일이 일어날까? (원인)

논문은 t-SNE 가 이런 일을 하는 두 가지 이유를 찾았습니다.

거리의 '상대적 순위'만 믿고, '절대적 거리'는 무시함:
- t-SNE 는 "A 와 B 가 C 보다 더 가깝다"는 순서만 중요하게 여깁니다. "A 와 B 가 10m 떨어져 있고, C 와는 100m 떨어져 있다"는 절대적인 거리는 중요하지 않습니다. 그래서 실제 거리가 아무리 멀어도, 순서만 비슷하면 지도에서는 뭉쳐 보일 수 있습니다.
지도 그리기 방식의 불균형:
- 입력 데이터에서는 '가까운 이웃'만 중요하게 보지만, 출력 지도에서는 '가까운 이웃'뿐만 아니라 '조금 더 먼 이웃'까지 모두 끌어당기는 성질이 있습니다. 이 때문에 멀리 떨어진 이상치도 성단 안으로 끌려 들어가는 것입니다.

💡 결론: 우리는 어떻게 해야 할까?

이 논문은 **"t-SNE 는 훌륭한 도구이지만, 맹신하면 안 된다"**고 말합니다.

지도에 무리가 보인다고 해서: "아, 우리 데이터가 정말 잘 뭉쳐 있구나!"라고 생각하지 마세요. (가짜 무리일 수 있습니다.)
지도에 이상한 점이 안 보인다고 해서: "우리 데이터에 사기나 오류가 없구나!"라고 생각하지 마세요. (사실은 숨겨져 있을 수 있습니다.)
단 한 개의 이상한 데이터만으로도: 전체 그림이 뒤바뀔 수 있으니, 데이터 전처리와 검증에 더 신경 써야 합니다.

한 줄 요약:

t-SNE 가 그려주는 아름다운 지도는 '현실'이 아니라, '데이터의 일부 특징을 과장하거나 생략한 예술작품'일 뿐입니다. 그 그림을 볼 때는 항상 "이게 진짜일까?"라고 의심하며 다른 도구 (예: PCA) 와 비교해 보는 것이 현명합니다.

Each language version is independently generated for its own context, not a direct translation.

1. 문제 제기 (Problem)

t-SNE 는 고차원 데이터의 클러스터 구조를 시각화하는 데 필수적인 도구로 자리 잡았습니다. 기존 연구들은 "잘 분리된 클러스터가 있는 입력 데이터는 t-SNE 를 통해 잘 분리된 클러스터로 시각화된다"는 것을 증명했습니다 (True Positive 보장).

그러나 **거짓 양성 (False Positive)**과 **거짓 음성 (False Negative)**에 대한 이론적 분석은 부재했습니다.

거짓 양성: 입력 데이터에 클러스터가 없거나 약하게 분리되어 있음에도 불구하고, t-SNE 가 뚜렷한 클러스터로 시각화하는 경우.
거짓 음성: 입력 데이터에 명확한 클러스터나 극단적인 이상치가 있음에도 불구하고, t-SNE 가 이를 숨기거나 왜곡하는 경우.

이러한 왜곡은 과학적 가설 생성, 실험 설계, 결론 도출에 심각한 오류를 초래할 수 있습니다.

2. 방법론 (Methodology)

저자들은 t-SNE 의 수학적 최적화 문제와 그 성질을 분석하여 다음과 같은 접근을 취했습니다.

t-SNE 의 수학적 모델: 입력 데이터 $X$ 와 임베딩 $Y$ 사이의 조건부 확률 분포 (Affinity) $P$ 와 $Q$ 간의 KL 발산 (KL-divergence) 을 최소화하는 과정을 분석했습니다.
거리 불변성 (Invariance) 분석: t-SNE 가 입력 거리의 가법적 (additive) 및 승법적 (multiplicative) 변환에 대해 불변임을 증명했습니다. 즉, 모든 점 쌍의 거리에 상수 $C$ 를 더하거나 스케일을 변경해도 t-SNE 의 정적점 (stationary point) 이 변하지 않습니다.
적대적 공격 (Adversarial Attack): 이 불변성 성질을 이용하여, 원본 데이터와 시각화 결과는 동일하지만 실제 거리 기반 클러스터링 지표 (Silhouette score 등) 는 완전히 다른 '가짜 (Impostor)' 데이터셋을 구성했습니다.
이상치 분석: t-SNE 의 출력 Affinity 행렬이 입력과 비대칭적 (Asymmetric) 인 특성을 분석하여, 극단적으로 멀리 떨어진 점 (이상치) 이 시각화에서 어떻게 억제되는지 증명했습니다.

3. 주요 기여 및 결과 (Key Contributions & Results)

A. 클러스터 중요도의 왜곡 (Misrepresentation of Cluster Salience)

정리 3 (Theorem 3) 및 Corollary 4: 완전히 분리된 클러스터를 가진 데이터와 거의 분리되지 않은 (약한) 클러스터를 가진 데이터가 동일한 t-SNE 시각화를 생성할 수 있음을 증명했습니다.
- 즉, t-SNE 그래프에서 뚜렷한 클러스터를 보더라도, 그것이 입력 데이터의 실제 클러스터 강도를 반영하는지 알 수 없습니다.
- 실험 결과: PBMC3k(단일 세포 유전체) 데이터셋을 사용하여, 실제 데이터와 시각적으로 구별 불가능하지만 클러스터 분리도가 극도로 낮은 '가짜 데이터셋'을 생성하여 이를 입증했습니다.

B. 입력의 미세한 변화에 대한 불안정성 (Instability)

정리 5 (Theorem 5): 입력 데이터의 거리 행렬을 아주 미세하게 ( $\epsilon$ ) 변경하는 것만으로도 t-SNE 시각화는 완전히 다른 형태 (예: 정규 심플렉스 근처의 데이터에서 다양한 클러스터 형태) 로 바뀔 수 있음을 보였습니다.
단일 점 삽입 공격 (Poison Point Attack):
- 정리 7 (Theorem 7): 고차원 데이터 (예: 두 개의 가우시안 혼합) 에 **단 하나의 '독 (Poison) 점'**을 추가하는 것만으로도, 명확한 클러스터 구조가 완전히 무너진 시각화를 생성할 수 있습니다.
- 이 점은 데이터의 평균 위치에 배치되어 대부분의 점들의 '가장 가까운 이웃'이 되게 하여, t-SNE 가 실제 클러스터 관계보다 이 독 점과의 관계를 우선시하도록 만듭니다.

C. 이상치의 억제 (Misrepresentation of Outliers)

정리 9 (Theorem 9): 어떤 입력 데이터가 있더라도, t-SNE 의 정적점 (stationary output) 은 극단적인 이상치를 표현할 수 없습니다.
- 수학적으로 증명된 바에 따르면, t-SNE 출력에서의 이상치 지표 ( $\alpha$ ) 는 약 3.266 을 넘을 수 없습니다.
- 실험 결과: 금융 사기 탐지 데이터나 합성 데이터에서, PCA 는 이상치를 명확히 분리해 내는 반면, t-SNE 는 이상치를 주된 클러스터 구조 내부로 흡수하거나 가장자리에 밀착시켜 마치 정상 데이터인 것처럼 보이게 합니다.
- 이는 t-SNE 가 이상치 탐지 (Outlier Detection) 에는 부적합한 도구임을 의미합니다.

4. 의의 및 결론 (Significance & Conclusion)

이론적 한계 규명: t-SNE 가 단순히 "잘 작동하는" 도구가 아니라, 입력 데이터의 거리 정보를 왜곡하여 클러스터 강도와 이상치의 존재를 숨기거나 과장할 수 있는 구조적 결함을 가짐을 수학적으로 증명했습니다.
실무적 경고:
- t-SNE 시각화에서 보이는 클러스터의 밀도나 분리는 입력 데이터의 실제 구조를 직접적으로 추론할 수 없습니다.
- t-SNE 는 이상치 탐지 목적에는 사용해서는 안 되며, 오히려 이상치를 숨길 위험이 큽니다.
- 단일 점의 추가나 미세한 노이즈가 시각화 결과를 완전히 뒤바꿀 수 있으므로, 결과 해석에 신중을 기해야 합니다.
향후 연구: 이러한 실패 모드 (failure modes) 가 UMAP 등 다른 차원 축소 기법에도 적용될 수 있음을 시사하며, 시각화에서 "무엇을 증명적으로 추론할 수 있는가"에 대한 근본적인 질문을 던집니다.

요약하자면, 이 논문은 t-SNE 가 시각적으로 매력적인 클러스터를 생성할 수 있지만, 그 생성된 구조가 입력 데이터의 실제 통계적, 기하학적 속성 (클러스터 강도, 이상치) 을 신뢰할 수 있게 반영하지 못함을 이론적으로 증명하여, 데이터 과학자들이 t-SNE 결과를 해석할 때 각별한 주의가 필요함을 경고합니다.

t-SNE Exaggerates Clusters, Provably

🗺️ 핵심 내용: "지도는 현실을 왜곡할 수 있다"

1. "가짜 무리"를 만드는 마법 (과장된 군집)

2. "진짜 무리"를 지워버리는 독약 (단 한 점의 파괴)

3. "외톨이"를 숨기는 능력 (이상치 은폐)

4. 왜 이런 일이 일어날까? (원인)

💡 결론: 우리는 어떻게 해야 할까?

1. 문제 제기 (Problem)

2. 방법론 (Methodology)

3. 주요 기여 및 결과 (Key Contributions & Results)

A. 클러스터 중요도의 왜곡 (Misrepresentation of Cluster Salience)

B. 입력의 미세한 변화에 대한 불안정성 (Instability)

C. 이상치의 억제 (Misrepresentation of Outliers)

4. 의의 및 결론 (Significance & Conclusion)

유사한 논문

A Benchmark of Classical and Deep Learning Models for Agricultural Commodity Price Forecasting on A Novel Bangladeshi Market Price Dataset

Probabilistic Language Tries: A Unified Framework for Compression, Decision Policies, and Execution Reuse

FLeX: Fourier-based Low-rank EXpansion for multilingual transfer

Spectral Edge Dynamics Reveal Functional Modes of Learning

S3S^3S3: Stratified Scaling Search for Test-Time in Diffusion Language Models

$S^3$ : Stratified Scaling Search for Test-Time in Diffusion Language Models