On the continuum limit of t-SNE for data visualization

Each language version is independently generated for its own context, not a direct translation.

🎨 t-SNE 란 무엇인가요? (우주 여행 지도 그리기)

상상해 보세요. 여러분은 100 차원이라는 아주 복잡한 우주에 살고 있는 수만 명의 우주인 (데이터) 들을 2 차원 평면 (종이) 에 그려 넣어야 합니다. 이 우주인들은 서로 친한 친구들끼리 모여 있고, 낯선 사람들과는 멀리 떨어져 있습니다.

t-SNE는 이 우주인들을 종이 위에 그려 넣을 때, "친구끼리는 가까이 붙이고, 낯선 사람끼리는 멀리 떨어뜨리는" 지도를 만들어주는 도구입니다. 우리는 이 지도를 보면 데이터가 어떤 그룹 (클러스터) 으로 나뉘어 있는지 한눈에 알 수 있습니다.

하지만 문제는, 이 도구가 왜 그렇게 작동하는지, 그리고 데이터가 무한히 많아지면 (우주인이 수조 명이 되면) 지도가 어떻게 변할지 수학적으로 정확히 설명하기 어렵다는 점입니다. 이 논문은 바로 그 '수학적 비밀'을 밝혀낸 것입니다.

⚖️ 두 가지 힘: 당기는 힘과 밀어내는 힘

t-SNE 가 지도를 그릴 때 두 가지 힘의 균형을 맞추고 있습니다. 이 논문은 이 두 힘을 연속적인 물리 법칙으로 해석했습니다.

당기는 힘 (Attraction): 친구 (유사한 데이터) 끼리는 서로 끌어당깁니다.
- 비유: 마치 자석의 N 극과 S 극이 서로 붙으려는 힘입니다.
밀어내는 힘 (Repulsion): 낯선 사람 (서로 다른 데이터) 끼리는 서로 밀어냅니다.
- 비유: 사람이 너무 많이 모이면 서로 밀쳐서 공간이 확보되려는 힘입니다.

이 논문은 데이터의 개수가 무한히 많아지면, 이 두 힘이 어떻게 작용하는지 연속적인 에너지 공식으로 바꿨습니다.

🌊 1 차원 세계 (선) vs 고차원 세계 (공간)

논문의 가장 흥미로운 발견은 **차원 (Dimension)**에 따라 결과가 완전히 달라진다는 것입니다.

1. 1 차원 세계 (선 위의 점들)

상황: 우주인들을 일렬로 줄을 서게 하는 상황입니다.
결과: 수학적으로 **완벽한 해답 (최적의 지도)**이 하나뿐입니다.
비유: 선 위에 점들을 배치할 때, 친구끼리 붙이고 낯선 사람끼리 떨어뜨리는 가장 자연스러운 방법이 딱 하나만 존재한다는 뜻입니다. 이 경우 t-SNE 는 매우 예측 가능하게 작동합니다.

2. 고차원 세계 (실제 2 차원, 3 차원 공간)

상황: 우리가 실제로 사용하는 종이나 3D 공간에 지도를 그리는 상황입니다.
결과: 해답이 존재하지 않습니다! (수학적으로 '잘 정의되지 않음'이라고 합니다).
비유:
- 종이 위에 우주인들을 배치할 때, t-SNE 는 **무한히 많은 작은 구멍 (미세 구조)**을 만들어내며 공간을 찢어버립니다.
- 마치 프랙탈처럼, 끝없이 잘게 쪼개지면서 에너지가 낮아지는 상태를 만듭니다.
- 수학적으로 말하면, "최적의 지도"라는 것이 존재하지 않고, 계속 잘게 쪼개지는 과정만 존재한다는 것입니다.
- 왜 그럴까요? t-SNE 의 '당기는 힘'이 너무 약해서, 지도를 찢어놓아도 (불연속적으로 만들어도) 에너지를 줄일 수 있기 때문입니다.

🧩 왜 t-SNE 는 이상한 모양을 만들까요?

우리가 t-SNE 를 쓸 때, 가끔 데이터가 없는 곳에 갑자기 새로운 그룹이 생기거나, 지도가 이상하게 찢어지는 것을 봅니다.

이유: 이 논문은 이것이 단순한 버그가 아니라, t-SNE 의 본질적인 성질이라고 말합니다.
비유: t-SNE 는 지도를 그릴 때 "부드러운 종이"를 사용하는 것이 아니라, **"접착제가 약한 종이"**를 사용합니다. 그래서 지도를 그리는 과정에서 종이 자체가 찢어지거나 (불연속), 아주 미세하게 구겨지는 현상이 발생합니다.
이 논문은 t-SNE 가 왜 그런 '아름다운 혼란'을 만들어내는지, 그리고 그背后에 숨겨진 수학적 법칙이 무엇인지를 설명해 줍니다.

📉 Perona-Malik 방정식과의 연결 (이미지 노이즈 제거)

이 논문은 t-SNE 의 수학적 구조가 **이미지 노이즈 제거 (Denoising)**에 쓰이는 유명한 'Perona-Malik' 방정식과 매우 비슷하다고 지적합니다.

비유: 사진의 노이즈를 제거할 때, 부드러운 부분은 매끄럽게 하고, 경계선 (예: 눈과 피부의 경계) 은 날카롭게 유지하는 기술이 있습니다.
t-SNE 도 비슷하게, 데이터의 **경계 (그룹 사이)**는 날카롭게 찢어지게 만들고, 그룹 내부는 부드럽게 묶어줍니다.
하지만 이 기술은 수학적으로 매우 불안정 (Ill-posed) 하여, 이론적으로는 해가 없거나 무한히 많은 해가 나올 수 있습니다. t-SNE 가 실제로 작동하는 것은 이 불안정성을 '그라디언트 하강 (Gradient Descent)'이라는 방법으로 우회해서 해결하기 때문입니다.

💡 결론: 이 연구가 우리에게 주는 메시지

t-SNE 는 마법 같은 도구가 아닙니다: 그 뒤에는 복잡한 수학적 원리가 숨어 있으며, 특히 데이터가 많아질수록 지도가 어떻게 변할지 예측할 수 있는 '연속적인 법칙'을 발견했습니다.
왜 t-SNE 가 이상한 모양을 만드는가: 고차원 공간에서는 '최적의 지도'가 존재하지 않기 때문에, t-SNE 는 데이터를 잘게 쪼개는 (미세 구조를 만드는) 방식으로 에너지를 최소화합니다. 이것이 우리가 보는 '아름다운 군집'의 실체입니다.
미래의 방향: 이 연구를 통해 t-SNE 의 한계를 이해하고, 더 나은 시각화 도구를 만들거나, t-SNE 의 결과를 더 정확하게 해석하는 데 도움을 줄 수 있습니다.

한 줄 요약:

"t-SNE 는 데이터를 시각화할 때, 친구끼리는 붙이고 낯선 사람끼리는 밀어내지만, 데이터가 너무 많으면 지도가 스스로 찢어지고 구겨지는 '불안정한 예술'을 만들어냅니다. 이 논문은 그 불안정함의 수학적 원인을 밝혀냈습니다."

Each language version is independently generated for its own context, not a direct translation.

1. 연구 배경 및 문제 제기 (Problem)

t-SNE 의 이론적 한계: t-Distributed Stochastic Neighbor Embedding (t-SNE) 은 고차원 데이터를 저차원 (보통 2 차원 또는 3 차원) 으로 시각화하기 위해 널리 사용되는 알고리즘입니다. 그러나 이 알고리즘은 경험적으로 매우 효과적이지만, 수학적 이론적 기반은 여전히 미흡한 상태입니다. 특히, 데이터 포인트 수 ( $n$ ) 가 무한대로 커질 때 ( $n \to \infty$ ) 알고리즘의 행동이 어떻게 되는지, 그리고 시각화 결과가 재현 가능한지 (reproducible) 에 대한 질문은 명확히 해결되지 않았습니다.
수렴성 (Consistency) 의 부재: 기존 연구들은 t-SNE 가 특정 매개변수 영역 (예: 매우 큰 perplexity) 에서 큰 데이터 극한을 가지거나, t-SNE 에너지의 수정된 형태에 대한 연속 극한을 제시한 바 있습니다. 그러나 일반적인 희소 그래프 (sparse graph) 설정에서 t-SNE 에너지가 어떤 연속적인 변분 문제 (variational problem) 로 수렴하는지에 대한 엄밀한 분석은 부족했습니다.
핵심 질문: 데이터 포인트의 수가 무한히 증가하고 그래프 대역폭 (bandwidth) 이 0 으로 수렴할 때, t-SNE 의 Kullback-Leibler (KL) 발산은 어떤 연속적인 에너지 함수로 수렴하며, 이 에너지 함수의 최소화자 (minimizer) 는 존재하는가?

2. 방법론 (Methodology)

저자들은 t-SNE 알고리즘의 이산적 에너지 (discrete energy) 를 연속 극한 (continuum limit) 으로 유도하기 위해 다음과 같은 수학적 도구를 사용했습니다.

스케일링 (Scaling) 분석:
- 데이터 포인트 수 $n \to \infty$ 및 대역폭 $h \to 0$ 극한에서 KL 발산을 분석하기 위해 임베딩 맵 $T$ 에 대한 적절한 스케일링 ( $h^{-1}$ 또는 그 이상) 을 도입했습니다.
- 인력 (attraction) 과 반발력 (repulsion) 항의 스케일링 거동을 분리하여 분석했습니다. 인력은 로컬 이웃 정보를, 반발력은 전역적인 분포를 반영합니다.
비국소적 에너지에서 연속 에너지로의 수렴:
- 이산적인 t-SNE 에너지를 비국소적 (nonlocal) 에너지로 근사한 후, $h \to 0$ 극한을 취하여 연속적인 변분 에너지 함수를 유도했습니다.
- 인력 항 (Attraction): Jacobian 행렬 $DT $의 로그 함수 형태 ($ \log |DT|$) 로 수렴하며, 이는 Perona-Malik 방정식과 유사한 비볼록 (non-convex) 특성을 가집니다.
- 반발력 항 (Repulsion): 임베딩된 데이터의 확률 밀도 함수 $\rho_Y$ 의 $L^2$ 노름 (또는 $m \ge 3$ 인 경우 Riesz 잠재력) 에 대한 로그 항으로 수렴합니다. 이는 데이터 포인트들이 시각화 공간에서 뻗어 나가도록 (spread out) 하는 역할을 합니다.
차원별 분석:
- 1 차원 ( $d=m=1$ ): 에너지의 특수한 구조를 이용하여 오일러 - 라그랑주 (Euler-Lagrange) 방정식을 분석하고 최소화자의 존재성과 유일성을 증명했습니다.
- 고차원 ( $d > m$ ): 에너지의 비볼록성과 하위 선형성 (sublinearity) 을 이용하여 최소화자가 존재하지 않음을 보였습니다 (마이크로 구조 형성).

3. 주요 기여 및 결과 (Key Contributions & Results)

가. 연속 극한 에너지의 유도 (Continuum Limit Energy)

t-SNE 의 KL 발산은 자연스러운 공간 스케일링 후 다음과 같은 연속 에너지 $E_{t-SNE}[T]$ 로 수렴함을 증명했습니다 (임베딩 차원 $m=2$ 인 경우):

$E_{t-SNE}[T] = \int_{\Omega} \left( - \fint_{\partial B_1} \log(|DT(x)w|^2) dS(w) \right) \rho_X dx + \log \left( \|\rho_Y\|_{L^2(\mathbb{R}^m)}^2 \right) + C$

첫 번째 항 (인력): Jacobian 의 크기에 대한 로그 함수입니다. 이는 t-SNE 의 인력 메커니즘의 연속 극한이며, Perona-Malik 에너지와 유사하여 비볼록하고 하위 선형 성장을 보입니다.
두 번째 항 (반발력): 시각화 공간의 확률 밀도 $\rho_Y$ 의 $L^2$ 노름에 대한 로그입니다. 이는 데이터가 시각화 공간에 고르게 퍼지도록 (crowding 문제 해결) 유도합니다.
SNE 와의 비교: 원래 SNE 알고리즘은 인력 항이 $|DT|^2$ (Dirichlet 에너지) 형태를 가지므로 조화 함수 (harmonic function) 를 선호하여 클러스터가 뭉치는 경향이 있습니다. 반면 t-SNE 는 로그 성장으로 인해 불연속성을 허용하여 클러스터 분리가 용이합니다.

나. 1 차원에서의 잘 정의됨 (Well-posedness in 1D)

존재성과 유일성: 데이터 차원 $d$ 와 임베딩 차원 $m$ 이 모두 1 인 경우, Lipschitz 연속인 매끄러운 최소화자가 유일하게 존재함을 증명했습니다.
불연속 최소화자: 그러나 에너지 함수가 불연속적인 섭동에 대해 민감하지 않기 때문에, "완화된 (relaxed)" 의미에서는 무수히 많은 불연속 최소화자도 존재합니다. 이는 t-SNE 가 데이터를 임의의 방식으로 "자르거나" (cut) 불연속적인 매핑을 생성할 수 있다는 경험적 관찰과 일치합니다.
수치 실험: 1 차원 설정에서 이산적 t-SNE 해가 유도된 연속 극한 방정식의 해와 잘 일치함을 수치적으로 확인했습니다.

다. 고차원에서의 최소화자 부재 (Nonexistence in Higher Dimensions)

미세 구조 (Microstructure) 의 형성: $d > m$ (실제적인 차원 축소 상황) 인 경우, 연속 에너지는 최소화자를 갖지 않습니다.
이유: 인력 항의 하위 선형성 (sublinearity) 때문에, 도메인을 매우 얇은 스트립으로 잘라내어 (cutting) 이미지를 무한히 늘리는 (spreading) 방식으로 에너지를 $-\infty$ 로 만들 수 있습니다. 이는 t-SNE 가 실제 데이터에서 관찰되는 미세 구조 (microstructure) 나 과도한 분할 현상을 설명합니다.
비국소 에너지의 역할: 이산적 t-SNE 에너지나 비국소적 에너지 ( $h > 0$ ) 는 이러한 잘라내기 (cutting) 에 대해 민감하게 반응하여 에너지를 증가시키므로, 유한한 $h$ 에서는 최소화자가 존재할 가능성이 있습니다. 이는 $h \to 0$ 극한에서의 특이 섭동 (singular perturbation) 문제를 시사합니다.

라. Perona-Malik 방정식과의 연관성

유도된 인력 항은 이미지 노이즈 제거에 사용되는 Perona-Malik 방정식과 수학적으로 밀접하게 관련되어 있습니다. Perona-Malik 방정식이 잘 정의되지 않음 (ill-posedness) 으로 알려져 있음에도 불구하고, t-SNE 는 이를 통해 효과적인 시각화를 수행한다는 점을 이론적으로 뒷받침합니다.

4. 의의 및 결론 (Significance & Conclusion)

이론적 토대 마련: t-SNE 와 같은 비선형 차원 축소 알고리즘에 대해 처음으로 엄밀한 연속 극한 이론을 제시했습니다.
알고리즘 동작의 해석: t-SNE 가 왜 클러스터를 형성하고, 왜 하이퍼파라미터에 따라 결과가 달라지며, 왜 때로는 불연속적인 매핑을 생성하는지에 대한 수학적 설명을 제공합니다.
한계와 향후 과제:
- $d > m$ 인 경우 연속 극한 에너지가 최소화자를 갖지 않으므로, 실제 t-SNE 가 수렴하는 대상이 무엇인지에 대한 추가 연구가 필요합니다.
- 이산적 해가 연속 극한 해로 수렴하는지 (convergence of minimizers) 에 대한 질문은 여전히 열려 있습니다.
- UMAP 등 t-SNE 의 변형 알고리즘들에 대한 연속 극한 분석이 필요합니다.

이 논문은 t-SNE 의 "블랙박스"적인 성격을 수학적 언어로 해부하여, 알고리즘의 성공과 한계를 에너지 함수의 구조적 특성 (비볼록성, 하위 선형성, 차원 의존성) 으로 설명했다는 점에서 데이터 과학 및 응용 수학 분야에서 중요한 기여를 합니다.