원저자: Mathis Gerdes, Miranda C. N. Cheng

게시일 2026-06-11

📖 4 분 읽기🧠 심층 분석

원저자: Mathis Gerdes, Miranda C. N. Cheng

원본 논문은 CC BY 4.0 (http://creativecommons.org/licenses/by/4.0/) 라이선스로 제공됩니다. ✨ 이것은 아래 논문에 대한 AI 생성 설명입니다. 저자가 작성하거나 승인한 것이 아닙니다. 기술적 정확성을 위해서는 원본 논문을 참조하세요. 전체 면책 조항 읽기

당신이 엉망진창인 빨래 더미(복잡한 데이터 분포)를 깔끔하고 표준적인 여행 가방(종 모양 곡선과 같은 단순하고 알려진 형태)에 담으려고 노력하고 있다고 상상해 보세요. 이를 위해 당신은 옷을 찢거나 조각을 잃어버리지 않으면서도 접고, 늘리고, 비틀 수 있는 일련의 규칙이 필요합니다. 머신러닝의 세계에서 이 규칙들은 **노멀라이징 플로우(Normalizing Flows)**라고 불립니다.

가장 큰 과제는 다음과 같은 완벽한 "접기 규칙"(수학적 함수)을 찾는 것입니다:

매끄러움(Smooth): 날카로운 모서리나 울퉁불퉁한 가장자리가 없어야 합니다.
가역성(Reversible): 옷을 원래 상태로 완벽하게 다시 펼 수 있어야 합니다.
유연성(Flexible): 단순한 늘리기뿐만 아니라 복잡한 형태도 다룰 수 있어야 합니다.

기존의 방법들은 결함이 있는 맥가이버 칼을 사용하는 것과 같았습니다. 어떤 것은 매끄럽지만 너무 딱딱하고, 어떤 것은 유연하지만 울퉁불퉁하며, 또 어떤 것은 매끄럽지만 계산기 없이는 어떻게 되돌릴지 알 수 없을 정도로 너무 복잡했습니다.

이 논문은 이 모든 문제를 한 번에 해결하는 세 가지 새로운 "접기 규칙"(해석적 단사 함수, Analytic Bijections)을 소개합니다. 다음은 일상적인 비유를 사용한 이들의 아이디어와 결과에 대한 설명입니다.

1. 세 가지 새로운 "접기 규칙"

저자들은 접기 규칙 역할을 하는 세 가지 특정 유형의 수학적 함수를 만들었습니다. 이 함수들은 전역적으로 매끄러우며(어디에도 울퉁불퉁한 가장이 없고), 모든 크기의 데이터(작은 것부터 거대한 것까지)에 작동하며, 간단한 공식으로 즉시 역전(reverse)이 가능하다는(추측이 필요 없음) 특별한 점이 있습니다.

"큐빅 라셔널(Cubic Rational)" 규칙: 유연한 고무판을 생각해보세요. 이 규칙은 대부분의 상태를 그대로 두지만, 특정 지점을 누르면 국소적인 굴곡이나 홈이 생깁니다. 이는 데이터의 가장자리를 망가뜨리지 않으면서 데이터 형태에 미세하고 정밀한 조정을 하는 데 탁면합니다.
"사인 하이퍼볼릭(Sinh Conjugation)" 규칙: 무한히 늘어날 수 있는 고무줄을 상상해 보세요. 이 규칙은 데이터의 먼 부분들을 서로 가깝게 당기거나 멀리 밀어낼 수 있어, 데이터의 전체적인 "질량"을 부드럽게 이동시킵니다. 이는 마치 군중을 방 한쪽에서 다른 쪽으로 부드럽게 이동시키는 것과 같습니다.
"큐빅 컨쥬게이션(Cubic Conjugation)" 규칙: 첫 번째 규칙과 비슷하지만 다른 수학적 형태(3차 곡선)를 사용합니다. 이는 국소적인 굴곡이나 홈을 만드는 또 다른 방식이며, 색다른 유연성을 제공합니다로.

이것이 왜 중요한가요?
이전의 방법들이 자(너무 딱딱함)나 주름진 종이접기 종이(울퉁불퉁함)를 사용하는 것이었다면, 이 새로운 규칙들은 완벽하게 매끄럽고 무한한 점토 시트와 같습니다. 당신은 어디든 모양을 빚을 수 있으며, 움직임을 되돌려야 할 때 항상 완벽하게 원래대로 돌아옵니다.

2. "래디얼 플로우(Radial Flow)": 데이터를 조직하는 새로운 방법

더 나은 접기 규칙을 넘어, 저자들은 **래디얼 플로우(Radial Flows)**라고 불리는 데이터를 조직하는 새로운 방법을 발명했습니다.

기존 방식 (커플링 플로우, Coupling Flows): 방을 정리할 때 물건을 좌/우로 움직이고, 그다음 상/하로 움직이고, 다시 좌/우로 움직이는 식으로만 정리한다고 상상해 보세요. 옷을 제대로 쌓기 위해 이 과정을 여러 번 반복해야 합니다. 작동은 하지만, 느리고 데이터에 이상한 "접힘 선"이나 아티팩트를 남길 수 있습니다.
새로운 방식 (래디얼 플로우): 방이 거대한 바퀴라고 상상해 보세요. 물건을 옆으로 움직이는 대신, 방향(각도)은 유지한 채 중심으로부터의 거리(반지름)를 늘리거나 줄입니다.
- 비유: 나선형 계단을 생각해보세요. 래디얼 플로우는 당신이 바라보는 방향은 바꾸지 않고, 계단을 얼마나 올라가거나 내려가는지만 변화시킵니다.
- 이점: 이것은 믿을 수 없을 정도로 효율적입니다. 데이터가 원형이나 나선형 모양(그들이 사용한 "스파이럴" 테스트와 같은)을 가진 경우, 래디얼 플로우는 기존 방식과 동일한 품질을 달면서도 1,000배 적은 파라미터(더 적은 움직이는 부품)를 사용했습니다. 또한 학습이 훨씬 안정적이어서, 컴퓨터가 더 빨리 학습하고 쉽게 멈추지 않습니다.

3. 실제 적용 테스트

저자들은 이 아이디어들이 작동함을 증명하기 위해 몇 가지 과제를 테스트했습니다.

단순한 형태 (1D 및 2D): 그들은 복잡한 곡선과 나선형을 맞추려고 시도했습니다. 새로운 규칙과 래디얼 플로우는 기존 방식보다 더 잘 수행하여, 기존 방식에서 흔히 나타나는 "접힘 아티팩트"(이상한 선) 없이 더 매끄럽고 정확한 형태를 만들어냈습니다.
이미지 데이터 (CIFAR10): 그들은 작은 이미지의 패턴을 학습하려고 했습니다. 기존의 접기 규칙을 새로운 것으로 교체함으로써 약간 더 나은 결과를 얻었으며, 이는 이 규칙들이 기존 시스템에 "드롭인 교체(drop-in replacement)"처럼 바로 적용될 수 있음을 증명합니다.
물리학 문제 (격자 장론, Lattice Field Theory): 이것은 본격적인 작업입니다. 그들은 입자들로 이루어진 20x20 격자의 복잡한 물리 시뮬레이션에 이 기술을 적용했습니다.
- 문제: 물리학에서는 때때로 데이터가 하나의 "모드"에 갇히기도 합니다(예를 들어, 공이 한 골짜기로 굴러 들어가 언덕 반대편으로 넘어가지 못하는 상황).
- 해결책: 그들은 물리학의 대칭성을 존중하는 특수한 "제로 모드(zero-mode)" 규칙을 설계했습니다. 이는 시뮬레이션이 단 하나의 상태에 갇히는 것을 방지하여, 모든 가능성을 탐색할 수 있게 해주었습니다. 새로운 규칙은 표준 방식보다 약 10% 더 우수한 성능을 보였습니다.

요약

요컨대, 이 논문은 머신러닝에 데이터를 재형성할 수 있는 완벽하게 매끄럽고, 가역적이며, 유연한 도구를 제공합니다.

그들은 "접기 규칙"을 수정하여 어디서나 매끄럽고 역전하기 쉽게 만들었습니다.
데이터를 중심에서부터 늘려 조직하는 래디얼 플로우를 발명했으며, 이는 특정 형태에 대해 믿을 수 없을 정도로 효율적이고 안정적입니다.
그들은 이 도구들이 단순한 곡선부터 복잡한 물리 시뮬레이션에 이르기까지 모든 분야에서 작동함을 증명했으며, 종종 기존에 사용 가능했던 것보다 더 적은 자원으로 더 높은 안정성을 보여주었습니다.

결과적으로, 이 시스템은 더 강력할 뿐만 아니라 이해하기 더 쉽고 훈련하기에도 더 신뢰할 수 있습니다.

기술 요약: 매끄럽고 해석 가능한 노멀라이징 플로우를 위한 해석적 단사 함수 (Analytic Bijections)

1. 문제 정의

노멀라이징 플로우(Normalizing flows)는 단순한 기저 밀도(일반적으로 가우시안)를 복잡한 타겟 분포로 변환함으로써 확률 분포를 학습한다. 이러한 플로우의 표현력과 학습 안정성은 결합(coupling) 또는 자기회귀(autoregressive) 레이어 내에서 사용되는 **스칼라 단사 함수(scalar bijections)**의 선택에 의해 근본적으로 제약받는다. 기존 방식들은 다음과 같은 결정적인 트레이드오프에 직면해 있다:

아핀 변환(예: Real NVP)은 매끄러우며( $C^\infty$ ), 모든 $\mathbb{R}$ 영역에서 정의되고, 해석적으로 역변환이 가능하지만, 국소적 표현력이 부족하여 다봉형(multimodal) 또는 두꺼운 꼬리(heavy-tailed) 구조를 포착하기 위해 많은 레이어가 필요하다.
모니토닉 스플라인(예: Neural Spline Flows)은 미세한 국소 제어를 제공하지만, 유한한 $k$ 에 대해 $C^k$ 수준의 조각별 매끄러움만을 가지며 유계된 영역(bounded domains)에서만 작동한다.
레지듀얼 플로우(Residual flows) 및 관련 매끄러운 구조들은 전역적인 매끄러움을 달성하지만, 역변환을 위해 수치적 근 찾기(numerical root-finding)가 필요하며, 이는 계산 비용이 높고 불안정할 수 있다.

본 논문은 전역적으로 매끄럽고( $C^\infty$ ), 모든 $\mathbb{R}$ 에 대해 정의되며, 폐쇄형(closed-form)으로 해석적 역변환이 가능하면서도 **국소적 변형(local deformations)**이 가능한 스칼라 단사 함수에 대한 공백을 식별하였다.

2. 방법론

2.1 해석적 단사 함수 (Analytic Bijections)

저자들은 대수적 유리 함수(algebraic rational functions)와 단조 함수와의 공액(conjugation)이라는 두 가지 구성 원리에 기반하여 세 가지 파라미터화된 단사 함수 패밀리를 소개한다. 세 패밀리 모두 전역적 매끄러움, 전역적 도메인, 폐쇄형 역변환 가능성, 다루기 쉬운 야코비안, 그리고 표현력 있는 파라미터화를 포함한 다섯 가지 요구 사항을 충족한다.

3차 유리 단사 함수 (Cubic Rational Bijection):
역변환이 풀 수 있는 3차 방정식으로 귀결되는 대수적 유리 함수에 기반한다.
$h(x) = x + \frac{\lambda(x - \gamma)}{1 + (x - \gamma)^2/\sigma^2}$
이 형태는 국소적 변형(값이 $\infty$ 로 갈 때 섭동이 사라짐) 역할을 하는 동시에 꼬리 분포의 특성을 보존한다. 역변환은 카르다노의 공식(Cardano's formula)을 통해 계산된다. 단사성은 $-1 < \lambda < 8$ 및 $\sigma > 0$ 에 의해 제약된다.
Sinh 공액 (Sinh Conjugation):
엄격히 단조인 함수 $g$ (구체적으로 $\sinh$ )를 이동(shift)과 공액시킨 것이다.
$h(x) = \sigma \cdot \text{arcsinh}\left(e^\mu \left(e^\nu \sinh\left(\frac{x-\gamma}{\sigma}\right) + \delta\right)\right) + \gamma$
이는 $\delta$ 를 통한 국소적 변형과 $\mu, \nu$ 를 통한 전역적 이동을 모두 지원하여, 멀리 떨어진 점들이 일정한 오프셋만큼 이동할 수 있게 한다.
3차 공액 (Cubic Conjugation):
3차 다항식 $g(x) = ax + bx^3$ 를 공액시킨 것에 기반한다.
$h(x) = g^{-1}(g(x - \gamma) + \delta) + \gamma$
3차 유리 함수와 마찬가지로 순수하게 대수적이며 역변환을 위해 카르다노의 공식을 필요로 하지만, 공액 구조를 따른다.

이러한 단사 함수들은 쌓임(composition)을 통해 표현력을 높일 수 있으며, 결합 및 자기회귀 아키텍처에서 아핀 맵이나 스플라인의 드롭인 교체재(drop-in replacement)로 사용될 수 있다.

2.2 Radial Flows (방사형 플로우)

저자들은 각도 방향 $\hat{x}$ 를 보존하면서 반지름 좌표 $r = \|x\|$ 를 변환하는 Radial Flows라는 새로운 아키텍처를 제안한다.

변환: $g(x) = c + \frac{f(\|s \odot (x-c)\|)}{\|s \odot (x-c)\|}(x-c)$ , 여기서 $c$ 는 학습 가능한 중심이고 $s$ 는 차원별 스케일링이다.
야코비안: 로그-행렬식(log-determinant)은 간단한 폐쇄형을 가진다: $\log |f'(r)| + (n-1)\log |f(r)/r|$ .
각도 의존성: 반지름 방향 단사 함수의 파라미터는 (2D의 경우) 절단된 푸리에 급수(truncated Fourier series)를 통해 각도 $\phi$ 에 의존할 수 있으며, 이를 통해 확률 질량의 제어 가능하고 해석 가능한 각도 재분포가 가능하다.
장점: Radial flows는 직접 파라미터화(방사형 변환 자체를 위한 컨디셔너 네트워크가 필요 없음)를 허용하여, 뛰어난 학습 안정성(결합 플로우의 $10^{-4}$ 대비 약 $10^{-2}$ 의 학습률)과 기하학적 해석력을 제공한다.

3. 주요 기여

세 가지 파라미터 패밀리: 전역적 매끄러움, 무한 도메인, 폐쇄형 역변환 가능성, 국소적 표현력을 동시에 만족하는 3차 유리, sinh 공액, 3차 공액 단사 함수를 도입하였다.
Radial Flow 아키텍처: 반지름 좌표를 변환하기 위해 직접 파라미터화를 사용하는 새로운 아키텍처를 제안한다. 이 접근 방식은 기하학적 해석력을 제공하며 높은 학습 안정성을 보여준다.
포괄적 평가: 1D 및 2D 벤치마크, 밀도 추정 작업(CIFAR-10, UCI tabular), 그리고 물리학 응용 분야( $\phi^4$ 격자 장론)에 대한 광범위한 수치적 평가를 수행하였다.

4. 결과

4.1 1D 및 2D 벤치마크

1D 스택: 세 가지 단사 유형 모두 스택 깊이에 따라 단조로운 개선을 보인다. $N=27$ 에서 3차 공액은 약 $99\%$ 의 유효 샘플 크기(ESS)와 약 $3.5 \times 10^{-3}$ 의 순방향 KL 발산을 달성한다.
2D 결합 플로우: 나선형 분포(spiral distribution)에서 3차 공액( $N=9$ )은 아핀( $DKL \approx 0.8$ ) 및 스플라인( $DKL \approx 0.45$ ) 베이스라인을 능가하여 $DKL \approx 0.35$ 를 달성한다.
Radial Flows: 2D 나선형 분포에서 단 319개의 파라미터만을 가진 단일 레이어 푸리에 Radial flow가 결합 플로우와 대등한 높은 충실도( $NLL \approx -0.74$ )를 달이트. Radial flow는 축 정렬된(axis-aligned) 결합 플로우에서 흔히 발생하는 "접힘(folding)" 아티팩트 없이 더 매끄러운 밀도를 생성한다.

4.2 밀도 추정 벤치마크

CIFAR-10: Real NVP의 아핀 단사 함수를 8개의 해석적 단사 함수 스택("RealNVP+")으로 교체하면 베이스라인 대비 모든 세 가지 변형에서 테스트 비트당 펨(BPD)이 약 $0.12$ 개선된다.
UCI Tabular: "spline+" 하이브리드(sinh 공액 스택 뒤에 rational-quadratic spline 배치)는 POWER 및 BSDS300에서 발표된 RQ-NSF(C) 수치와 일치하거나 이를 상회한다. 순수 sinh 변형은 모든 데이터셋에서 경쟁력을 보이며 MINIBOONE에서 가장 강력한 성능을 보인다.

4.3 물리학 응용: $\phi^4$ 격자 장론 (Lattice Field Theory)

스케일링: $20 \times 20$ 격자(400 차원)에 적용되었다. 해석적 단사 함수(3차 유리, 3차, sinh)는 ESS 측에서 아핀 및 스플라인 베이스라인을 일관되게 능가하며, 3차 유리가 가장 높은 성과( $39.66\%$ vs. 아핀 $31.85\%$ )를 기록했다.
모드 붕괴 (Mode Collapse): 이봉 분포( $Z_2$ 대칭)의 레짐에서 표준 학습은 모드 붕괴를 겪는다. 저자들은 별도로 학습되는 제로 모드 단사 함수(제로 주파수 푸리에 모드의 크기를 변환)를 도입한다. 이 프리트레이닝 전략은 두 모드의 균형 잡힌 샘플링을 보장하여, 붕괴를 방지하면서도 높은 ESS를 유지한다.

5. 의의 및 주장

본 논문은 이러한 해석적 단사 함수가 노멀라이징 플로우의 매끄러움, 역변환 가능성, 표현력 사이의 오랜 트레이드오프를 해결한다고 주장한다.

매끄러움: 스플라인과 달리 학습된 밀도는 전역적으로 $C^\infty$ 이며, 이는 고차 미분(예: 로그 확률의 2차 미분)이 필요한 과학적 응용 분야에 매우 중요하다.
안정성: Radial flows는 직접 파라미터화가 결합 플로우보다 10배 더 높은 학습 안정성을 제공할 수 있음을 입증한다.
해석 가능성: Radial 아키텍처와 푸리에 파라미터화는 복잡한 결합 컨디셔너의 "블랙박스" 특성을 피하면서, 검사 및 이해가 가능한 기하학적으로 직관적인 변환을 허용한다.
효율성: 반지름 구조를 가진 타겟의 경우, Radial flows는 결합 플로우보다 $1000\times$ 적은 파라미터로 대등한 품질을 달성한다.

저자들은 이러한 도구들이 매끄럽고, 안정적이며, 해석 가능한 스칼라 단사 함수를 구축하는 원칙적인 방법을 제공하며, 결합 플로우뿐만 아니라 자기회귀 플로우 및 매니폴드 기반 아키텍처에도 적용 가능하다고 결론짓는다. 또한 Radial flows가 현재 저차원에 제한되어 있지만, 해석적 단사 함수 자체는 고차원 문제를 위한 견고한 빌딩 블록 역할을 한다고 강조한다.

Analytic Bijections for Smooth and Interpretable Normalizing Flows