원저자: Naïl B. Khelifa, Richard E. Turner, Ramji Venkataramanan

게시일 2026-06-15

📖 3 분 읽기☕ 가벼운 읽기

원저자: Naïl B. Khelifa, Richard E. Turner, Ramji Venkataramanan

원본 논문은 CC BY 4.0 (http://creativecommons.org/licenses/by/4.0/) 라이선스로 제공됩니다. ✨ 이것은 아래 논문에 대한 AI 생성 설명입니다. 저자가 작성하거나 승인한 것이 아닙니다. 기술적 정확성을 위해서는 원본 논문을 참조하세요. 전체 면책 조항 읽기

당신은 로봇 셰프에게 특정 레시피(즉, "진정한 데이터")를 바탕으로 완벽한 요리를 하는 법을 가르치려 한다고 상상해 보세요.

문제점: "모델 붕괴(Model Collapse)"의 루프
보통은 시장에서 파는 실제 식재료를 사용하여 로봇을 가르칠 것입니다. 하지만 시간을 아끼기 위해, 로봇이 어제 만든 요리를 새로운 식재료로 사용하여 로봇을 가르치기 시작한다면 어떻게 될까요?

만약 이 과정을 계속 반복하여—어제 만든 요리를 가지고 오늘 로봇을 가르치고, 그 요리를 다시 내일의 학습 재료로 사용한다면—로봇은 결국 진짜 음식이 무엇인지 잊어버리게 됩니다. 맛은 밋밋해지고, 질감은 뭉개지며, 다양성은 사라집니다. 논문에서는 이를 **모델 붕괴(Model Collapse)**라고 부릅니다. 로봇은 원래의 맛있던 레시피로부터 점점 더 멀어지게 됩니다.

논문의 거대한 발견: 이것은 단순한 "잘못된 학습"이 아니다
이전의 연구들은 이것이 로봇이 실수를 하거나(나쁜 점수 추정), 데이터가 부족하기 때문에 발생한다고 시사했습니다.

하지만 이 논문은 이렇게 말합니다: "설령 로-봇이 천재라서 실수를 전혀 하지 않더라도, 결국 실패할 것이다."

왜 그럴까요? 바로 **절단(Truncation)**이라는 안전 규칙 때문입니다.
이 AI 모델(확산 모델, Diffusion Models)의 수학적 구조 안에서, 로봇은 수치적 폭발(냄비가 넘치는 것과 같은 현상)을 방지하기 위해 요리 과정을 아주 조금 일찍 멈춰야 합니다. 즉, $t=0$ 까지 끝까지 가는 대신 $t_0$ 시점에서 멈추게 됩니다.

비유: 로봇이 날카롭고 선명한 물체의 사진을 찍으려고 한다고 상상해 보세요. 하지만 카메라 렌즈가 약간 흐릿해서, 이미지가 완벽하게 선명해지기 직전에 초점을 맞추는 것을 멈춥니다. 항상 아주 약간의 흐릿함을 남겨두는 것입니다.
결과: 만약 그 약간 흐릿한 사진을 가져와서 로봇을 다시 학습시킨다면, 로봇은 더욱 흐릿한 사진을 만드는 법을 배우게 됩니다. 이 과정을 반복하면 흐릿함이 누적되어 결국 형체 없는 회색 안개처럼 변해버립니다.

로봇은 결국 무엇을 얻게 되는가? (한계 분포)
저자들은 이 재귀적인 과정이 단순히 미쳐버리는 것이 아니라, 특정하고 예측 가능한 상태로 안착한다는 것을 증명했습니다.

"무한 스무디": 최종 결과물은 원래의 레시피를 바탕으로 하되, 세대를 거듭할수록 점점 더 매끄럽게 다듬어진(smoothed out) 수학적 혼합물입니다.
저역 통과 필터(Low-Pass Filter): 원래의 데이터를 깊은 베이스(거친 구조)와 높은 음의 심벌즈(미세한 디테일)가 있는 노래라고 생각해 보세요. 재귀적 학습은 마치 심벌즈의 볼륨을 서서히 줄이는 필터처럼 작동합니다. 결국 모든 고음의 디테일(데이터의 독특하고 복잡한 특징들)이 소거되고, 둔탁한 저주파의 웅웅거림만 남게 됩니다. 로봇은 데이터 분포의 "모서리"와 "꼬리" 부분을 잊어버리는 것입니다.

해결책: "어닐드(Annealed)" 스케줄
논문은 질문합니다: "이것을 멈출 수 있을까?"
저자들은 신선한 재료(실제 데이터)를 더 많이 추가하는 것이 속도를 늦추는 데는 도움이 되지만, 카메라 렌즈가 여전히 흐릿하다면 붕괴를 막지는 못한다는 것을 발견했습니다.

진정한 해결책은 시간에 따라 안전 규칙을 바꾸는 것입니다.

비유: 로봇이 초점을 맞추는 법을 배우고 있다고 상상해 보세요. 초기 세대에는 렌즈가 흐릿합니다(높은 절단 시간). 하지만 로봇이 점점 더 숙련됨에 따라, 당신은 이 "안개"를 점진적으로 제거하여(절단 시간을 줄여) 렌즈를 완벽하게 투명하게 만듭니다.
결과: 만약 여러 세대에 걸쳐 이 "안개"를 0으로 서서히 줄여 나간다면, 로봇은 원래의 선명한 이미지를 회복할 수 있습니다. 논문은 이 안전 버퍼를 결국 아무것도 남지 않게 줄인다면, 모델이 붕괴를 멈추고 진정한 데이터로 돌아올 수 있음을 증명합니다.

실수에 대해서는 어떻게 될까?
저자들은 또한 "만약 로봇이 실수(예: 잘못된 수학 계산이나 픽셀 깨짐)를 한다면 어떻게 될까?"라는 점도 확인했습니다.
그들은 시스템이 매우 견고하다는 것을 발견했습니다. 실수가 있더라도 로봇은 완전한 혼돈 속으로 빠지지 않습니다. 대신, 이상적인 흐릿한 결과물 주변의 "안전 구역(ball)" 안에 안착합니다. 고주파 오류(미세한 디테일)는 저주파 오류(큰 구조적 오류)보다 더 빠르게 매끄럽게 처리됩니다. 따라서 로봇이 완벽하지는 않을지라도, 안정적이고 예측 가능한 상태를 유지하게 됩니다.

요약

원인: 재귀적 학습(자신의 출력물으로 학습하는 것)은 우리가 안전을 위해 과정을 약간 일찍 멈춰야 하기 때문에, 모델이 완벽하더라도 점진적인 디테일 손실을 일으킵니다.
효과: AI는 점차 현실의 미세한 디테일을 잊어버리고, 매끄럽고 지루한 평균값으로 변해갑니다.
해결책: 단순히 실제 데이터를 더 추가하는 것이 아니라, 재학습할 때마다 안전 규칙을 점진적으로 강화(절단 시간을 줄임)해야 합니다. 이를 올바르게 수행한다면, 붕괴를 완전히 막을 수 있습니다.

기술 요약: 재귀적으로 학습된 확산 모델 (Recursively Trained Diffusion Models)

문제 정의

본 논문은 생성 모델, 특히 확산 모델(diffusion models)이 자신의 합성 출력물로 재귀적 학습을 수행할 때 발생하는 모델 붕괴(model collapse) 현상을 다룹니다. 기존 문헌들이 유한한 단계에서의 오차 누적을 정량화해 왔으나, 이러한 재귀 과정의 점근적 행동(asymptotic behavior)에 관한 두 가지 근본적인 질문은 여전히 미해결 상태로 남아 있습니다: (1) 재귀가 구체적으로 어떤 분포로 수렴하는가, 그리고 (2) 그 수렴 속도는 어떠한가?

저자들은 모델 붕괴가 단순히 불완전한 스코어 추정(score estimation)이나 유한 샘플 효과에 의해서만 발생하는 것이 아니라고 주장합니다. 대신, 수치적 안정성을 보장하기 위해 역방향 확산 과정을 $t_0 > 0$ 에서 멈추어야 하는 절단(truncation)—즉, 완벽한 스코어 추정과 정확한 샘플링이 이루어지는 이상적인 설정에서도 발생하는 현상—을 실제 데이터 분포 $p_{\text{data}}$ 로부터 점진적인 드리프트를 유발하는 주요 동인으로 지목합니다.

방법론 및 프레임워크

재귀적 설정

저자들은 각 세대 $i$ 에서 학습 분포 $q_i$ 가 신선한 데이터 $p_{\text{data}}$ (비중 $\alpha$ )와 이전 세대 모델의 합성 샘플 $\hat{p}_i$ (비중 $1-\alpha$ )의 혼합물로 정의되는 재귀적 학습 절차를 정의합니다:
$q_i := \alpha p_{\text{data}} + (1-\alpha)\hat{p}_i$
스코어 네트워크는 $q_i$ 를 바탕으로 학습되며, 결과적으로 생성된 확산 모델은 다음 분포 $\hat{p}_{i+1}$ 을 생성합니다.

오차 원인 및 이상화

분석은 세 가지 오차 원인을 구분합니다:

절단 (Truncation): 역방향 SDE가 $[t_0, T]$ 구간에서만 적분됨 ( $t_0 > 0$ ).
스코어 추정 오차 (Score Estimation Error): 유한한 데이터와 함수 근사에서 기인함.
이산화 오차 (Discretization Error): SDE의 수치적 해법에서 기인함.

본 논문은 먼저 절단만을 존재하는 **이상적인 무오차 환경(error-free regime)**을 분석합니다. 이 환경에서 세대 $i$ 에서 $i+1$ 로의 전이는 Ornstein-Uhlenbeck (OU) 샘플링 연산자 $U_{t_0}$ 를 포함하는 고정점 문제로 모델링됩니다:
$\mu \mapsto U_{t_0}(\alpha p_{\text{data}} + (1-\alpha)\mu)$

스펙트럼 분석 (Spectral Analysis)

수렴하는 분포를 규명하기 위해 저자들은 **에르미트 스펙트럼 분해(Hermite spectral decomposition)**를 사용합니다. 표준 가우시안 측도 $\gamma = \mathcal{N}(0, I_d)$ 에 대한 밀도 비(density ratio)에 작용하는 OU 연산자를 분석합니다. OU 연산자는 에르미트 다항식 기저 $\{H_n\}$ 에서 대각 성분으로 작용하며, 차수 $|n|$ 인 모드(mode)를 $e^{-|n|t/2}$ 의 인자로 감쇠시킵니다.

주요 기여 및 결과

1. 붕괴 분포의 명시적 규명

무오차 환경에서, 저자들은 재귀가 유일한 극한 분포 $p^\star_\infty$ 로 기하급수적으로 수렴함을 증명합니다. 이 분포는 다음과 같이 점진적으로 가우시안 평활화(Gaussian-smoothed)된 버전의 데이터들이 무한히 혼합된 형태로 명시적으로 규명됩니다:
$p^\star_\infty = \alpha \sum_{k=0}^{\infty} (1-\alpha)^k U_{(k+1)t_0}(p_{\text{data}})$
수렴 속도는 상수 $\kappa = \sqrt{1-\alpha} e^{-t_0/2}$ 를 갖는 기하급수적 형태를 띱니다. $\alpha < 1$ 이고 $t_0 > 0$ 일 때 극한 분포는 $p_{\text{data}}$ 와 구별되며, 이는 절단만으로도 비자명한 붕괴가 유발됨을 확인시켜 줍니다.

2. 스펙트럼 구조: 저역 통과 필터 (Low-Pass Filter)

스펙트럼 분해를 통해, 본 논문은 재귀적 학습이 데이터 분포에 대해 저역 통과 필터 역할을 한다는 것을 보여줍니다.

붕괴 분포 $p^\star_\infty$ 는 $p_{\text{data}}$ 의 에르미트 계수를 감쇠시켜 얻어집니다.
감쇠 인자 $m_n(\alpha, t_0)$ 는 모드 차수 $|n|$ 에 대해 단조 감소합니다.
시사점: 고차 모드(데이터의 미세한 비가우시안 구조, 꼬리 부분, 진동 등을 인코딩함)는 저차 모드(평균, 공분산 등)보다 훨씬 더 크게 억제됩니다. 이는 모델 붕괴에서 관찰되는 다양성 상실과 꼬리 부분의 퇴화에 대한 이론적 설명을 제공합니다.

3. 어닐드 절단 스케줄 (Annealed Truncation Schedules)

저자들은 절단 시간 $t_0^{(N)}$ 이 세대를 거듭하며 감소하는 어닐드 절단 스케줄을 제안합니다.

정리: 절단 시간 시퀀스가 0으로 수렴하면( $t_0^{(N)} \to 0$ ), 재귀적 누적 효과가 점근적으로 제거되어 분포가 $p_{\text{data}}$ 를 회복합니다.
만약 시퀀스가 양의 상한값으로 수렴한다면, 편향(bias)은 줄어들 수 있으나 붕괴는 지속됩니다.
$t_0^{(N)} = t_0 / (1+N)^\beta$ 형태의 스케줄은 KL 발산(divergence)을 0으로 유도하며, $\beta$ 가 클수록 더 빠른 수렴을 보입니다.

4. 불완전한 학습에 대한 강건성

분석은 스코어 추정 및 이산화 오차를 포함하도록 확장됩니다.

학습된 분포 $\hat{p}_N$ 은 이상적인 극한 $p^\star_\infty$ 주변의 반지름 $\delta/(1-\kappa)$ 인 Wasserstein-2 볼(ball) 내에 머물게 되며, 여기서 $\delta$ 는 1단계 오차를 제한합니다.
모드 의존적 오차 전파: 고주파 모드의 오차는 저주파 모드의 오차보다 더 빠르게 수축합니다. 유효 오차 볼은 고차 모드에 대해 급격히 수축하는 타원체 형태를 띠며, 이는 미세한 디테일은 손실될 수 있으나 거친 구조(coarse structure)는 안정적으로 유지됨을 시사합니다.

실험적 검증

이론적 결과는 다음을 통해 검증되었습니다:

합성 2D 가우시안 혼합 모델: $\alpha \to 1, \alpha \to 0, t_0 \to 0$ 일 때의 $p^\star_\infty$ 폐쇄형 한계(closed-form limits)를 확인했습니다.
CIFAR-10:
- 수렴: 경험적 FID 지표는 이론적 수축률 $\kappa$ 와 일치하는 안정적인 바닥값(stable floor)으로 기하급수적으로 수렴함을 보여줍니다.
- 스펙트럼 특징: 고주파 에너지(푸리에 파워로 측정)가 세대와 낮은 $\alpha$ 값에 따라 단조 감소함을 보여, 저역 통과 필터 가설을 입증했습니다.
- 절단: $t_0$ 를 높이면 붕괴가 증폭되는 반면(높은 FID), 어닐드 스케줄은 데이터 분포를 성공적으로 회복시켰습니다.

의의 및 주장

본 논문은 모델 붕괴의 첫 번째 점근적 특성을 규명하였으며, **절단(truncation)**이 학습의 불완전성과는 구별되는 근본적인 동인임을 밝혀냈다고 주장합니다.

이론적 통찰: 완벽한 학습이 이루어지더라도, 역방향 확산에서 흔히 쓰이는 조기 종료(early stopping) 관행이 필연적으로 고주파 데이터 특징의 손실을 특징으로 하는 붕괴된 영역을 초래함을 입증했습니다.
완화 전략: 단순히 신선한 데이터의 비율( $\alpha$ )을 높이는 것만으로는 고정된 절단 시간 하에서 붕가 발생을 막기에 불충종히 않음을 제시합니다. 대신, 점근적 누적을 제거하기 위한 필수적인 보완책으로서 어닐드 절단 스케줄을 제시합니다.
강건성: 결과는 붕괴 영역이 안정적인 끌개(attractor)임을 시사합니다. 즉, 실질적인 오차가 존재하더라도 시스템은 이론적 극한 근처의 분포로 수렴하므로, 본 논문의 스펙트럼 특성 규명은 실제 학습 시나리오에서도 유효합니다.

저자들은 본 분석이 분산 보존(variance-preserving) OU 확산 및 관련 에르미트 기저에 특화된 것임을 명시하며, 이러한 스펙트럼 메커니즘을 다른 확산 파라미터화로 확장하는 것은 향후 과제로 남겨두었습니다.

Recursively Trained Diffusion Models: Limiting Collapse Distribution and Spectral Characterization