Denoising Diffusion Probabilistic Models

Each language version is independently generated for its own context, not a direct translation.

1. 핵심 아이디어: "완벽한 그림을 조각조각 부수고, 다시 맞추는 게임"

이 모델의 작동 원리는 마치 어떤 그림을 점점 흐리게 만든 뒤, 그 흐릿한 그림을 보고 원래 그림을 다시 그려내는 게임과 같습니다.

전진 과정 (부수는 과정):
imagine(상상해 보세요) 아주 선명한 사진 한 장이 있습니다. 이 사진에 아주 작은 '노이즈(잡티)'를 하나씩 더합니다.
- 1 단계: 사진이 살짝 흐려짐.
- 100 단계: 사진이 더 흐려짐.
- ...
- 1000 단계: 사진이 완전히 하얀 소금알갱이 같은 '흰색 눈'으로 변해버립니다. (이때는 원본 사진의 정보가 완전히 사라진 상태입니다.)
- 이 과정을 **확산 (Diffusion)**이라고 부릅니다.
역전 과정 (만드는 과정):
이제 인공지능 (AI) 에게 이 '흰색 눈'을 보여줍니다. AI 는 "이 하얀 눈에서 원래 사진이 어땠을지 추측해서 노이즈를 제거해라"라는 임무를 받습니다.
- AI 는 하얀 눈에서 아주 작은 조각을 찾아내고, 그걸로 그림의 윤곽을 잡습니다.
- 다시 한 번 노이즈를 제거하고, 더 선명한 그림을 만듭니다.
- 이 과정을 1000 번 반복하면, 하얀 눈이 다시 선명한 고양이 사진이나 사람의 얼굴로 변합니다.

이 논문의 핵심은 **"이 '노이즈 제거' 과정을 학습하는 방법"**을 매우 효율적으로 고안했다는 점입니다.

2. 이 기술의 비결: "소금알갱이 제거하기"

기존의 AI 들은 그림을 그릴 때 "다음 픽셀은 어떤 색일까?"라고 하나씩 예측하거나 (자동 회귀 모델), "가짜와 진짜를 구별하는 싸움"을 시켰습니다 (GAN).

하지만 이 논문의 저자들은 **"노이즈를 제거하는 능력"**에 집중했습니다.

비유: 마치 아주 더러운 유리창을 닦는 사람이라고 생각하세요.
- 기존 AI: 유리창을 닦는 법을 모르고, 그냥 유리창을 닦아보라고 시켰습니다.
- 이 논문의 AI: "유리창에 묻은 얼마나 많은 먼지가 있는지를 정확히 예측하고, 그 먼지를 제거하는 법"을 훈련시켰습니다.
- AI 는 "지금 이 이미지에 얼마나 많은 소금 (노이즈) 이 섞여 있을까?"를 예측하고, 그 소금만 골라내는 훈련을 받습니다. 이 훈련을 통해 AI 는 점점 더 선명한 이미지를 만들어냅니다.

3. 왜 이 기술이 대단한가요? (결과)

이 기술은 놀라운 결과를 보여줍니다.

압도적인 화질: CIFAR-10 이라는 작은 이미지 데이터셋에서, 기존에 가장 좋다고 알려진 기술들 (StyleGAN 등) 보다 더 자연스럽고 선명한 이미지를 만들어냈습니다.
자연스러운 생성: LSUN(교회, 침실 등) 같은 큰 데이터셋에서도 매우 사실적인 이미지를 생성합니다.
점진적인 해독 (Progressive Decoding):
- 이 모델은 이미지를 한 번에 뚝딱 만들어내는 게 아니라, 흐릿한 그림에서 점점 선명해지도록 만들어냅니다.
- 비유: 마치 안개 낀 날에 멀리서 어떤 사물을 볼 때, 안개가 걷히면서 먼저 큰 윤곽 (건물, 나무) 이 보이고, 나중에 작은 디테일 (창문, 나뭇잎) 이 선명해지는 것과 같습니다.
- 이 특징 덕분에, AI 가 "무엇을 그릴지" 큰 그림을 먼저 잡고, 나중에 세부 사항을 채워 넣는 매우 논리적인 과정을 거칩니다.

4. 압축과 관련된 재미있는 사실

이 논문은 이 기술이 이미지 압축과도 깊은 연관이 있다고 말합니다.

비유: 우리가 사진을 보낼 때, "이 사진의 큰 특징만 먼저 보내고, 나중에 세부적인 부분만 추가해서 보내는 방식"이라고 생각하세요.
이 모델은 이미지의 '보이지 않는 미세한 디테일'을 저장하는 데 많은 정보를 쓰지만, 인간의 눈에는 안 보이는 부분입니다. 즉, 인간이 볼 수 있는 중요한 정보 (얼굴, 물체) 는 아주 적은 데이터로도 잘 표현하고, 나머지는 노이즈로 처리한다는 뜻입니다. 이는 매우 효율적인 '손실 압축 (Lossy Compression)' 방식과 비슷합니다.

5. 요약: 이 논문이 우리에게 주는 메시지

새로운 접근법: 이미지를 만드는 대신, "이미지를 망가뜨리는 과정 (노이즈 추가)"을 역으로 생각해서 "망가진 것을 고치는 과정"을 학습시켰습니다.
단순함의 힘: 복잡한 수학적 이론 뒤에, 사실은 **"소금 (노이즈) 을 얼마나 제거할지 예측하는 것"**이라는 매우 직관적인 원리가 숨어 있었습니다.
미래: 이 기술은 이제까지의 AI 이미지 생성 기술 (GAN 등) 을 능가하는 화질을 보여주며, 향후 이미지 생성, 데이터 압축, 그리고 다양한 창의적인 작업에 혁신을 가져올 것으로 기대됩니다.

한 줄 요약:

"완벽한 그림을 하얀 눈으로 바꾸는 과정을 역으로 거꾸로 돌려, 흐릿한 눈에서 선명한 그림을 다시 그려내는 AI를 만들었으며, 그 화질이 기존 기술들보다 훨씬 뛰어납니다."

Each language version is independently generated for its own context, not a direct translation.

1. 문제 정의 (Problem)

최근 생성 모델 (GAN, VAE, Flow, Autoregressive 모델 등) 은 고품질의 이미지 및 오디오 생성에서 괄목할 만한 성과를 보였습니다. 특히 GAN 은 높은 샘플 품질을 제공하지만, 훈련의 불안정성과 모드 붕괴 (Mode Collapse) 문제가 존재합니다. 반면, 확률적 미분 방정식이나 비평형 열역학에서 영감을 받은 확산 확률 모델 (Diffusion Probabilistic Models) 은 직관적이고 훈련이 안정적이지만, 기존 연구에서는 고품질 샘플을 생성하는 데 한계가 있다고 여겨졌습니다.
이 논문은 확산 모델이 실제로 GAN 을 능가하거나 경쟁할 수 있는 고품질 이미지를 생성할 수 있음을 증명하고, 이를 위한 최적의 훈련 전략과 파라미터화를 제시하는 것을 목표로 합니다.

2. 방법론 (Methodology)

2.1 확산 모델의 기본 구조

확산 모델은 두 가지 마르코프 연쇄 (Markov Chain) 로 구성됩니다.

전방 과정 (Forward Process / Diffusion): 데이터 $x_0$ $x_{0}$ 에 대해 고정된 분산 스케줄 $\beta_t$ $β_{t}$ 를 사용하여 $T$ $T$ 단계에 걸쳐 가우시안 노이즈를 점진적으로 추가합니다. 이 과정은 $q(x_{1:T}|x_0)$ $q (x_{1 : T} ∣ x_{0})$ 로 정의되며, $x_T$ $x_{T}$ 는 표준 정규 분포 $N(0, I)$ $N (0, I)$ 에 가까워집니다.
- $q(x_t|x_{t-1}) = \mathcal{N}(x_t; \sqrt{1-\beta_t}x_{t-1}, \beta_t I)$
역과정 (Reverse Process / Denoising): 노이즈가 추가된 $x_T$ 에서 시작하여 학습된 파라미터 $\theta$ 를 사용하여 노이즈를 제거하며 원래 데이터 $x_0$ 를 복원합니다. $p_\theta(x_{0:T}) = p(x_T) \prod_{t=1}^T p_\theta(x_{t-1}|x_t)$ .

2.2 핵심 기여: 파라미터화 및 훈련 목적함수

기존의 변분 하한 (Variational Bound) 을 최적화하는 방식에서 벗어나, 저자들은 다음과 같은 혁신적인 접근을 제시합니다.

노이즈 예측 ( $\epsilon$ -prediction) 파라미터화:
- 역과정의 평균 $\mu_\theta(x_t, t)$ 를 직접 예측하는 대신, 전방 과정에서 추가된 노이즈 $\epsilon$ 을 예측하도록 네트워크를 설계합니다.
- $x_t = \sqrt{\bar{\alpha}_t}x_0 + \sqrt{1-\bar{\alpha}_t}\epsilon$ 관계를 이용하면, $\mu_\theta$ 를 $\epsilon_\theta(x_t, t)$ 로 표현할 수 있습니다.
- 이 방식은 Denoising Score Matching (DSM) 과 Annealed Langevin Dynamics와의 이론적 동치성을 보여줍니다.
단순화된 목적함수 (Simplified Training Objective, $L_{simple}$ ):
- 원래의 변분 하한 (ELBO) 은 복잡한 가중치를 포함하지만, 저자들은 이를 단순화하여 다음과 같은 가중치 없는 평균 제곱 오차 (MSE) 손실 함수를 사용합니다.
- $L_{simple}(\theta) = \mathbb{E}_{t, x_0, \epsilon} [ || \epsilon - \epsilon_\theta(\sqrt{\bar{\alpha}_t}x_0 + \sqrt{1-\bar{\alpha}_t}\epsilon, t) ||^2 ]$
- 여기서 $t$ 는 $1 $부터$ T$까지 균일하게 샘플링됩니다. 이 목적함수는 다양한 노이즈 스케일에서의 디노이징 작업을 학습하게 하여, 샘플 품질을 극대화합니다.
아키텍처:
- U-Net 기반의 컨볼루션 신경망을 사용하며, 시간 단계 $t$ 를 입력으로 받기 위해 Transformer 의 Sinusoidal Position Embedding 을 적용했습니다.
- 16x16 해상도에서 Self-Attention 을 도입하여 전역적 의존성을 포착합니다.

2.3 점진적 손실 압축 (Progressive Lossy Decompression)

샘플링 과정은 점진적인 디코딩으로 해석될 수 있습니다. $T$ 단계에서 $0$단계로 거슬러 올라가며, 초기 단계에서는 이미지의 전체적인 구조 (대략적인 형태) 가, 후반 단계에서는 미세한 디테일이 생성됩니다. 이는 자기회귀 (Autoregressive) 모델의 비트 단위 디코딩을 일반화한 것으로 볼 수 있습니다.

3. 주요 기여 (Key Contributions)

고품질 이미지 생성 증명: 확산 모델이 GAN 과 경쟁하거나 능가하는 고품질 이미지를 생성할 수 있음을 실증했습니다.
이론적 연결 고리: 확산 모델, 디노이징 스코어 매칭 (Denoising Score Matching), 그리고 Annealed Langevin Dynamics 사이의 명확한 수학적 동치성을 규명했습니다.
단순화된 훈련 전략: 복잡한 가중치 계산을 제거하고, 노이즈 예측 ( $\epsilon$ -prediction) 에 기반한 단순한 MSE 손실 함수가 오히려 더 우수한 샘플 품질을 낸다는 것을 발견했습니다.
점진적 생성 및 압축 해석: 생성 과정을 점진적인 손실 압축 (Progressive Lossy Compression) 으로 해석하여, 고차원 데이터의 표현 학습에 대한 새로운 통찰을 제공했습니다.

4. 실험 결과 (Results)

CIFAR-10 (무조건부):
- FID (Fréchet Inception Distance): 3.17 (State-of-the-Art 수준, 기존 GAN 들보다 우수하거나 비등).
- Inception Score (IS): 9.46.
- 기존 GAN 기반 모델 (StyleGAN2 등) 과 비교했을 때 매우 경쟁력 있는 성능을 보였습니다.
LSUN (256x256):
- LSUN Bedroom 및 Church 데이터셋에서 ProgressiveGAN 과 유사한 품질의 이미지를 생성했습니다.
- LSUN Bedroom FID: 4.90 (대형 모델 기준).
로그 가능도 (Log Likelihood):
- 확산 모델은 GAN 보다 높은 로그 가능도 (Lossless Codelength) 를 가지지는 못했으나, 에너지 기반 모델 (EBM) 등의 기존 추정치보다는 훨씬 좋은 성능을 보였습니다.
- 분석 결과, 모델의 비트 할당 대부분이 인간의 눈으로 구분하기 어려운 미세한 디테일 (Imperceptible details) 에 사용됨을 발견했습니다.

5. 의의 및 결론 (Significance)

이 논문은 확산 모델 (Diffusion Models) 을 생성 모델 연구의 최전선으로 끌어올린 획기적인 작업입니다.

안정성과 품질의 균형: GAN 의 훈련 불안정성을 해결하면서도, GAN 수준의 고품질 샘플을 생성할 수 있는 새로운 패러다임을 제시했습니다.
이론적 통합: 변분 추론, 스코어 매칭, Langevin 동역학 등 서로 다른 생성 모델 이론들을 하나의 프레임워크로 통합했습니다.
확장성: 이미지뿐만 아니라 오디오, 비디오, 3D 데이터 등 다양한 모달리티로 확장 가능한 강력한 기반을 마련했습니다.

결론적으로, DDPM 은 현재 생성 AI 분야 (Stable Diffusion, DALL-E 2 등) 의 기반이 되는 핵심 기술로서, 단순한 알고리즘 개선을 넘어 생성 모델의 이론적 토대를 재정의한 중요한 논문입니다.