원저자: Anand Jerry George, Rodrigo Veiga, Nicolas Macris

게시일 2026-06-15

📖 4 분 읽기☕ 가벼운 읽기

원저자: Anand Jerry George, Rodrigo Veiga, Nicolas Macris

원본 논문은 CC BY 4.0 (http://creativecommons.org/licenses/by/4.0/) 라이선스로 제공됩니다. ✨ 이것은 아래 논문에 대한 AI 생성 설명입니다. 저자가 작성하거나 승인한 것이 아닙니다. 기술적 정확성을 위해서는 원본 논문을 참조하세요. 전체 면책 조항 읽기

당신이 로봇에게 고양이 그림을 그리는 법을 가르치고 있다고 상상해 보세요. 당신은 몇 장의 사진을 보여주며, 로봇이 새로운 고양이를 그릴 수 있도록 고양이의 '본질'을 학습하도록 합니다. 하지만 때때로 로봇은 너무 영악해집니다. 고양이를 만드는 일반적인 규칙을 배우는 대신, 당신이 보여준 사진을 그대로 외워버리는 것이죠. 만약 당신이 고양이를 그려보라고 하면, 로봇은 당신의 사진 중 하나를 완벽하게 복사해낼 수도 있습니다. 이것을 **암기(Memorization)**라고 부릅니다. 만약 로봇이 본 적 없는 새로운 고양이를 그릴 수 있을 정도로 일반적인 개념을 잘 배웠다면, 그것은 **일반화(Generalization)**라고 합니다.

이 논문은 이 로봇(디퓨전 모델, Diffusion Model)이 왜 일반화 대신 암기를 선택하는지, 그리고 정확히 언제 그런 현상이 발생하는지에 대한 수학적 조사입니다. 저자들은 이 로봇의 단순화된 버전을 사용하였고, 이 두 가지 행동 사이의 '임계점(tipping point)'을 찾기 위해 고급 수학을 사용했습니다.

다음은 이들의 발견을 쉬운 비유를 사용하여 정리한 내용입니다:

1. 레시피의 세 가지 재료

저자들은 로봇의 행동이 조절할 수 있는 세 가지 주요 '노브(knob, 조절 손잡이)'에 따라 달라진다는 것을 발견했습니다:

로봇의 크기 (모델 복잡도): 이것은 로봇의 '뇌세포' 또는 뉴런의 수라고 생각하면 됩니다. 작은 로봇은 뉴런이 적고, 거대한 로봇은 수백만 개를 가집니다.
사진첩의 크기 (데이터셋 크기): 이것은 당신이 로봇에게 보여주는 고양이 사진의 개수입니다.
사진 한 장당 '연습 횟수' (노이즈 샘플, $m$ ): 이것은 조금 까다로운 부분입니다. 로봇을 가르칠 때, 단순히 사진 한 장을 보여주는 것이 아니라, 사진을 흐릿하게 만들거나 노이즈를 섞은 다양한 형태의 사진을 보여줍니다.
- 만약 로봇에게 사진의 흐릿한 버전을 하나만 보여준다면, 로봇은 원래의 사진을 추측해야 합니다.
- 만약 같은 사진에 대해 여러 가지 다른 흐릿한 버전들을 보여준다면, 로봇은 비록 사진첩에 있는 단 하나의 사진일지라도 그 특정 사진이 어떻게 생겼는지 매우 명확하게 파악하게 됩니다.

2. "임계점" (상태도/Phase Diagram)

논문은 이 노브들을 바꿀 때 어떤 일이 일어나는지를 보여주는 지도(상태도)를 그립니다.

안전 지대 (일반화): 만약 로봇이 더 작다면(사진보다 뉴런이 적다면), 로봇은 강제로 고양이가 어떻게 생겼는지에 대한 일반적인 규칙을 배워야 합니다. 뇌의 힘(뉴런)이 부족하기 때문에 모든 사진을 다 외울 수 없기 때문입니다. 그래서 로봇은 새로운 고양이를 그리는 법을 배웁니다.
위험 지대 (암기): 만약 로봇이 거대하다면(사진보다 뉴런이 많다면), 로봇은 사진첩의 모든 사진을 암기할 수 있는 충분한 뇌의 힘을 갖게 됩니다. 로봇은 고양의 '본질'을 배우는 것을 멈추고 복사기처럼 행동하기 시작합니다.

3. 놀라운 발견: "연습 횟수" 노브

이 논문의 가장 흥ей로운 발견은 세 번째 노브인 **노이즈 샘플의 수( $m$ )**에 관한 것입니다.

로봇이 작을 때 (안전 지대): 로봇에게 더 많은 연습 횟수(더 많은 노이즈 샘플)를 주는 것은 오히려 학습에 도움이 됩니다. 이는 학생에게 더 많은 연습 문제를 주는 것과 같습니다. 학생은 개념을 더 깊이 이해하게 됩니다.
로봇이 거대할 때 (위험 지대): 로봇에게 더 많은 연습 횟수를 주는 것은 암기를 더 악화시킵니다. 이는 이미 부정행위(암기)를 하고 있는 학생에게 똑같은 문제의 수천 가지 다른 버전을 주는 것과 같습니다. 학생은 과목을 배우는 것이 아니라, 주어진 특정 답안들을 더 잘 베끼는 법을 익힐 뿐입니다.

비유:
시험을 치르는 학생을 상상해 보세요.

학생이 똑똑하지만 기억력이 작다면(작은 모델), 많은 연습 테스트(높은 $m$ )를 주는 것은 학생이 자료를 학습하여 새로운 질문에도 답할 수 있도록 도와줍니다.
학생이 거대한 기억력을 가지고 있고 이미 답을 외우려고 노력 중이라면, 많은 연습 테스트를 주는 것은 그가 연습 테스트의 특정 질문들을 훨씬 더 잘 외우도록 도울 뿐입니다. 실제 시험에서 약간 다른 질문을 만나면, 그는 오직 연습 버전의 질문들만 외웠기 때문에 실패하게 됩니다.

4. "교차" 순간 (The Crossover Moment)

논문은 행동이 뒤바뀌는 정확한 순간을 식별합니다. 이는 로봇의 뉴런 수가 사진첩의 사진 수와 같아질 때 발생합니다.

이 선 아래에서는: 로봇은 일반화합니다.
이 선 위에서는: 로봇은 암기합니다.
반전: 당신이 로봇에게 더 많은 "연습 횟수"( $m$ )를 줄수록, 로봇이 이 선을 넘었을 때 암기하는 성향은 더욱 공격적으로 변합니다.

5. 이것이 왜 중요한가 (논문에 따르면)

저자들은 실제 데이터(단순한 의류 이미지 모음인 Fashion-MNIST 데이터셋)를 사용하여 이 이론을 테스트했습니다. 그들은 자신들의 수학적 예측이 현실과 일치한다는 것을 발견했습니다:

매우 복잡한 신경망(U-Net)을 사용하고 많은 노이즈 샘플로 학습시켰을 때, 모델은 새로운 것을 만들어내는 대신 훈련 데이터의 정확한 이미지를 그대로 재현하기 시작했습니다.
이는 현실 세계에서, 만약 당신이 거대한 모델을 가지고 있고 각 데이터 포인트당 많은 노이즈 샘플로 학습시킨다면, 새로운 것을 창조하기보다는 훈련 데이터를 그대로 복사하는 모델을 얻게 될 가능성이 높다는 것을 확인시켜 줍니다.

요약

요컨대, 이 논문은 AI의 창의성에 있어 무조건 큰 것이 더 좋지는 않다는 것을 설명합니다. 만약 AI 모델이 데이터에 비해 너무 크고, 훈련 과정에서 각 데이터 포인트를 너무 많이 변형(distort)한다면, AI는 창의성을 잃고 복사꾼이 될 것입니다. 최상의 결과를 얻으려면 모델의 크기, 데이터의 양, 그리고 데이터를 얼마나 자주 "왜곡"할 것인지 사이의 균형을 맞춰야 합니다.

기술 요약: 랜덤 특징을 이용한 디노이징 스코어 매칭

문제 정의

확산 모델(Diffusion models)은 생성 작업에서 놀라운 성공을 거두었으나, 과학계에는 이들의 일반화 및 암기(memorization) 동작에 대한 통일된 이론적 이해가 부족합니다. 경험적 관찰에 따르면, 이러한 동작은 모델 복잡도, 데이터셋 크기, 그리고 학습 중에 사용되는 노이즈 샘플 수에 의해 영향을 받습니다. 특히, 모델의 출력이 특정 학습 데이터 포인트와 매우 유사해지는 암기 현상에 대한 우려가 있으며, 이는 개인정보 보호 및 창의성 측면에서 문제를 제기합니다.

이전의 이론적 연구들은 확산 모델을 분석해 왔으나, 종종 경험적 최적 스코어 함수(본질적으로 데이터를 암기하는 함수)에 의존하거나 데이터 크기가 차원 수에 따라 지수적으로 증가하는 환경을 가정합니다. 본 논문은 비례적 체제(proportional regime)(데이터 크기 $n$ , 모델 복 complexity $p$ , 차원 $d$ 가 선형적으로 비례하는 경우)와 디노이징 스코어 매칭(DSM) 손실 함수에서 사용되는 데이터 포인트당 노이즈 샘플 수인 $m$ 의 구체적인 역할에 대한 이해의 공백을 다룹니다. 이 논문은 다음과 같은 질문을 던집니다: 스코어 함수를 위한 파라미터화된 함수 클래스(구체적으로 랜덤 특징 신경망)를 사용할 때, 암기 현상을 이론적으로 입증할 수 있는가?

방법론

저자들은 분석적으로 다루기 쉬운 단순화된 이론적 설정 하에서 확산 모델의 학습 과정을 분석합니다:

타겟 분포: 타겟 분포 $P_0$ 는 $d$ 차원 가우시안 분포이며, (매니폴드 가설에서 영감을 받아) 저차원 부분 공간에 지지되어 있을 수 있습니다.
스코어 함수 파라미터화: 스코어 함수는 **랜덤 특징 신경망(RFNN)**을 사용하여 모델링됩니다. 첫 번째 레이어의 가중치는 고정된 랜덤 행렬이며, 두 번째 레이어의 가중치는 학습됩니다.
학습 목적 함수: 모델은 디노이징 스코어 매칭(DSM) 손실을 최소화합니다. 결정적으로, 본 분석은 손실 함수에서 데이터 포인트당 평균화되는 노이즈 샘플의 수인 $m$ $m$ 을 고려합니다. 연구는 다음 두 극단적인 경우에 집중합니다:
- $m = \infty$ : 노이즈에 대한 기댓값이 정확하게 계산됩니다.
- $m = 1$ : 데이터 포인트당 단일 노이즈 샘플이 사용됩니다 (경험적 추정치).
점근적 체제: 분석은 $d, n, p \to \infty$ 로 가면서 그 비율인 $\psi_n = n/d$ 와 $\psi_p = p/d$ 를 일정하게 유지하는 고차원 극한에서 수행됩니다.
분석 도구:
- 가우시안 등가 원리(GEP): 비선형 활성화 함수 출력을 동등한 가우시안 랜덤 변수로 대체하여, 특징 행렬을 가우시안으로 취급할 수 있게 합니다.
- 리니어 펜슬 이론(Linear Pencils Theory): 랜덤 행렬의 유리 함수(rational functions)의 트레이스를 계산하는 랜덤 행렬 이론 기법으로, 정확한 점근적 학습 곡선(테스트 및 트레인 에러)을 유도하는 데 사용됩니다.

주요 기여

본 논문은 확산 모델 내 암기 현상에서 $m$ 의 역할을 다룬 최초의 이론적 연구를 제공합니다. 주요 기여는 다음과 같습니다:

정확한 점근적 표현식: 저자들은 고차원 극한에서 $m=1$ 과 $m=\infty$ 모두에 대해 DSM 최소화 데이타의 테스트 및 트레인 에러에 대한 폐쇄형(closed-form) 표현식을 유도했습니다.
일반화 대 암기의 페이즈 다이어그램: 에러를 특성화함으로써, 저자들은 $\psi_n, \psi_p, m$ $ψ_{n}, ψ_{p}, m$ 에 따른 뚜렷한 체제를 식별합니다:
- $p = n$ (즉, $\psi_p = \psi_n$ )일 때 **교차 전이(crossover transition)**가 발생합니다.
- 모델이 과소 매개변수화(under-parameterized, $p < n$ )된 경우 일반화가 지배합니다.
- 모델이 과잉 매개변수화(over-parameterized, $p > n$ )된 경우 암기가 지배합니다.
$m$ (노이즈 샘플)의 역할:
- **과잉 매개변수화 체제( $p > n$ )**에서, $m$ 을 증가시키면 암기가 심화됩니다. $m$ 이 증가함에 따라 학습된 스코어 함수는 경험적 최적 스코어에 더 가깝게 수렴하며, 이로 인해 역방향 확산 과정이 학습 샘플로 붕괴(collapse)됩니다.
- **과소 매개변수화 체제( $p < n$ )**에서, $m$ 을 증가시키면 일반화가 향상됩니다. 모델의 제한된 표현력은 더 많은 노이즈 샘플이 있더라도 노이즈에 과적합되는 것을 방지합니다.
더블 디센트(Double Descent) 현상: 본 연구는 DSM 설정(특히 $m=1$ 인 경우)에서 테스트 에러가 보간 임계값( $\psi_p = \psi_n$ )에서 정점을 찍는 더블 디센트 곡선의 존재를 확인합니다.

결과

이론적 발견은 페이즈 다이어그램(논문의 그림 1)에 요약되어 있으며 수치 실험을 통해 검증되었습니다:

이론적 곡선: 유도된 학습 곡선은 $m=\infty$ 이고 작은 $t$ (역과정의 끝 근처)일 때, $\psi_p$ 가 증가함에 따라 트레인 에러는 감소하지만, $\psi_p > \psi_n$ 일 때 테스트 에러가 급격히 상승하여 암기를 나타냄을 보여줍니다. 반대로 $m=1$ 인 경우, $\psi_p$ 가 크더라도 테스트 에러가 낮게 유지되어 모델이 강한 암기 동작을 보이지 않음을 시사합니다.
수치적 검증:
- 합성 데이터: 가우시안 데이터와 RFNN 스코어를 사용한 실험은 과잉 매개변수화 체제에서 $n/p$ 비율이 감소하고 $m$ 이 증가함에 따라 암기가 증가함을 확인합니다.
- 실제 데이터: Fashion-MNIST 및 MNIST 데이터셋에 U-Net 아키텍처를 사용한 실험은 이론적 예측이 실제 환경에서도 유효함을 보여줍니다. 암기(생성 과정 중 학습 샘플의 검색으로 측정됨)는 모델 파라미터 $p$ 에 비해 학습 샘플 수 $n$ 이 감소할수록 증가하며, 과잉 매개변수화 모델에서 $m$ 이 커짐에 따라 증가합니다.

의의 및 주장

본 논문은 확산 모델의 암기에서 $m$ 의 역할을 다룬 최초의 이론적 연구라고 주장합니다. 저자들은 자신들의 단순화된 설정(RFNN, 가우시안 데이터, 타임 스텝당 독립적 추정기)이 일반화와 암기 메커니즘을 이해하기 위한 기초적인 단계 역할을 한다고 강조합니다.

논문의 의의에 관한 주요 주장은 다음과 같습니다:

메커니즘적 통찰: 본 연구는 암기가 왜 발생하는지를 밝힙니다. 과잉 매개변수화된 체제에서 높은 $m$ 으로 DSM 손실을 최소화하면, 학습된 스코어가 경험적 최적 스코어를 근사하도록 강제되어 생성 과정을 학습 데이터 포인트로 몰아넣게 됩니다.
실무적 관련성: 이론적 예측은 실제 데이터셋(U-Net 기반)에 대한 경험적 관찰과 일치하며, 이는 노이즈 샘플 수가 일반화와 암기 사이의 트레이드오프를 조절하는 핵심 하이퍼파라미터임을 시사합니다.
이론적 가교: 본 연구는 암기에 대한 경험적 관찰과 엄밀한 통계 물리학적 분석 사이의 간극을 메우며, 데이터 크기, 모델 복잡도, 노이즈 샘플링 빈도의 비율을 기반으로 모델 동작을 예측할 수 있는 정밀한 프레임워크를 제공합니다.

저자들은 분석의 용이성을 위해 단순화에 의존했음을 언급하며, 향-후 연구를 통해 더 복잡한 스코어 모델, 비가우시안 데이터, 그리고 명시적인 시간 의존적 스코어 함수로 결과를 확장할 필요가 있다는 점을 겸허히 밝히고 있습니다.

Denoising Score Matching with Random Features: Insights on Diffusion Models from Precise Learning Curves