💻 computer science

Learning a Maximum Entropy Model for Visual Textures using Diffusion

이 논문은 확산 모델 기술을 활용하여 시각적 질감의 압축된 최대 엔트로피 모델을 학습하기 위한 최초의 원리적인 비지도 학습 방법을 소개하며, 이는 훨씬 적은 통계량으로도 최첨단 생성 품질을 달성하고 표현 공간에서의 매끄러운 보간을 가능하게 한다.

원저자: Xinyuan Zhao, Eero P. Simoncelli

게시일 2026-06-17

📖 4 분 읽기☕ 가벼운 읽기

CC BY 4.0

원저자: Xinyuan Zhao, Eero P. Simoncelli

원본 논문은 CC BY 4.0 (http://creativecommons.org/licenses/by/4.0/) 라이선스로 제공됩니다. ✨ 이것은 아래 논문에 대한 AI 생성 설명입니다. 저자가 작성하거나 승인한 것이 아닙니다. 기술적 정확성을 위해서는 원본 논문을 참조하세요. 전체 면책 조항 읽기

핵심 아이디어: 컴퓨터에게 질감을 "느끼는" 법 가르치기

풀밭을 보고 있다고 상상해 보세요. 그것은 단순히 초록색 뭉텅이가 아닙니다. 어떤 것은 휘어져 있고, 어떤 것은 곧게 뻗어 있으며, 어떤 것은 밝고 어떤 것은 어두운 수천 개의 개별적인 풀잎들이 이루는 복잡한 패턴입니다. 컴퓨터 비전에서는 이를 **시각적 질감(visual texture)**이라고 부릅니다.

오랫동안 컴퓨터는 이러한 질감을 재현하려고 노력해 왔습니다. 기존의 방식은 마치 요리사가 재료를 추측하여 수프 레시피를 복사하려는 것과 같았습니다. 그들은 다음 두 가지 방식을 사용했습니다:

규칙을 직접 정하기: 인간 전문가가 "좋아, 잔디를 위해서는 초록색 픽셀이 다른 초록색 픽셀과 얼마나 맞닿아 있는지 세어야 해"라고 말하는 방식입니다.
빌려온 뇌 사용하기: 컴퓨터 네트워크가 고양이와 강아지를 인식하도록 훈련되었다면, 그 "고양이를 감지하는" 뇌를 사용하여 잔디가 어떻게 보이는지 알아내려고 시도하는 방식입니다.

두 방법 모두 어느 정도 작동했지만, 완벽하지는 않았습니다. 너무 경직되어 있거나, 다른 작업에 설계된 도구를 빌려 쓰고 있었기 때문입니다.

이 논문은 새로운 방법을 소개합니다: 저자들은 컴퓨터가 거대한 질감 사진 라이브러리로부터 직접 스스로 규칙을 학습하도록 가르칩니다. 그들은 이를 "최대 엔트로피 모델(Maximum Entropy Model)"이라고 부르는데, 이는 다음과 같이 말하는 것과 같습니다: "원래 질감의 특정 '지문'과 일치하기만 한다면, 가능한 한 가장 무작위적이고 자연스러워 보이는 이미지를 만들어라."

비밀 소스: "노이즈 제거" 게임

인간이 무엇을 찾아보라고 알려주지 않고 어떻게 컴퓨터가 이러한 규칙을 배우도록 가르칠 수 있을까요? 저자들은 **확산 모델(Diffusion Models)**이라 불리는 인기 있는 AI 유형에서 빌려온 영리한 트릭을 사용합니다.

이것은 마치 "정적 속에서 그림 맞히기" 게임과 같습니다.

설정: 벽돌 벽의 선명한 사진이 있다고 상상해 보세요.
2.로 노이즈: 사진 위에 정적(화이트 노이즈)을 천천히 부어서 형체를 완전히 알아볼 수 없게 만듭니다.
훈련: 컴퓨터에게 이 노이즈 섞인 덩어리를 보여주며 "원래 사진이 어떤 모습이었을까?"라고 묻습니다. 컴퓨터는 "깨끗한" 버전을 추측하려고 노력합니다.
학습: 수백만 번의 시도를 통해, 컴퓨터는 벽돌 벽을 설명하는 특정한 512개의 숫자(통계치)를 학습합니다. 이 숫자들은 해당 특정 질감을 나타내는 고유한 ID 카드 역할을 합니다.

마법 같은 점은 컴퓨터가 어떤 숫자가 중요한지를 스스로 알아낸다는 것입니다. "줄눈(mortar lines)을 찾아라"라고 인간이 말해줄 필요가 없습니다. 컴퓨터는 단지 특정 패턴의 노이즈 제거 작업이 벽돌에 가장 잘 작동한다는 것을 배울 뿐입니다.

두 가지 마법의 기술: 매칭 vs 확산

컴퓨터가 질감에 대한 이 512개의 "ID 숫자"를 학습하고 나면, 두 가지 방식으로 새로운 질감 사진을 만들 수 있습니다.

1. "통계적 매칭" (퍼즐 해결사)
당신에게 퍼즐 조각 주머니가 있다고 상상해 보세요. 당신은 벽돌 벽을 위한 "평균적인" 퍼즐 조각이 어떤 모습인지 알고 있습니다. 빈 캔버스에서 시작하여, 당신의 새 그림의 "평균"이 원래 벽돌 벽의 "평균"과 일치할 때까지 픽셀을 계속 섞습니다.

결과: 이는 매우 높은 품질의 사실적인 질감을 만들어냅니다.

2. "확산" (조각가)
먼지(노이즈)로 덮인 대리석 블록이 있다고 상상해 보세요. 이전에 배웠던 "ID 숫자"의 안내에 따라 먼지를 천천히 깎아냅니다. 노이즈를 제거함에 따라, 혼돈 속에서 벽돌 벽의 형태가 서서히 드러납니다.

결과: 이 역시 훌륭한 질감을 만들어내지만, 퍼즐 해결사 방식보다는 약간 덜 선명할 때가 있습니다.

왜 기존 방식보다 더 나은가요?

저자들은 자신들의 새로운 모델을 현재 질감 생성의 "챔피언"(Gatys 모델이라고 불림)과 비교했습니다. 여기 대결 결과가 있습니다:

크기가 중요하다: 기존의 챔피언은 거인입니다. 그는 질감을 설명하기 위해 176,640개의 서로 다른 규칙(통계)을 사용합니다. 이는 모든 악기의 모든 진동 하나하나를 목록으로 적어 노래를 설명하려는 것과 같습니다.
새로운 챔피언: 이 논문에 소개된 새로운 모델은 아주 작습니다. 그는 단 512개의 규칙만을 사용합니다. 이는 노래를 설명할 때 멜로디와 리듬만 목록으로 적는 것과 같습니다.
결과: 이 모델은 300배나 더 작음에도 불구하고, 거인 모델만큼 혹은 그보다 더 좋은 사진을 만들어냅니다.

"스무디" 테스트: 질감 혼합하기

저자들이 테스트한 가장 멋진 것 중 하나는 보간(interpolation), 즉 혼합입니다.

모래 사진과 물 사진이 있다고 상상해 보세요.

기존 방식 (Gatys): 이들을 혼합하려고 하면, 컴퓨터는 종종 이상한 체크무늬 패턴을 만듭니다. 이는 모래 한 조각과 물 한 조각을 가져다가 옆에 나란히 테이프로 붙여놓은 것과 같습니다. 매끄러운 전환이 아니라 지저도한 콜라주처럼 보입니다.
새로운 방식: 저자들이 모래와 물의 "ID 숫자"를 혼합했을 때, 컴퓨터는 진흙이나 젖은 모래처럼 보이는 질감을 생성했습니다. 두 질감의 특징이 자연스럽게 합쳐지며 매끄럽고 균질한 전환을 만들어냈습니다.

이는 새로운 모델이 질감 공간의 "형태"를 훨씬 더 잘 이해하고 있음을 시사합니다.

"적대적" 테스트: 결함 찾기

누가 더 나은지 확인하기 위해 저자들은 두 모델을 서로 싸우게 만들었습니다.

그들은 물었습니다: "너에게는 벽돌 벽처럼 보이지만, 나에게는 완전한 쓰레기처럼 보이는 사진을 만들 수 있니?"
기존 모델의 약점: 인간은 거의 볼 수 없는 고주파 노이즈(미세하고 거슬리는 정적)에 쉽게 속았습니다. 모델은 이 노이즈를 벽의 일부라고 생각했습니다.
새로운 모델의 약점: 때때로 전체와 어울리지 않는 이상한 국소적 패턴을 만들기도 했지만, 일반적으로 속이기가 훨씬 더 어려웠습니다.

결론

이 논문은 컴퓨터가 질감을 이해하고 재현하는 법을 가르치는 새롭고 효율적인 방법을 제시합니다.

자동으로 학습합니다: 인간이 규칙을 직접 코딩할 필요가 없습니다.
효율적입니다: 기존 모델이 필요한 데이터의 아주 적은 부분(512 대 176,000)만을 사용합니다.
매끄럽습니다: 질감을 자연스럽게 혼합하여 그 사이에 있는 새로운 사실적인 재료들을 만들어낼 수 있습니다.

저자들은 이 모델이 고품질이면서도 수학적으로 깔끔하기 때문에, 인간의 뇌나 동물의 뉴런이 질감에 어떻게 반응하는지를 테스트하기 위해 특정한 시각적 패턴을 만들어야 하는 과학자들에게 강력한 도구가 될 수 있다고 제안합니다.

기술 요약: 확산을 이용한 최대 엔트로피 모델의 시각적 질감 학습

문제 정의

시각적 질감(Visual textures)은 풀이나 나무껍질처럼 반복되는 요소를 포함하는 공간적으로 균질한 이미지 영역으로, 도처에 존재하며 재료 인식에 매우 중요하다. 기존의 질감 모델은 일반적으로 질감 앙상블을 정의하기 위해 일련의 국소 통계량(local statistics)에 의존한다. Julesz의 가설과 최대 엔트로피 원리에 따르면, 질감 클래스는 특정 통계량 세트와 일치하는 "가장 무작위한" 확률 밀도로 모델링될 수 있다. 그러나 현재의 접근 방식들은 두 가지 주요 한계점을 가진다:

수동 설계 또는 전이 학습된 통계량: 기존의 통계량은 수동으로 설계되었거나(예: Heiger 및 Bergen, Portilla 및 Simoncelli), 혹은 관련 없는 작업(예: VGG19를 사용하는 Gatys 등)을 위해 사전 학습된 네트워크로부터 추출되었다(예: Gatys 등).
확장성 대 품질의 트레이드오프: Gatys 등의 최첨단 모델은 높은 시각적 품질을 달성하지만 방대한 파라미터 세트(~177k 통계량)에 의존하는 반면, 더 작은 수동 설계 모델들은 시각적 충실도가 떨어진다.

저자들은 질감을 매개변수화할 수 있는 최대 엔트로피 확률 모델을 위한 통계량 세트를 **비지도 학습(unsupervised learning)**하는 최초의 원칙적인 방법과, 동시에 효율적인 샘플링 절차를 도출하는 것을 목표로 한다.

방법론

1. 최대 엔트로피 정식화

저자들은 이미지 $x$ 에 대한 파라미터 확률 밀도 $p_\lambda(x)$ 를 $d$ 개의 통계량 $f(x)$ 에 대한 제약을 따르는 최대 엔트로피 분포로 정식화한다:
$p_\lambda(x) = \frac{1}{Z(\lambda)} \exp\left( -\sum_{k=1}^d \lambda_k f_k(x) \right)$
여기서 $\mu = E[f(x)]$ 는 타겟 통계량을 나타내며, $\lambda$ 는 $\mu$ 에 의해 유일하게 결정되는 라그랑주 승수(Lagrange multipliers)이다. 목표는 데이터로부터 직접 함수 $f$ (통계량 추출기)와 $\lambda$ 로의 매핑을 학습하는 것이다.

2. 확산(Diffusion)을 통한 학습

최대 가능도(maximum likelihood)를 통한 $f$ 와 $\lambda$ 의 직접적인 최적화는 분배 함수(partition function) $Z(\lambda)$ 로 인해 다루기 어렵다. 대신, 저자들은 **생성적 확산 모델(generative diffusion models)**을 활용한다:

스코어 매칭(Score Matching): 노이즈가 섞인 이미지 $y$ 로부터 가우시안 노이즈 $\epsilon$ 을 예측하도록 학습된 디노이징 네트워크는 스코어 함수 $\nabla_y \log p(y)$ 를 근사한다.
아키텍처: 모델은 두 개의 네트워크 구조(그림 1)를 채택한다:
- 통계량 네트워크 ( $f_\theta$ ): 노이즈가 섞인 이미지 $y$ 를 처리하는 UNet 스타일의 인코더이다. 이 모델은 독립적인 파라미터를 가진 쌍둥이 인코더를 사용하며, 출력 통계량 $f_\theta(y)$ 는 대응하는 채널들의 내적(inner product)으로 계산된다.
- 가중치 네트워크 ( $\lambda_\phi$ ): 깨끗한 참조 이미지 $x$ 와 노이즈 레벨 $\sigma$ 를 입력으로 받아 가중치 $\lambda_\phi(x, \sigma)$ 를 출력하는 ConvNeXt-T 모델이다.
목표: 네트워크들은 예측된 노이즈와 실제 노이즈 사이의 평균 제곱 오차(MSE)를 최소화하도록 공동 학습되며, 이는 $Z(\lambda)$ 를 명시적으로 계산하지 않고도 최대 엔트로피 밀도의 스코어를 효과적으로 학습한다.
데이터셋: 모델은 ImageNet21K에서 추출한 100만 개의 균질한 128x128 패치로 학습되며, 이 패치들은 가향 피라미드 분해(steerable pyramid decomposition)로부터 도출된 "균질성" 기준에 따라 선택되었다.

3. 샘플링 절차

본 논문은 참조 이미지 $x_0$ 에 조건화된 새로운 질감을 생성하기 위해 두 가지 방법을 비교한다:

통계량 매칭(Statistics Matching): 이미지 $x$ 를 $\|f(x) - f(x_0)\|^2$ 를 최소화하도록 반복적으로 업데이트하는 최적화 기반 접근 방식이다. 이는 이전 질감 모델들에서 사용된 표준적인 방법이다.
확산 샘플링(Diffusion Sampling): 학습된 스코어 함수를 사용하여 각 타임스텝에서 가중치 $\lambda(x_0, \sigma_t)$ 에 조건화된 역방향 확산 과정(DDPM)을 수행하는 생성적 접근 방식이다.

4. 경쟁적 적대적 비교(Competitive Adversarial Comparison)

모델들을 직접 비교하기 위해 저자들은 "MAD 경쟁" 전략을 사용한다. 참조 $x_0$ 가 주어졌을 때, 한 모델의 통계량에 따르면 $x_0$ 와 일치하지만 다른 모델의 통계량에 따르면 최대한 달라지도록 하는 이미지 $x$ 를 합성한다. 이는 각 모델의 구체적인 사각지대와 아티팩트(artifacts)를 드러낸다.

핵심 기여

통계량의 비지도 학습: 수동 설계나 전이 학습에 의존하는 대신, 최대 엔트로피 질감 모델을 매개변수화하기 위해 데이터로부터 통계량을 학습하는 최초의 방법이다.
컴팩트한 고품질 모델: 학습된 모델은 단 512개의 통계량(파라미터)을 사용하면서도, 176,640개의 통계량을 사용하는 최첨단 Gatys 모델과 대등하거나 더 나은 시각적 품질을 생성한다.
샘플링 비교: 통계량 매칭이 제안된 모델에 대해 더 높은 품질의 샘로를 생성하는 반면, 확산 샘플링은 독특한 생성 경로를 제공한다는 것을 보여주는 체계적인 비교를 수행하였다.
표현 공간 분석: 학습된 표현 공간이 질감 간의 매끄러운 보간(interpolation)을 허용함을 입증하였다. Gatys 모델이 보간 중에 패치 단위의 공간적 혼합을 생성하는 것과 달리, 제안된 모델은 양 끝단 사이를 부드럽게 전환하는 특징을 가진 균질한 질감을 생성한다.

결과

시각적 품질: 테스트된 질감 클래스(풀, 자갈, 별 등)에 대해, 통계량 매칭을 적용한 제안 모델은 Gatys 모델과 시각적으로 유사하거나 더 우수한 이미지를 생성한다.
FID 점수: 모델은 테스트된 9개 질감 클래스 중 8개에서 Gatys 모델보다 더 나은 Fréchet Inception Distance(FID) 점수를 달성했다. 저자들은 FID가 ImageNet 카테고리로 학습된 객체 인식 네트워크에 의존하기 때문에 질감 평가에는 이상적이지 않다고 언급했다.
적대적 비교:
- 고주파 제약(high-pass constraints)이 없는 Gatys 모델은 제안된 모델과 달라지도록 강제될 때 고주파 아티팩트를 생성한다.
- 제안된 모델이 Gats 모델과 달라지도록 강제될 때, 국소적인 방향성 구조(oriented structures)와 관련된 특정 아티팩트를 보인다.
보간(Interpolation): 제안된 모델에서 두 질감 표현( $\mu$ 또는 $\lambda$ ) 사이를 보간하면 특징이 부드럽게 전환되는 균질한 질감이 생성된다. 반면, Gatys 모델은 "이중 노출" 또는 패치 단위의 혼합을 생성하여 비볼록(non-convex) 표현 공간을 나타낸다.

의의 및 주장

본 논문은 통계적 질감 이론과 현대 생성 딥러닝 사이의 간극을 메우는 원칙적이고 데이터 기반인 프레임워크를 제공한다고 주장한다.

효율성: 컴팩트한 학습 통계량(512개)이 방대한 수동 설계 또는 전이 학습된 통계량(~177k)보다 뛰어날 수 있음을 보여주며, 이는 통계량의 절대적인 양보다 구체적인 선택이 더 중요하다는 것을 시사한다.
과학적 유용성: 저자들은 이 모델이 신경과학 및 심리학을 위한 도구로서 가질 잠재력을 강조한다. 고차원의 해석 불가능한 Gatys 모델이나 품질이 낮은 수동 설계 모델과 달리, 이 512차원 모델은 시각적 충실도와 해석 가능성 사이의 균형을 제공하여 연구자들이 잘 정의된 표현 공간 내에서 신경 반응을 특성화할 수 있게 한다.
일반성: 이 방법은 적절한 유도 편향(inductive biases)이 네트워크 아키텍처에 적용된다면, 최대 엔로피 모델로 설명될 수 있는 다른 데이터 모달리티(예: 시간적 소리 세그먼트, 비디오 패치, 신경 스파이크 데이터)에도 일반화될 수 있다고 제시된다.