Each language version is independently generated for its own context, not a direct translation.

🎨 "Next Visual Granularity (NVG)": 그림을 그리는 새로운 방식

이 논문은 이미지 생성 AI가 그림을 그리는 방식을 완전히 바꾼 새로운 방법론을 소개합니다. 기존 방식들이 그림을 '한 번에' 혹은 '단어처럼 나열'해서 그렸다면, 이 새로운 방식은 마치 예술가가 스케치부터 시작해 세부 묘사를 하나하나 채워나가는 과정을 그대로 모방합니다.

이 복잡한 기술을 일상적인 비유로 쉽게 설명해 드릴게요.

1. 기존 방식의 문제점: "모자이크 vs. 단어 나열"

기존의 AI 그림 그리기 방식은 크게 두 가지였습니다.

확산 모델 (Diffusion): 안개 속에서 그림을 그려나가는 방식입니다. 처음엔 흐릿한 안개만 있다가, 점점 안개가 걷히면서 선명한 그림이 나타납니다. 하지만 어떤 부분이 먼저 그려질지, 구조가 어떻게 잡힐지를 AI가 스스로 결정하기 때문에, 우리가 원하는 대로 구조를 정확히 통제하기 어렵습니다.
자동 회귀 모델 (VAR 등): 그림을 '문장'처럼 토큰 (단어) 나열로 봅니다. "개, 풀, 하늘" 순서로 단어를 하나씩 채워 넣습니다. 하지만 이 방식은 오류가 쌓이는 문제가 있습니다. 첫 단어를 잘못 쓰면 그 뒤의 모든 그림이 꼬여버릴 수 있습니다.

2. NVG 의 핵심 아이디어: "점점 선명해지는 그림"

이 논문이 제안한 **NVG(Next Visual Granularity)**는 그림을 그릴 때 해상도 (세부 묘사 수준) 를 단계별로 조절합니다.

🖌️ 비유: "거친 스케치부터 시작하는 화가"

상상해 보세요. 한 화가가 캔버스에 그림을 그릴 때 어떻게 할까요?

1 단계 (거친 스케치): 화가는 캔버스 전체를 단 하나의 큰 덩어리로 봅니다. "여기는 배경, 저기는 앞쪽" 정도로만 구분합니다. (이때는 구조도만 있고, 색이나 디테일은 없습니다.)
2 단계 (구체화): 이제 그 큰 덩어리를 두 개의 영역으로 나눕니다. "배경은 하늘, 앞쪽은 땅"처럼요.
3 단계 (세부화): 하늘을 구름과 파란색으로, 땅을 풀과 흙으로 더 세분화합니다.
마지막 단계 (디테일): 이제 구름의 모양, 풀 한 올 한 올의 질감까지 채워 넣습니다.

NVG 는 바로 이 과정을 AI 가 자동으로 수행하게 합니다.

구조도 (Structure Map): "어디에 무엇을 그릴지"를 정하는 청사진입니다.
콘텐츠 (Content): 그 청사진에 색과 질감을 입히는 작업입니다.

이 방식은 그림을 그릴 때 실수가 쌓이는 것을 막아줍니다. 처음에 거친 구조를 잘 잡으면, 나중에 디테일을 채울 때 그 틀 안에서만 수정하면 되니까요.

3. 이 방식의 놀라운 장점들

🧩 1. "레고 블록"처럼 구조를 재사용할 수 있다

기존 방식은 새로운 그림을 그릴 때마다 처음부터 다 그립니다. 하지만 NVG 는 구조 (청사진) 만은 다른 그림에서 가져와서 쓸 수 있습니다.

예시: "타조" 그림의 구조 (머리, 목, 몸통, 다리 배치) 를 가져와서, 그 안에 "토끼"의 내용을 채워 넣으면? 토끼가 타조처럼 서 있는 이상한 그림이 나옵니다!
이는 마치 레고 블록의 뼈대 (구조) 는 그대로 두고, 블록의 색상과 모양 (내용) 만 바꾸는 것과 같습니다. 사용자가 원하는 구조를 직접 줄 수도 있어, AI 가 엉뚱한 그림을 그리는 것을 막을 수 있습니다.

📈 2. AI 가 커질수록 더 똑똑해진다 (확장성)

이 논문은 AI 모델의 크기를 키울수록 그림의 질이 꾸준히 좋아진다는 것을 증명했습니다.

작은 모델은 3.30 점 (FID 점수, 낮을수록 좋음) 을 받았는데, 큰 모델로 키우니 3.03 점으로 향상되었습니다.
이는 기존에 가장 잘하던 모델 (VAR) 보다도 더 좋은 점수를 기록했습니다.

🎯 3. 실수 수정이 쉽다 (오류 누적 방지)

기존 방식은 첫 단어를 잘못 쓰면 끝까지 망칩니다. 하지만 NVG 는 단계별로 수정이 가능합니다.

만약 1 단계에서 구조가 조금 어색하다면, 2 단계나 3 단계에서 AI 가 그 오류를 자연스럽게 보정해 줍니다. 마치 화가가 스케치를 보고 "아, 이 다리 길이가 짧네" 하고 수정하는 것과 같습니다.

4. 요약: 왜 이 기술이 중요한가?

이 기술은 AI 가 그림을 그릴 때 "무작위성"을 줄이고 "통제력"을 높였습니다.

기존: "안개 속에서 그림을 그려라" (통제 어려움)
기존 2: "단어 나열로 그림을 그려라" (오류 누적)
NVG: "거친 스케치 → 뼈대 → 살 → 피부 → 화장" 순서로 차근차근 그려라! (통제 가능, 오류 적음)

이제 우리는 AI 에게 "여기에 강아지를 그려줘"라고 말할 때, **"강아지의 자세는 이 청사진처럼 해줘"**라고 구조까지 지시할 수 있게 되었습니다. 이는 디자인, 애니메이션, 게임 등 구체적인 구조가 필요한 분야에서 AI 의 활용도를 획기적으로 높여줄 것입니다.

한 줄 요약:

"이 기술은 AI 가 그림을 그릴 때, 거친 스케치부터 시작해 디테일을 하나하나 채워나가는 '현실적인 화가'의 방식을 따라하게 만들어, 더 정확하고 통제 가능한 그림을 만들어냅니다."

Each language version is independently generated for its own context, not a direct translation.

1. 문제 제기 (Problem Statement)

기존의 이미지 생성 모델들은 이미지를 이해하고 처리하는 방식에 한계가 있었습니다.

시퀀스 기반 모델 (Autoregressive/Masked): 이미지를 언어와 유사한 '시퀀스'로 취급하여 1 차원적으로 처리합니다. 이는 이미지의 풍부한 2 차원 공간 구조를 무시하거나, 초기 토큰 생성 시 오류가 누적되는 (Exposure Bias) 문제를 야기합니다.
확산/유동 기반 모델 (Diffusion/Flow): 고차원 확률 분포를 모델링하지만, 생성 과정을 정밀하게 제어하기 위해 추가적인 모듈이나 미세 조정 (Fine-tuning) 이 필요하며, 구조적 제어가 내재되어 있지 않습니다.
기존 시각적 자기회귀 모델 (VAR): 다중 해상도 (Pyramid) 를 사용하지만, 초기 단계에서 하나의 토큰이 너무 넓고 의미적으로 다양한 영역을 대표하여 표현의 모호성 (Ambiguity) 이 발생할 수 있습니다.

이러한 배경에서, 이미지의 공간적 구조를 명시적으로 모델링하고, 생성 과정을 자연스러운 ' coarse-to-fine (거칠게부터 정밀하게)' 단계로 제어할 수 있는 새로운 프레임워크가 필요했습니다.

2. 방법론 (Methodology)

저자들은 **Next Visual Granularity (NVG)**라는 새로운 생성 프레임워크를 제안합니다. 핵심 아이디어는 이미지를 다양한 수준의 '시각적 세분성 (Visual Granularity)'을 가진 구조화된 시퀀스로 분해하는 것입니다.

2.1. 시각적 세분성 시퀀스 (Visual Granularity Sequence) 구성

데이터 기반 클러스터링: 가장 미세한 단계 (각 픽셀/토큰이 고유) 에서 시작하여, 유사한 토큰들을 반복적으로 클러스터링하여 하나의 큰 클러스터 (전체 이미지) 로 병합하는 Bottom-up 전략을 사용합니다.
구조 맵 (Structure Map) 과 콘텐츠 (Content): 각 단계 $i$ $i$ 에서 이미지는 동일한 공간 해상도를 유지하지만, 고유 토큰의 수가 감소합니다.
- 콘텐츠 ( $c_i$ ): 해당 단계의 고유 토큰 집합.
- 구조 맵 ( $s_i$ ): $h \times w$ 크기의 행렬로, 각 공간 위치에 어떤 토큰이 할당되었는지를 나타내는 이진 (또는 다중 클래스) 지도입니다.
잔차 학습 (Residual Learning): VAR 와 유사하게, 각 단계는 이전 단계들의 오차 (Quantization Error) 를 보정하는 형태로 학습됩니다. 즉, $x_i = \sum a(c_j, s_j)$ 로 표현되며, 모델은 현재 캔버스 ( $x_i$ ) 와 최종 이미지 ( $x$ ) 의 차이를 예측합니다.

2.2. NVG 생성 파이프라인

생성 과정은 각 단계에서 **구조 (Structure)**를 먼저 생성한 후, 해당 구조에 기반하여 **콘텐츠 (Content)**를 생성하는 두 단계로 나뉩니다.

구조 생성기 (Structure Generator):
- 역할: 이미지의 전체적인 레이아웃과 계층적 구조를 정의하는 이진 구조 맵을 생성합니다.
- 방법: 경량화된 Rectified Flow 모델을 사용하여 효율적으로 학습합니다.
- 특징: 초기 단계 (Cold-start) 문제를 해결하기 위해 이전 단계들의 구조 정보를 'Inpainting' 방식으로 활용하며, Gumbel-top-k 샘플링을 통해 구조의 다양성을 확보합니다.
콘텐츠 생성기 (Content Generator):
- 역할: 구조 맵에 따라 구체적인 이미지 디테일 (색상, 질감, 객체 형태) 을 채웁니다.
- 방법: Transformer 기반의 모델로, **Structure-Aware RoPE (Rotary Position Embedding)**를 도입하여 토큰 간의 위계적 구조 관계를 인코딩합니다.
- 학습 목표: 현재 캔버스와 최종 캔버스의 차이를 예측 (Residual Prediction) 하도록 훈련되며, 이를 통해 노출 편향 (Exposure Bias) 을 줄이고 재구성 품질을 높입니다.

3. 주요 기여 (Key Contributions)

구조화된 거칠기에서 정밀함으로의 생성 (Structured Coarse-to-Fine Generation): 이미지의 생성 과정을 자연스러운 예술적 과정 (배경/전경 분리 $\rightarrow$ 객체 형태 $\rightarrow$ 세부 디테일) 에 맞춰 계층적으로 제어합니다.
명시적인 구조 제어 (Explicit Structure Control): 생성 과정 자체에 구조 맵을 통합하여, 별도의 추가 모듈 없이도 생성된 이미지의 레이아웃을 정밀하게 제어할 수 있습니다. 또한, 참조 이미지의 구조 맵을 재사용하여 다른 콘텐츠 (예: 다른 동물) 를 생성하는 **구조 전이 (Structure Transfer)**가 가능합니다.
표현 모호성 해소: VAR 의 공간 크기 축소 방식 대신, **토큰 수의 감소 (세분성 변화)**를 통해 초기 단계의 토큰이 의미 있는 영역을 명확히 표현하도록 하여 표현의 모호성을 줄였습니다.
확장성 (Scalability): 모델 크기를 키울수록 성능이 꾸준히 향상되는 명확한 스케일링 법칙을 입증했습니다.

4. 실험 결과 (Results)

데이터셋: ImageNet 256x256 클래스 조건부 이미지 생성 태스크.
성능 지표 (FID, IS, Recall):
- NVG 는 기존 최첨단 모델인 VAR (Visual Autoregressive Modeling) 시리즈를 일관되게 능가했습니다.
- 예: VAR-d24 (FID 2.09) 대비 NVG-d24 는 FID 2.06을 기록하며 더 높은 품질을 보였습니다. (FID 3.30 $\rightarrow$ 3.03, 2.57 $\rightarrow$ 2.44, 2.09 $\rightarrow$ 2.06 개선).
- Inception Score (IS) 와 Recall 점수에서도 동급 또는 우위를 보였습니다.
효율성:
- VAR 보다 적은 토큰 수 (고유 토큰 기준) 로 더 높은 재구성 품질 (rFID 0.74 vs VAR 1.06) 을 달성했습니다.
- 구조 생성 단계를 포함하더라도 확산 모델 (SiT-X) 이나 다른 자기회귀 모델 (IBQ-XL) 보다 추론 속도가 빠르고 메모리 사용량이 적습니다.
정성적 분석:
- 생성된 이미지는 구조 맵과 높은 일치도를 보이며, 복잡한 장면이나 불명확한 구조 맵에서도 견고하게 작동함을 확인했습니다.
- 구조 맵을 변경하거나 참조 이미지의 구조를 재사용하여 다양한 콘텐츠를 생성하는 데 성공했습니다.

5. 의의 및 결론 (Significance)

이 논문은 이미지 생성 분야에서 구조 (Structure) 와 콘텐츠 (Content) 를 명시적으로 분리하고 계층적으로 제어할 수 있는 새로운 패러다임을 제시했습니다.

제어 가능성: 생성 과정의 각 단계가 특정 수준의 시각적 정보 (전체 레이아웃, 객체 부분, 미세 질감) 를 담당하므로, 사용자가 원하는 대로 생성 과정을 정밀하게 제어할 수 있습니다.
미래 방향: 이 프레임워크는 디자인, 과학적 시각화, 그리고 구조적 일관성이 필요한 비디오 생성 (시간에 따른 영역 추적) 등으로 확장될 수 있는 잠재력을 가지고 있습니다.
기술적 기여: 기존 자기회귀 모델의 노출 편향 문제와 확산 모델의 제어 어려움 사이의 균형을 맞추는 효과적인 학습 패러다임을 제시했다는 점에서 의미가 큽니다.

요약하자면, NVG는 이미지를 단순한 토큰 시퀀스가 아닌, 점진적으로 세분화되는 구조화된 시퀀스로 재해석함으로써 더 높은 품질의 이미지 생성과 정밀한 구조 제어를 동시에 실현한 획기적인 연구입니다.

Next Visual Granularity Generation