Next Visual Granularity Generation

이 논문은 빈 이미지에서 시작해 전역 레이아웃부터 세부 디테일까지 점진적으로 시각적 세분화 단계를 생성하는 '다음 시각적 세분화 (NVG)' 프레임워크를 제안하여 ImageNet 데이터셋에서 VAR 시리즈보다 우수한 성능을 입증했습니다.

Yikai Wang, Zhouxia Wang, Zhonghua Wu, Qingyi Tao, Kang Liao, Chen Change Loy

게시일 2026-03-03
📖 4 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

🎨 "Next Visual Granularity (NVG)": 그림을 그리는 새로운 방식

이 논문은 이미지 생성 AI가 그림을 그리는 방식을 완전히 바꾼 새로운 방법론을 소개합니다. 기존 방식들이 그림을 '한 번에' 혹은 '단어처럼 나열'해서 그렸다면, 이 새로운 방식은 마치 예술가가 스케치부터 시작해 세부 묘사를 하나하나 채워나가는 과정을 그대로 모방합니다.

이 복잡한 기술을 일상적인 비유로 쉽게 설명해 드릴게요.


1. 기존 방식의 문제점: "모자이크 vs. 단어 나열"

기존의 AI 그림 그리기 방식은 크게 두 가지였습니다.

  • 확산 모델 (Diffusion): 안개 속에서 그림을 그려나가는 방식입니다. 처음엔 흐릿한 안개만 있다가, 점점 안개가 걷히면서 선명한 그림이 나타납니다. 하지만 어떤 부분이 먼저 그려질지, 구조가 어떻게 잡힐지를 AI가 스스로 결정하기 때문에, 우리가 원하는 대로 구조를 정확히 통제하기 어렵습니다.
  • 자동 회귀 모델 (VAR 등): 그림을 '문장'처럼 토큰 (단어) 나열로 봅니다. "개, 풀, 하늘" 순서로 단어를 하나씩 채워 넣습니다. 하지만 이 방식은 오류가 쌓이는 문제가 있습니다. 첫 단어를 잘못 쓰면 그 뒤의 모든 그림이 꼬여버릴 수 있습니다.

2. NVG 의 핵심 아이디어: "점점 선명해지는 그림"

이 논문이 제안한 **NVG(Next Visual Granularity)**는 그림을 그릴 때 해상도 (세부 묘사 수준) 를 단계별로 조절합니다.

🖌️ 비유: "거친 스케치부터 시작하는 화가"

상상해 보세요. 한 화가가 캔버스에 그림을 그릴 때 어떻게 할까요?

  1. 1 단계 (거친 스케치): 화가는 캔버스 전체를 단 하나의 큰 덩어리로 봅니다. "여기는 배경, 저기는 앞쪽" 정도로만 구분합니다. (이때는 구조도만 있고, 색이나 디테일은 없습니다.)
  2. 2 단계 (구체화): 이제 그 큰 덩어리를 두 개의 영역으로 나눕니다. "배경은 하늘, 앞쪽은 땅"처럼요.
  3. 3 단계 (세부화): 하늘을 구름과 파란색으로, 땅을 풀과 흙으로 더 세분화합니다.
  4. 마지막 단계 (디테일): 이제 구름의 모양, 풀 한 올 한 올의 질감까지 채워 넣습니다.

NVG 는 바로 이 과정을 AI 가 자동으로 수행하게 합니다.

  • 구조도 (Structure Map): "어디에 무엇을 그릴지"를 정하는 청사진입니다.
  • 콘텐츠 (Content): 그 청사진에 색과 질감을 입히는 작업입니다.

이 방식은 그림을 그릴 때 실수가 쌓이는 것을 막아줍니다. 처음에 거친 구조를 잘 잡으면, 나중에 디테일을 채울 때 그 틀 안에서만 수정하면 되니까요.

3. 이 방식의 놀라운 장점들

🧩 1. "레고 블록"처럼 구조를 재사용할 수 있다

기존 방식은 새로운 그림을 그릴 때마다 처음부터 다 그립니다. 하지만 NVG 는 구조 (청사진) 만은 다른 그림에서 가져와서 쓸 수 있습니다.

  • 예시: "타조" 그림의 구조 (머리, 목, 몸통, 다리 배치) 를 가져와서, 그 안에 "토끼"의 내용을 채워 넣으면? 토끼가 타조처럼 서 있는 이상한 그림이 나옵니다!
  • 이는 마치 레고 블록의 뼈대 (구조) 는 그대로 두고, 블록의 색상과 모양 (내용) 만 바꾸는 것과 같습니다. 사용자가 원하는 구조를 직접 줄 수도 있어, AI 가 엉뚱한 그림을 그리는 것을 막을 수 있습니다.

📈 2. AI 가 커질수록 더 똑똑해진다 (확장성)

이 논문은 AI 모델의 크기를 키울수록 그림의 질이 꾸준히 좋아진다는 것을 증명했습니다.

  • 작은 모델은 3.30 점 (FID 점수, 낮을수록 좋음) 을 받았는데, 큰 모델로 키우니 3.03 점으로 향상되었습니다.
  • 이는 기존에 가장 잘하던 모델 (VAR) 보다도 더 좋은 점수를 기록했습니다.

🎯 3. 실수 수정이 쉽다 (오류 누적 방지)

기존 방식은 첫 단어를 잘못 쓰면 끝까지 망칩니다. 하지만 NVG 는 단계별로 수정이 가능합니다.

  • 만약 1 단계에서 구조가 조금 어색하다면, 2 단계나 3 단계에서 AI 가 그 오류를 자연스럽게 보정해 줍니다. 마치 화가가 스케치를 보고 "아, 이 다리 길이가 짧네" 하고 수정하는 것과 같습니다.

4. 요약: 왜 이 기술이 중요한가?

이 기술은 AI 가 그림을 그릴 때 "무작위성"을 줄이고 "통제력"을 높였습니다.

  • 기존: "안개 속에서 그림을 그려라" (통제 어려움)
  • 기존 2: "단어 나열로 그림을 그려라" (오류 누적)
  • NVG: "거친 스케치 → 뼈대 → 살 → 피부 → 화장" 순서로 차근차근 그려라! (통제 가능, 오류 적음)

이제 우리는 AI 에게 "여기에 강아지를 그려줘"라고 말할 때, **"강아지의 자세는 이 청사진처럼 해줘"**라고 구조까지 지시할 수 있게 되었습니다. 이는 디자인, 애니메이션, 게임 등 구체적인 구조가 필요한 분야에서 AI 의 활용도를 획기적으로 높여줄 것입니다.

한 줄 요약:

"이 기술은 AI 가 그림을 그릴 때, 거친 스케치부터 시작해 디테일을 하나하나 채워나가는 '현실적인 화가'의 방식을 따라하게 만들어, 더 정확하고 통제 가능한 그림을 만들어냅니다."