UltraGen: Efficient Ultra-High-Resolution Image Generation with Hierarchical Local Attention

UltraGen 은 계층적 로컬 어텐션과 저해상도 전역 가이드를 도입하여 어텐션 복잡도를 선형 수준으로 낮추고, 사전 훈련된 모델을 8K 이상의 초고해상도 이미지 생성에 효율적으로 확장하면서도 구조와 디테일의 일관성을 유지하는 새로운 프레임워크를 제안합니다.

Yuyao Zhang, Yu-Wing Tai

게시일 2026-03-12
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

UltraGen: 거대한 캔버스에 그림을 그리는 '효율적인 예술가'

이 논문은 **"UltraGen"**이라는 새로운 기술을 소개합니다. 이 기술은 인공지능 (AI) 이 아주 고화질의 거대한 그림 (예: 8K, 4K 해상도) 을 그릴 때 겪는 문제들을 해결해 줍니다.

기존 AI 는 작은 그림 (1K~2K) 을 그리는 데는 훌륭하지만, 거대한 그림을 그리려 하면 기억 용량이 부족해지거나 (메모리 오버플로우) 시간이 너무 오래 걸리는 치명적인 문제가 있었습니다. 마치 작은 방에서 벽화 그리기를 시도하다가 벽이 너무 커서 붓을 들고 다니는 것만으로도 지쳐버리는 것과 비슷하죠.

UltraGen 은 이 문제를 세 가지 창의적인 아이디어로 해결합니다.


1. "벽화를 조각조각 나누어 그리는 전략" (계층적 로컬 어텐션)

비유: 거대한 벽화 그리기
전통적인 AI 는 벽화 전체를 한 번에 보며 그립니다. 벽이 커지면 전체를 동시에 기억해야 하므로 뇌 (메모리) 가 터져버립니다.
UltraGen 은 **작은 타일 (Local Windows)**로 벽을 나눕니다.

  • 어떻게 하나요? AI 는 거대한 그림을 256x256 픽셀짜리 작은 조각 (타일) 으로 잘게 쪼갭니다.
  • 장점: AI 는 이제 거대한 벽 전체를 기억할 필요 없이, 현재 손에 들고 있는 작은 타일만 집중하면 됩니다.
  • 결과: 계산량이 기하급수적으로 줄어들어, 기존보다 10 배 이상 빨라지고 메모리 사용량도 크게 감소합니다. 마치 거대한 퍼즐을 한 번에 맞추려 하지 않고, 한 조각씩 맞춰가는 것과 같습니다.

2. "작은 스케치북으로 전체 구도를 잡기" (저해상도 글로벌 가이드)

비유: 건축 설계도
작은 타일만 보고 그림을 그리면, 각 타일끼리 이어질 때 모양이 어색해지거나 (예: 나무 줄기가 끊어지거나, 얼굴이 두 개 생기는 등) 전체적인 구도가 무너질 수 있습니다.
UltraGen 은 **작은 스케치북 (저해상도 이미지)**을 함께 사용합니다.

  • 어떻게 하나요? AI 는 먼저 전체적인 구도만 대략적으로 그린 아주 작은 그림 (예: 256x256) 을 먼저 그립니다. 이 작은 그림은 전체적인 구조 (사람이 어디에 서 있는지, 배경이 어떤지) 를 알려주는 나침반 역할을 합니다.
  • 장점: AI 는 이 작은 나침반을 보며, 각 타일 (작은 조각) 을 그릴 때 "아, 여기는 나무가 있어야지"라고 전체적인 맥락을 유지하면서 세부적인 디테일 (나뭇잎, 질감) 을 채워 넣습니다.
  • 결과: 작은 조각들이 모여도 전체적인 그림이 자연스럽게 연결되고, 디테일도 살아납니다.

3. "가벼운 보조 도구로 적응하기" (LoRA 적응)

비유: 기존 예술가의 새로운 붓
보통 고화질 그림을 그리려면 AI 를 처음부터 다시 훈련시켜야 하는데, 이는 엄청난 비용과 고화질 데이터가 필요합니다.
UltraGen 은 **기존에 잘 훈련된 AI(FLUX 등)**를 그대로 쓰되, **가벼운 보조 도구 (LoRA)**만 추가합니다.

  • 어떻게 하나요? AI 의 핵심 능력은 그대로 두되, "작은 스케치북을 어떻게 보고 큰 그림을 그릴지"만 가르치는 아주 작은 추가 레이어를 붙입니다.
  • 장점: 고화질 데이터가 없어도, 일반적인 1K 해상도 데이터만으로도 4K, 8K 이상의 초고화질 그림을 그릴 수 있게 됩니다. 마치 숙련된 화가가 새로운 대형 캔버스에 맞춰 붓만 살짝 바꾸는 것과 같습니다.

요약: 왜 이것이 중요한가요?

기존 AI 들은 고화질 그림을 그리려 하면 "기억이 부족해서 멈추거나 (OOM)" 혹은 "너무 오래 걸려서 실용적이지 못했습니다."

UltraGen은 다음과 같은 마법을 부립니다:

  1. 속도: 8K 해상도 그림을 그릴 때 기존보다 10 배 이상 빠릅니다.
  2. 효율: 고사양 그래픽카드가 없어도 일반 게이밍 PC 수준에서 구동 가능합니다.
  3. 품질: 전체적인 구도도 완벽하고, 눈썹 하나, 나뭇잎 하나까지 매우 선명하고 디테일한 그림을 그립니다.

결론적으로, UltraGen 은 AI 가 거대한 캔버스에 그림을 그릴 때, "한 번에 다 보려 하지 말고, 작은 조각으로 나누고 전체 구도는 작은 스케치로 확인하자"는 현명한 작업 방식을 제시하여, 누구나 쉽게 초고화질 이미지를 만들 수 있는 시대를 열었습니다.