BitDance: Scaling Autoregressive Generative Models with Binary Tokens

이 논문은 이진 토큰 예측과 차분 헤드, 그리고 차분 기반 패치 예측을 통해 기존 자동회귀 (AR) 모델 대비 압도적인 파라미터 효율성과 추론 속도를 달성하면서도 ImageNet 에서 최상의 생성 품질을 보여주는 확장 가능한 이미지 생성 모델 'BitDance'를 제안합니다.

Yuang Ai, Jiaming Han, Shaobin Zhuang, Weijia Mao, Xuefeng Hu, Ziyan Yang, Zhenheng Yang, Yali Wang, Huaibo Huang, Xiangyu Yue, Hao Chen

게시일 2026-03-16
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

비트댄스 (BitDance): 이미지를 만드는 새로운 마법

이 논문은 **"비트댄스 (BitDance)"**라는 새로운 인공지능 모델을 소개합니다. 이 모델은 텍스트를 보고 멋진 이미지를 만들어내는 '생성형 AI'의 한계를 뛰어넘는 혁신적인 기술입니다.

기존의 AI 들이 겪었던 복잡한 문제를 해결하기 위해, 비트댄스는 세 가지 핵심 아이디어를 사용하는데, 이를 일상적인 비유로 설명해 드리겠습니다.


1. 레고 블록을 '0 과 1'로 바꾸다 (이진 토큰)

기존의 문제:
기존 AI 는 이미지를 만들 때 마치 거대한 레고 상자를 사용합니다. 이 상자에는 수천, 수만 개의 다양한 색과 모양의 레고 조각 (단어) 이 들어있죠. AI 는 그림을 그릴 때마다 이 상자에서 딱 맞는 조각 하나를 골라냅니다. 하지만 조각이 너무 많으면 (어휘가 너무 크면), AI 가 매번 올바른 조각을 고르는 데 시간이 너무 오래 걸리고, 실수할 확률도 높아집니다.

비트댄스의 해결책:
비트댄스는 이 거대한 레고 상자를 버리고, 오직 '0'과 '1' 두 가지 상태만 가진 아주 작은 블록을 사용합니다.

  • 비유: 마치 스위치를 켜거나 끄는 것처럼, '켜짐 (+1)'과 '꺼짐 (-1)'만 있는 블록들입니다.
  • 효과: 이 블록들은 하나하나로는 단순해 보이지만, 256 개를 한 줄로 나열하면 그 조합의 수가 어마어마하게 커집니다 (22562^{256}). 이는 기존 레고 상자보다 훨씬 더 정교하고 풍부한 그림을 표현할 수 있게 해줍니다. 마치 단순한 점 (0 과 1) 만으로 고해상도 사진 같은 그림을 그릴 수 있는 능력을 얻은 셈입니다.

2. 주사위를 던지는 대신, 흐르는 물처럼 그리다 (이진 확산 헤드)

기존의 문제:
이렇게 0 과 1 의 조합이 너무 많으면, AI 가 "다음에 어떤 블록을 쓸까?"라고 고민할 때, 수천만 개의 주사위 중 하나를 맞추는 것처럼 어려워집니다. 기존 방식은 이 모든 경우의 수를 일일이 계산해야 해서 컴퓨터가 멈추거나 (메모리 부족), 엉뚱한 그림을 그리는 경우가 많았습니다.

비트댄스의 해결책:
비트댄스는 주사위를 던지는 대신, **흐르는 물 (확산 모델)**을 이용합니다.

  • 비유: 처음에는 흐릿한 안개 (잡음) 가 가득한 캔버스가 있습니다. AI 는 이 안개를 하나씩 걷어내면서, "이곳은 밝아야 하고, 저곳은 어둡다"는 식으로 0 과 1 로 명확하게 정해지는 과정을 거칩니다.
  • 효과: 이렇게 하면 AI 는 모든 경우의 수를 다 계산할 필요 없이, 자연스럽게 0 과 1 의 올바른 조합으로 수렴하게 됩니다. 마치 안개가 걷히며 선명한 그림이 드러나는 것처럼, 빠르고 정확하게 이미지를 완성합니다.

3. 한 번에 여러 칸을 채우다 (다음 패치 확산)

기존의 문제:
기존 AI 는 그림을 그릴 때 한 번에 한 칸 (한 픽셀) 씩 그려나갑니다. 1000x1000 크기의 그림을 그리려면 100 만 번을 반복해야 하므로, 시간이 매우 오래 걸립니다.

비트댄스의 해결책:
비트댄스는 한 번에 작은 사각형 (패치) 여러 개를 동시에 그립니다.

  • 비유: 그림을 그릴 때 붓을 한 번에 한 점씩 찍는 게 아니라, 작은 스텐실 (틀) 을 여러 개 동시에 대고 색을 입히는 것과 같습니다.
  • 효과: 한 번에 16 개, 64 개씩 블록을 채우기 때문에 속도가 30 배 이상 빨라집니다. 하지만 다른 모델들이 한 번에 여러 개를 그릴 때 서로 연결되지 않아 엉망이 되는 문제를, 비트댄스는 '확산' 기술을 통해 모든 블록이 서로 조화롭게 연결되도록 해결했습니다.

비트댄스의 놀라운 성과

이 세 가지 기술을 합친 비트댄스는 다음과 같은 결과를 보여줍니다:

  1. 압도적인 속도: 1024x1024 크기의 고화질 이미지를 만드는 데, 기존 AI 들보다 30 배 이상 빠릅니다. (예: 400 초 걸리던 것이 12 초 만에 끝남)
  2. 뛰어난 화질: 적은 파라미터 (모델 크기) 로도 기존 최고 성능 모델들을 능가하는 매우 선명하고 사실적인 이미지를 만들어냅니다.
  3. 효율성: 거대한 데이터를 많이 쓰지 않아도, 적은 데이터로도 뛰어난 성능을 냅니다.

요약

비트댄스는 이미지를 만드는 방식을 "거대한 단어장"에서 "간단한 0 과 1 의 조합"으로 바꾸고, "한 번에 하나씩" 그리던 방식을 "여러 개를 동시에" 그리도록 바꾼 혁신적인 AI입니다.

마치 복잡한 레고 놀이 대신, 0 과 1 의 스위치로 안개를 걷어내며 순식간에 고화질 그림을 완성하는 마법과 같습니다. 이제 AI 가 그림을 그리는 속도와 질이 한 단계 더 도약하게 되었습니다.

이런 논문을 받은편지함으로 받아보세요

관심사에 맞는 일간 또는 주간 다이제스트. Gist 또는 기술 요약을 당신의 언어로.

Digest 사용해 보기 →