Each language version is independently generated for its own context, not a direct translation.

UniWeTok: 모든 것을 하나로 묶은 '만능 이미지 번역기' 이야기

안녕하세요! 오늘 소개해 드릴 UniWeTok은 인공지능이 그림을 이해하고, 다시 그리는 방식을 혁신한 새로운 기술입니다. 마치 **한 마리의 '만능 요정'**이 등장하여, 그동안 따로따로 하던 일을 모두 한 번에 해낸다고 상상해 보세요.

이 복잡한 기술 이야기를 일상적인 비유로 쉽게 풀어드리겠습니다.

1. 왜 이 기술이 필요할까요? (과거의 문제점)

예전에는 인공지능이 그림을 다룰 때 두 가지 부서를 따로 운영해야 했습니다.

이해 부서 (Understanding): 그림을 보고 "이건 고양이야, 배경은 바다야"라고 설명하는 역할.
그리기 부서 (Generation): "고양이가 바다에 있는 그림을 그려줘"라고 하면 실제로 그림을 그리는 역할.

문제는 이 두 부서가 서로 다른 언어를 썼다는 거예요.

이해 부서는 그림의 '의미'를 중시해서 디테일을 버리고 요약했습니다.
그리는 부서는 '화질'을 중시해서 의미보다는 픽셀 하나하나를 중요하게 여겼습니다.

이 때문에 두 부서를 하나로 합치려 하면, 화질은 떨어지거나, 의미 전달이 안 되거나, 둘 다 엉망이 되는 문제가 생겼습니다. 마치 고급 요리사 (그리는 부서) 가 요리 레시피 (의미) 를 못 읽거나, 요리사 (이해 부서) 가 요리를 못 하는 상황과 비슷합니다.

2. UniWeTok 의 등장: "한 번에 해결하는 만능 열쇠"

UniWeTok 은 이 문제를 해결하기 위해 등장한 **초고성능 '이미지 압축기'**입니다. 그림을 컴퓨터가 이해할 수 있는 '숫자 코드 (토큰)'로 바꾸는데, 이 코드가 세 가지 능력을 모두 동시에 갖췄습니다.

🌟 핵심 비유 1: 거대한 '레고 상자' (2¹²⁸ 개의 코드)

기존 기술들은 레고 조각이 적어서 복잡한 모양을 만들면 조각이 부족하거나, 모양이 뭉개졌습니다.
UniWeTok 은 2¹²⁸ 개 (약 340 조 개) 의 거대한 레고 조각을 준비했습니다. 이 조각 하나하나가 고양이 귀의 털결, 눈빛, 배경의 구름까지 모든 디테일과 의미를 담을 수 있을 만큼 강력합니다.

결과: 그림을 75% 나 줄여도 (압축), 원래 그림과 거의 똑같이 재현할 수 있습니다.

🌟 핵심 비유 2: '이중 교육' (Pre-Post Distillation)

이제 이 레고 조각이 의미도 잘 전달하게 하려면 어떻게 해야 할까요?
UniWeTok 은 두 명의 선생님을 모셨습니다.

이론 선생님 (Pre-Distillation): 그림을 보기 전에 "이건 고양이다"라고 미리 가르쳐 줍니다.
실습 선생님 (Post-Distillation): 그림을 만든 후에도 "여기 고양이 눈이 잘 보이게 했니?"라고 점검합니다.

이 두 선생님이 함께 가르치니, 레고 조각이 의미 (고양이) 와 형태 (화질) 를 동시에 완벽하게 기억하게 됩니다.

🌟 핵심 비유 3: '안정제' (SigLu 활성화 함수)

기존 기술들은 레고 조각을 만들 때 너무 세게 누르거나 너무 느슨하게 만들어서 깨지거나 뭉개지는 경우가 많았습니다.
UniWeTok 은 **SigLu 라는 '안정제'**를 도입했습니다. 이는 레고 조각이 너무 튀지 않고 적당한 범위 (-1 과 1 사이) 에 딱 맞게 유지되도록 도와줍니다. 덕분에 의미 전달과 화질 유지라는 상충되는 두 마리 토끼를 모두 잡을 수 있게 되었습니다.

3. 어떻게 훈련시켰나요? (3 단계 커리큘럼)

UniWeTok 을 가르칠 때, 한 번에 모든 것을 가르치지 않고 단계별로 훈련시켰습니다.

1 단계 (기초 다지기): 작은 그림 (256x256) 으로 일반적인 사물을 많이 보고 기본기를 다집니다.
2 단계 (다양성 확장): 다양한 크기의 그림을 보며, 크기가 달라져도 잘 이해하도록 훈련합니다.
3 단계 (전문가 과정): 얼굴이나 글자처럼 세밀한 부분이 중요한 그림을 집중적으로 훈련시켜, 눈동자나 글씨체까지 완벽하게 복원하게 합니다.

4. 어떤 성과를 냈나요?

이 기술은 기존 최고의 모델들을 가볍게 제쳤습니다.

화질: 그림을 다시 그릴 때, 다른 모델들보다 훨씬 더 선명하고 자연스럽습니다. (FID 점수 1.38 vs 1.42)
학습 효율: 같은 화질을 내는데 필요한 학습 데이터 양이 기존의 1/8 수준으로 줄었습니다. (330 억 개 vs 2,620 억 개)
만능 능력:
- 이해: "이 고양이 사진에 무슨 글자가 써있니?"라고 물으면 정확히 답합니다.
- 생성: "고양이가 우주선을 타고 있는 그림을 그려줘"라고 하면 바로 그립니다.
- 편집: "배경을 바다로 바꿔줘"라고 하면 배경만 깔끔하게 바꿉니다.

5. 결론: 하나의 모델로 모든 것을

기존에는 그림을 이해하는 AI 와 그리는 AI 를 따로 만들어서 연결해야 했지만, UniWeTok은 **하나의 강력한 '디지털 번역기'**로 이 모든 일을 해결했습니다.

마치 한 명의 천재 요리사가 레시피를 읽고, 재료를 고르고, 요리를 하고, 심지어 요리 설명까지 완벽하게 해내는 것과 같습니다. 이 기술 덕분에 앞으로는 더 똑똑하고, 더 빠르며, 더 다양한 일을 해내는 차세대 멀티모달 AI를 만들 수 있게 되었습니다.

요약하자면:
UniWeTok 은 거대한 레고 상자로 그림을 압축하고, 두 명의 선생님에게 의미와 화질을 동시에 가르쳐, 한 번에 이해하고 그리는 만능 AI를 완성한 혁신적인 기술입니다! 🎨🤖✨

Each language version is independently generated for its own context, not a direct translation.

1. 문제 정의 (Problem)

통합 멀티모달 대규모 언어 모델 (Unified MLLM) 은 고충실도 이미지 재구성, 복잡한 의미 추출, 그리고 생성 적합성 (generative suitability) 을 동시에 지원하는 시각적 표현이 필요합니다. 그러나 기존 시각 토크나이저들은 다음과 같은 모순된 목표를 단일 프레임워크 내에서 충족하는 데 어려움을 겪고 있습니다.

연속 토크나이저의 한계: 연속적인 잠재 표현 (continuous latents) 을 사용하는 방식은 자기회귀 (autoregressive) 생성 과정에서 오차 누적 (error accumulation) 과 모드 붕괴 (mode collapse) 문제가 빈번하게 발생합니다.
이산 토크나이저의 한계: 이산 토크나이저 (VQ-VAE 등) 는 강건하지만, 재구성 품질이 낮거나 정보 손실이 큽니다.
코드북 크기 (Codebook Size) 의 딜레마: 최근 연구 (LFQ, BSQ, GQ 등) 는 코드북 크기를 $2^{128} $이상으로 확장하여 토큰당 정보 밀도를 높였습니다. 하지만 이러한 거대한 코드북은 하류 생성 작업 (downstream generation) 에 복잡성을 초래하며, 기존 텍스트 - 이미지 모델링은 여전히 제한된 코드북 크기 ($ 2^{32}$) 에 머무르는 경우가 많습니다.
통합의 부재: 거대한 이산 코드북을 기반으로 한 통합 MLLM(이해와 생성을 동시에 수행) 을 구축하는 것은 아직 실현되지 않은 과제였습니다.

2. 방법론 (Methodology)

저자들은 UniWeTok을 제안하여 강건한 압축, 의미 추출, 생성 사전 지식 (generative priors) 을 단일 프레임워크로 통합했습니다. 주요 기술적 요소는 다음과 같습니다.

A. 아키텍처 (Architecture)

하이브리드 백본 (Hybrid Backbone): 인코더와 디코더 모두 컨볼루션 (Convolution) 과 어텐션 (Attention) 을 혼합한 구조를 사용합니다.
- 컨볼루션은 국소적 인덕티브 바이어스 (local inductive bias) 와 텍스처 디테일 추출에 유리하고, 어텐션은 전역적 컨텍스트 (global context) 를 포착합니다.
- 기존 WeTok 의 다운샘플링 블록을 수정하여 채널 확장 (channel expansion) 과 공간 다운샘플링을 동시에 수행함으로써 정보 손실을 줄였습니다.
SigLu 활성화 함수: 인코더의 마지막 레이어에 SigLu ($1 - \frac{e^x}{1+e^x}$) 활성화 함수를 도입했습니다.
- 이 함수는 인코더 출력 ( $U_G$ ) 을 $[-1, 1]$ 구간으로 제한하여, Commitment Loss 와 Token Entropy Loss 간의 최적화 충돌을 해결합니다.
- 이를 통해 이산 토큰이 의미 정보를 안정적으로 추출할 수 있도록 돕습니다.

B. 학습 프레임워크 (Training Framework)

Pre-Post Distillation (PPD): 사전 학습된 의미 인코더 (Semantic Encoder, Teacher) 를 활용하여 인코더의 의미 추출 능력을 강화합니다.
- Pre-Distillation: 인코더 중간 특징 ( $U_G$ ) 과 Teacher 의 특징을 정렬.
- Post-Distillation: 양자화된 특징 ( $U_Q$ ) 과 Teacher 의 특징을 정렬.
- 두 단계의 증류 (Distillation) 를 결합하여 의미 추출 성능을 극대화합니다.
Generative-Aware Prior (GAP): 하류 생성 작업의 난이도를 낮추기 위해 학습 단계에서 생성 목표를 인식하도록 합니다.
- 양자화된 토큰 시퀀스를 경량 생성 모델 (BitDance) 에 입력하여 다음 토큰 확산 (next-token diffusion) 태스크를 수행하도록 합니다.
- 이를 통해 토큰 공간이 생성 작업에 더 적합하도록 정규화합니다.

C. 3 단계 커리큘럼 학습 (Three-Stage Training Pipeline)

다양한 해상도와 지각 민감도 (인간 얼굴, 텍스트 등) 에 적응하기 위해 3 단계 학습 전략을 사용합니다.

Stage 1: 대규모 일반 도메인 데이터 (256x256) 에 대한 사전 학습.
Stage 2: 다중 해상도 (Multi-resolution) 동시 학습.
Stage 3: 얼굴 (Faces) 과 텍스트 (Text) 와 같은 지각 민감 영역에 대한 어닐링 (Annealing) 학습.

3. 주요 기여 (Key Contributions)

초대형 이진 코드북 통합: $2^{128}$ 크기의 거대한 이진 코드북을 사용하면서도, 32 배 공간 다운샘플링 (32x downsampling) 을 통해 토큰 수를 75% 감소시키면서 고충실도 재구성과 의미 추출을 동시에 달성했습니다.
새로운 최적화 기법: SigLu 활성화 함수와 Pre-Post Distillation, Generative-Aware Prior 를 도입하여 이산 토크나이저가 생성과 이해 모두에 적합하도록 해결했습니다.
효율적인 통합 MLLM: UniWeTok 을 기반으로 한 통합 MLLM 은 이미지 생성, 편집, 이해 작업에서 최첨단 성능을 보여주며, 기존 모델 대비 훨씬 적은 학습 토큰 (33B vs 262B) 으로 더 나은 결과를 달성했습니다.

4. 실험 결과 (Results)

A. 이미지 생성 (Image Generation)

ImageNet Class-to-Image: FID 1.38 을 기록하여 REPA(1.42) 보다 우수한 성능을 보였습니다.
학습 효율성: REPA 는 262B 토큰으로 학습한 반면, UniWeTok 은 33B 토큰으로 학습하여 8 배 이상의 효율성을 입증했습니다.
추론: 256x256 이미지를 단 64 개의 토큰으로만 표현하여 추론 비용을 크게 절감했습니다.

B. 통합 MLLM 성능 (Unified MLLM)

이미지 생성 (Text-to-Image): DPG-Bench 에서 86.63 점을 기록하여 FLUX.1 [Dev](83.84 점) 를 능가했습니다.
이미지 편집 (Image Editing): GEdit 벤치마크에서 5.09 점을 기록하여 OmniGen(5.06 점) 보다 우수한 성능을 보였습니다. 이는 오토레귀시브 (Autoregressive) 모델이 확산 (Diffusion) 모델 기반 편집 모델과 경쟁할 수 있음을 의미합니다.
멀티모달 이해 (Multimodal Understanding): SEEDB, POPE, VQAv2 등 다양한 벤치마크에서 경쟁력 있는 성능을 보이며, 텍스트와 이미지의 통합 이해가 가능함을 입증했습니다.

5. 의의 및 결론 (Significance)

단일 토크나이저의 가능성: 고충실도 재구성, 의미 이해, 생성 능력을 모두 만족시키는 단일 이산 토크나이저가 통합 MLLM 의 핵심 구성 요소가 될 수 있음을 증명했습니다.
효율성과 성능의 균형: 거대한 코드북 ($2^{128}$) 을 사용하면서도 계산 비용을 줄이고, 다양한 해상도와 복잡한 시나리오 (얼굴, 텍스트) 에 강건하게 적응하는 방법을 제시했습니다.
미래 방향: UniWeTok 은 차세대 통합 멀티모달 모델의 표준 베이스라인을 제시하며, 단일 최적화된 토크나이저가 복잡한 멀티모달 과제를 해결할 수 있음을 시사합니다.

이 논문은 시각 표현의 이산화 (discretization) 가 단순한 압축을 넘어, 대규모 언어 모델과 자연스럽게 통합되어 생성과 이해를 동시에 수행하는 강력한 기반이 될 수 있음을 보여줍니다.

UniWeTok: An Unified Binary Tokenizer with Codebook Size 2128\mathit{2^{128}}2128 for Unified Multimodal Large Language Model