SemHiTok: A Unified Image Tokenizer via Semantic-Guided Hierarchical Codebook for Multimodal Understanding and Generation

Each language version is independently generated for its own context, not a direct translation.

🎨 비유: "명화 감식가"와 "세밀한 화가"의 문제

과거의 인공지능 모델들은 그림을 다룰 때 두 가지 성격이 극단적으로 나뉘어 있었습니다.

명화 감식가 (이해용 모델):
- 이 모델은 그림을 보면 "이건 강아지야, 배경은 산이야"라고 개념을 파악하는 데는 천재입니다.
- 하지만 그림의 세부적인 질감이나 색감은 잘 기억하지 못합니다. 마치 "이건 강아지 그림이지"는 말은 하지만, 강아지 털의 결이나 눈빛의 반짝임은 잊어버리는 것과 같습니다.
- 결과: 그림을 이해는 잘하지만, 그걸 바탕으로 똑같은 그림을 다시 그리면 흐릿하고 뭉개집니다.
세밀한 화가 (생성용 모델):
- 이 모델은 그림의 **모든 픽셀 (점)**을 정확히 기억하고 재현하는 데 능숙합니다.
- 하지만 "이 그림이 무슨 의미인지"는 잘 모릅니다. 강아지 털은 완벽하게 그리지만, 그게 강아지인지 고양이인지 구분하지 못할 수도 있습니다.
- 결과: 그림은 선명하지만, AI 가 그림을 보고 질문에 답하거나 논리적으로 이해하는 능력은 떨어집니다.

기존의 문제점:
연구자들은 이 두 모델을 하나로 합치려고 노력했습니다. 하지만 "감식가"와 "화가"를 한 사람으로 만들려고 하면, 두 가지 성격이 서로 충돌해서 둘 다 제 역할을 못 하는 상황이 벌어졌습니다. (이론적으로 '이해'를 하려면 추상화해야 하고, '생성'을 하려면 구체적이어야 하기 때문입니다.)

💡 SemHiTok 의 해결책: "지휘자가 있는 오케스트라"

SemHiTok 은 이 문제를 해결하기 위해 **'의미 기반 계층적 코드북 (Semantic-Guided Hierarchical Codebook)'**이라는 독특한 방식을 도입했습니다. 이를 **'지휘자와 악단'**에 비유해 볼까요?

지휘자 (의미 코드북):
- 먼저, 이미지의 **큰 그림 (개념)**을 파악하는 '지휘자'가 있습니다.
- 지휘자는 "여기는 강아지 영역, 저기는 배경 영역"이라고 큰 틀을 잡습니다. (예: "이 부분은 '닭벼슬'이야")
세부 악단 (픽셀 서브 코드북):
- 지휘자가 "이곳은 닭벼슬이야"라고 지시하면, **해당 영역에 맞는 전문 악단 (서브 코드북)**이 나옵니다.
- 중요한 점은, 같은 '닭벼슬'이라는 개념을 가진 부분들은 서로 비슷한 색과 질감을 가진다는 사실을 이용했다는 것입니다.
- 지휘자가 "닭벼슬"을 지시하면, 그 지시를 받은 악단만 "닭벼슬에 어울리는 붉은색과 주름진 질감"을 담당합니다.

이 방식의 장점:

분업의 효율성: 지휘자 (의미) 는 개념만 생각하고, 악단 (픽셀) 은 세부적인 질감만 담당합니다. 서로 간섭하지 않아서 이해 능력도 떨어지지 않고, 그림의 선명함도 유지됩니다.
하나의 언어: 이 두 가지 정보 (지휘자의 지시 + 악단의 연주) 를 하나로 합쳐서, 인공지능이 읽을 수 있는 **단어 (토큰)**로 만듭니다. 그래서 기존 인공지능 모델 (LLM) 에도 쉽게 붙여서 쓸 수 있습니다.

🚀 이 기술이 가져온 변화

이론을 실제 실험에 적용한 결과, 놀라운 성과가 있었습니다.

이해와 생성의 완벽한 조화: 기존에 따로 쓰이던 모델들보다 **이미지 재현 (그림을 다시 그리는 것)**과 다중 모달 이해 (그림 보고 질문 답하기) 모두에서 최상위권 성적을 냈습니다.
효율성: 단순히 용량을 늘리는 게 아니라, 구조를 clever하게 바꿔서 더 적은 자원으로 더 좋은 결과를 냈습니다. 마치 "단순히 악기 수를 늘리는 게 아니라, 악기 배치를 최적화해서 더 아름다운 연주를 만든 것"과 같습니다.

📝 한 줄 요약

SemHiTok은 인공지능에게 **"큰 그림을 보는 눈 (이해)"**과 **"세부적인 묘사하는 손 (생성)"**을 동시에 갖게 해주는 혁신적인 기술입니다. 마치 명화 감식가에게 화가의 손기술을, 화가에게 감식가의 안목을 동시에 부여하여, 인공지능이 그림을 보고도 잘 이해하고, 말로 지시받으면 완벽하게 그려내는 시대를 열었습니다.

Each language version is independently generated for its own context, not a direct translation.

1. 문제 정의 (Problem Statement)

최근 멀티모달 대규모 언어 모델 (MLLM) 은 단일 오토레거시 (autoregressive) 프레임워크를 통해 이미지 이해 (Understanding) 와 생성 (Generation) 을 통합하려는 시도가 활발합니다. 그러나 두 작업은 서로 다른 수준의 시각적 정보를 요구하여 기존 단일 토크나이저 (Tokenizer) 에는 근본적인 한계가 존재합니다.

이해 (Understanding) 작업: CLIP 과 같은 텍스트 정렬 (text-aligned) 비전 인코더는 고수준의 의미 (semantic) 정보를 잘 포착하지만, 픽셀 수준의 세부 정보 (텍스처, 색상 등) 를 잃어버리는 경향이 있습니다.
생성 (Generation) 작업: VQGAN 과 같은 모델은 저수준의 픽셀 정보를 정밀하게 재구성하지만, 고수준의 의미적 추상화 능력이 부족하여 복잡한 멀티모달 이해 작업에 부적합합니다.
기존 접근법의 한계:
- 공동 학습 (Joint Training): 의미 손실과 픽셀 재구성 손실을 동시에 최적화하려는 시도 (예: VILA-U, SDE) 는 두 가지 상충되는 목표 (trade-off) 로 인해 최적의 해를 찾기 어렵고, 종종 하위 최적 (suboptimal) 솔루션으로 수렴합니다.
- 이중 인코더 (Dual Encoder): CLIP 과 VQGAN 을 분리하여 사용하는 방식 (예: Janus) 은 토큰 시퀀스 길이가 두 배가 되거나 어휘 크기가 기하급수적으로 증가하여 계산 비용과 통합의 복잡성을 높입니다.

2. 제안 방법: SemHiTok (Methodology)

저자들은 **의미 기반 계층적 코드북 (Semantic-Guided Hierarchical Codebook, SGHC)**을 도입한 통합 이미지 토크나이저 SemHiTok을 제안합니다. 이 방법은 의미 정보와 픽셀 정보를 구조적, 학습 전략적으로 분리하면서도 통합된 이산 표현 (discrete representation) 을 제공합니다.

핵심 아키텍처 및 원리

계층적 코드북 구조 (SGHC):
- 의미 코드북 (Semantic Codebook): 사전 학습된 텍스트 정렬 비전 인코더 (SigLIP 등) 의 연속적 특징을 이산화합니다. 이는 고수준 의미 정보를 담당합니다.
- 픽셀 서브 - 코드북 (Pixel Sub-codebooks): 각 의미 코드 (Semantic Code) 에 대응하는 픽셀 서브 - 코드북을 정의합니다. 동일한 의미 코드를 가진 이미지 패치들은 픽셀 수준에서도 유사한 특징을 가진다는 관찰에 기반합니다.
- 동작 방식: 이미지가 입력되면 먼저 의미 코드북을 통해 의미 인덱스 ( $k$ ) 를 추출합니다. 이 인덱스 $k$ 에 따라 해당 픽셀 서브 - 코드북 ( $C_{pix}^k$ ) 이 선택되어 픽셀 특징을 양자화합니다.
- 통합 표현: 양자화된 의미 특징과 픽셀 특징을 채널 차원 (channel dimension) 에 연결 (concatenate) 하여 단일 토큰 시퀀스로 만듭니다.
단계별 학습 전략 (Phased Training Strategy):
- 1 단계 (의미 코드북 학습): 텍스트 정렬 모델의 특징을 재구성하도록 의미 코드북을 학습합니다.
- 2 단계 (픽셀 재구성 활성화, PRE): 의미 코드북을 고정 (frozen) 하고, 픽셀 인코더/디코더 및 서브 - 코드북만 학습합니다.
- 장점: 이 방식은 의미 정보와 픽셀 정보 간의 간섭을 방지하며, 공동 학습에서 발생하는 최적화 문제를 해결합니다.
통합 MLLM 적용:
- SGHC 의 모든 서브 - 코드북을 하나의 평탄화된 (flattened) 코드북으로 변환하여 기존 LLM 의 어휘 크기에 자연스럽게 통합합니다.
- Dual-MLP 어댑터: 의미 특징과 픽셀 특징을 별도로 프로젝션한 후 결합하여 LLM 에 입력함으로써, 모델이 두 가지 수준의 특징을 효과적으로 처리하도록 합니다.

3. 주요 기여 (Key Contributions)

새로운 통합 토크나이저 (SemHiTok): 의미 정보와 픽셀 정보 간의 균형을 이루는 새로운 아키텍처를 제안하여, 이미지 재구성 및 멀티모달 이해 모두에서 우수한 성능을 달성했습니다.
성능 우위: LLaVA-v1.5 설정 하에서 기존 이산 토크나이저들 (VILA-U, TokenFlow 등) 을 능가하는 SOTA 성능을 기록했으며, 연속적 입력 모델 (SigLIP 등) 에 버금가는 이해 능력을 보입니다.
확장성 및 통합 용이성: 토큰 수의 팽창이나 어휘 크기의 과도한 증가 없이, 기존 MLLM 프레임워크에 원활하게 통합 가능한 효율적인 구조를 제공합니다.

4. 실험 결과 (Results)

이미지 재구성 (Image Reconstruction)

ImageNet-50k 검증 세트: 256x256 해상도에서 rFID 1.16을 기록하여, 기존 통합 토크나이저 (VILA-U: 1.80, SDE: 2.26) 보다 월등히 우수한 재구성 품질을 보였습니다.
고해상도: 384 해상도로 확장 시 rFID 0.66을 달성하여 전문가 모델 (Open-MAGVIT2 등) 과 경쟁 가능한 수준을 입증했습니다.

멀티모달 이해 (Multimodal Understanding)

LLaVA-v1.5 설정: POPE, MME-P, SEED, GQA 등 주요 벤치마크에서 기존 이산 토크나이저 중 SOTA 성능을 기록했습니다.
비교: TokLIP(더 강력한 베이스 모델 사용) 보다 높은 성능을 보였으며, 연속적 입력을 사용하는 모델들과도 견줄 만한 이해 능력을 입증했습니다.

텍스트 - 이미지 생성 (Text-to-Image Generation)

GenAI-Bench & MJHQ30K: 생성 품질 평가에서 Liquid(생성 특화 토크나이저 사용) 와 유사하거나 더 나은 성능을 보였습니다.
MJHQ30K: 256 해상도에서 gFID 5.40을 기록하여 오토레거시 이미지 생성 분야에서 새로운 SOTA 를 달성했습니다.

5. 의의 및 결론 (Significance)

균형의 해법: SemHiTok 은 "의미 이해"와 "픽셀 생성"이라는 상충되는 목표를 단일 토크나이저 내에서 계층적 구조와 단계별 학습을 통해 성공적으로 조화시켰습니다.
효율성: 기존 방식들의 문제점인 토큰 수의 폭발적 증가나 복잡한 이중 구조 없이, 기존 LLM 아키텍처에 호환되는 단일 토큰 시퀀스를 제공합니다.
미래 방향: 이 연구는 이산적 (discrete) 인 멀티모달 모델의 성능 한계를 확장시켰으며, 이미지 편집, 다중 턴 대화 등 더 복잡한 작업으로의 확장을 위한 강력한 기반을 마련했습니다.

요약하자면, SemHiTok은 의미 기반의 계층적 코드북을 통해 시각적 이해와 생성을 동시에 수행하는 통합 MLLM 의 핵심 구성 요소인 토크나이저의 난제를 해결한 획기적인 연구입니다.