EvoTok: A Unified Image Tokenizer via Residual Latent Evolution for Visual Understanding and Generation

Each language version is independently generated for its own context, not a direct translation.

이 논문은 **'EvoTok(이보톡)'**이라는 새로운 기술을 소개합니다. 이 기술은 인공지능이 이미지를 '이해'하는 능력과 이미지를 '그리는' 능력을 동시에, 그리고 훨씬 더 잘 수행할 수 있게 해줍니다.

기존의 AI 모델들은 보통 두 가지 능력을 따로따로 훈련하거나, 서로 충돌하는 요구사항을 한 번에 해결하려다 보니 성능이 떨어지는 문제가 있었습니다. EvoTok 은 이 문제를 한 번에 해결하는 혁신적인 방법을 제시합니다.

이 복잡한 기술을 일상적인 언어와 비유로 쉽게 설명해 드릴게요.

🎨 핵심 비유: "사진을 보는 두 가지 눈" vs "한 번에 변하는 마법"

기존의 AI 모델들은 보통 두 가지 방식 중 하나를 택했습니다.

두 개의 서로 다른 눈 (Decoupled):
- 이해용 눈: 그림의 내용 (예: "이건 강아지야") 을 파악하는 데 집중합니다.
- 그리기용 눈: 그림의 세부적인 질감이나 색상을 완벽하게 재현하는 데 집중합니다.
- 문제점: 이 두 눈이 서로 다른 곳에서 작동하다 보니, AI 가 "강아지"라는 개념을 이해하면서도 동시에 "강아지 털 하나하나"를 그리는 데 어려움을 겪습니다. 두 가지 정보가 따로 놀아서 조화가 안 됩니다.
한 쌍의 눈 (Entangled):
- 하나의 눈: 내용 이해와 세부 묘사를 동시에 하려고 애씁니다.
- 문제점: "강아지"라는 개념을 설명하려다 보니 털의 디테일이 흐려지거나, 반대로 털을 그리느라 "강아지"라는 큰 그림을 놓치는 충돌이 발생합니다.

✨ EvoTok 의 해결책: "점진적인 진화 (Residual Evolution)"

EvoTok 은 이 두 가지 방식을 모두 버리고, **한 번의 여정 (Trajectory)**을 통해 해결합니다.

비유: "초보 예술가의 스케치에서 대가 (Master) 의 완성작까지"

EvoTok 은 이미지를 처리할 때, 하나의 캔버스 위에서 그림이 단계별로 진화한다고 상상해 보세요.

1 단계 (초기): AI 는 먼저 세부적인 점과 선을 그립니다. (색깔, 질감, 윤곽선 등)
- 이 단계는 그림을 '그리는' 데 필요한 정보입니다.
2 단계 (중간): 그 위에 형태와 구조가 더해집니다.
최종 단계 (후기): 이제 의미와 개념이 완성됩니다. (이건 '강아지'야, '행복한 표정'이야 등)
- 이 단계는 그림을 '이해'하는 데 필요한 정보입니다.

핵심 아이디어:
EvoTok 은 이 모든 과정을 하나의 연속된 흐름으로 만듭니다.

그릴 때: AI 는 이 흐름의 **초반부 (세부 정보)**를 꺼내서 고화질 그림을 그립니다.
이해할 때: AI 는 이 흐름의 **후반부 (개념 정보)**를 꺼내서 "이건 강아지야"라고 말합니다.

즉, **같은 데이터 (하나의 여정)**를 사용하되, 어느 시점의 정보를 가져오느냐에 따라 '그리기'와 '이해하기'가 자연스럽게 나뉘는 것입니다. 서로 충돌하지 않고, 오히려 서로를 보완합니다.

🚀 왜 이것이 대단한가요?

적은 데이터로 큰 성과:
- 다른 AI 들은 수십 억 개의 이미지로 훈련해야 좋은 결과를 냈습니다. 하지만 EvoTok 은 1,300 만 개라는 상대적으로 적은 데이터로도, 거대 모델들보다 더 좋은 성능을 냈습니다. 마치 재능 있는 화가가 적은 연습으로도 명작을 그려내는 것과 같습니다.
이해와 생성의 완벽한 조화:
- 이해하기: 9 가지 테스트 중 7 가지에서 최고의 점수를 받았습니다. (예: 복잡한 그림을 보고 논리적으로 추론하는 능력)
- 그리기: 텍스트를 입력하면 "빨간색 우산 쓴 강아지"처럼 복잡한 조건을 정확히 반영한 그림을 그립니다.
단일 공간의 효율성:
- 별도의 저장 공간이 필요하지 않습니다. 하나의 '잠재 공간 (Latent Space)' 안에서 정보가 진화하기 때문에, AI 가 기억해야 할 것이 줄고 계산도 효율적입니다.

📝 한 줄 요약

"EvoTok 은 AI 가 그림을 그릴 때는 '세부 묘사'를, 그림을 볼 때는 '의미 파악'을 동시에 할 수 있도록, 하나의 그림이 초기 스케치에서 완성된 명작으로 진화하는 과정을 그대로 학습시킨 혁신적인 기술입니다."

이 기술은 앞으로 우리가 AI 와 대화하거나, AI 가 만들어낸 이미지를 볼 때 훨씬 더 자연스럽고 똑똑한 경험을 할 수 있게 해줄 것입니다.

Each language version is independently generated for its own context, not a direct translation.

1. 연구 배경 및 문제 정의 (Problem)

최근 멀티모달 대규모 언어 모델 (MLLM) 의 발전은 시각적 추론과 이미지 생성을 통합하려는 시도를 가속화하고 있습니다. 그러나 시각적 이해 (Visual Understanding) 와 이미지 생성 (Image Generation) 은 서로 상충되는 요구사항을 가지고 있어 통합된 토크나이저 (Tokenizer) 설계를 어렵게 만듭니다.

이해 (Understanding): 고수준의 의미론적 추상화 (Semantic Abstraction) 와 텍스트 정렬이 필요합니다.
생성 (Generation): 세밀한 픽셀 수준의 재현 (Pixel-level Reconstruction) 과 구조적 충실도가 필수적입니다.

기존의 통합 접근법은 크게 두 가지 한계를 가집니다:

얽힌 표현 (Entangled Representations): 이해와 생성을 위해 동일한 특징 공간에서 두 작업을 동시에 학습합니다. 이는 의미론적 정렬과 세밀한 재현이라는 상충되는 최적화 목표를 공유하여 상호 간섭을 일으키고 성능을 저하시킵니다.
분리된 표현 (Decoupled Representations): 이해와 생성을 위해 완전히 분리된 특징 공간이나 인코더를 사용합니다. 이는 두 작업 간의 내재적 일관성 (Consistency) 과 상관관계를 잃게 만들어 통합 모델링의 효율성을 떨어뜨립니다.

따라서, 작업 간 간섭을 줄이기 위해 특징을 분리하되, 시각적 구조와 의미 정보의 공유를 위해 일관성을 유지하는 새로운 패러다임이 필요합니다.

2. 제안 방법론: EvoTok (Methodology)

저자들은 EvoTok을 제안합니다. 이는 공유된 잠재 공간 (Shared Latent Space) 내에서 잔차 잠재 진화 (Residual Latent Evolution) 과정을 통해 이미지를 표현하는 통합 이미지 토크나이저입니다.

핵심 메커니즘: 잔차 진화 (Residual Evolution)

EvoTok 은 단일 인코더를 통해 추출된 초기 특징을 연속적인 잔차 벡터 양자화 (Cascaded Residual Vector Quantization) 과정을 거치게 합니다.

진화 궤적 (Evolution Trajectory): 이미지는 $L$ $L$ 단계의 잔차 토큰 시퀀스로 인코딩됩니다.
- 초기 단계 (Early Stages): 저수준의 공간 구조와 지각적 세부 사항 (Perceptual Details) 을 포착하여 고충실도 재구성을 담당합니다.
- 후기 단계 (Deeper Stages): 이전 단계의 특징을 누적하며 고수준의 의미론적 표현 (Semantic Representations) 으로 점진적으로 진화시킵니다.
특징 분리 및 통합:
- 픽셀 특징 ( $f_{pix}$ ): 초기 $L_{pix}$ 단계의 잔차 토큰을 합산하여 생성 작업에 사용합니다.
- 의미 특징 ( $f_{sem}$ ): 전체 $L_{sem}$ 단계의 잔차 토큰을 합산하여 이해 작업에 사용합니다.
- 이 두 특징은 단일 잠재 공간 내의 진화 궤적에서 자연스럽게 공존하며, 작업 간 일관성을 유지하면서도 목적에 따라 분리되어 활용됩니다.

학습 목표 (Unified Training Objective)

EvoTok 은 다음 세 가지 손실 함수를 통해 학습됩니다:

픽셀 재구성 손실 ( $L_{pix}$ ): 픽셀 디코더를 통해 이미지를 재구성하는 손실 (재구성, 지각, 적대적 손실 포함).
의미 정렬 손실 ( $L_{sem}$ ): 사전 학습된 SigLIP2 모델의 특징과 의미 디코더 출력 간의 코사인 유사도를 최대화하는 손실.
VQ 손실 ( $L_{VQ}$ ): 잔차 양자화 코드북의 학습을 위한 표준 손실.

이러한 설계는 픽셀 수준의 세부 사항과 의미론적 추상화가 단일 잠재 공간에서 공진화 (Co-evolve) 하도록 하여, 이해와 생성의 요구 사항을 모두 충족시킵니다.

3. 주요 기여 (Key Contributions)

EvoTok 아키텍처 제안: 공유 잠재 공간 내에서 잔차 진화 궤적으로 이미지를 표현하는 통합 토크나이저를 최초로 제안했습니다.
균형 잡힌 학습 목표: 작업 분리 (Decoupling) 와 작업 간 일관성 (Consistency) 사이의 균형을 이루는 통합 학습 목표를 설계하여, 의미 정렬과 픽셀 재구성을 동시에 효과적으로 학습합니다.
데이터 효율성: 기존 통합 토크나이저들이 수십억 개의 데이터 (Billion-scale) 로 학습한 반면, EvoTok 은 상대적으로 적은 1300 만 장 (13M) 의 이미지 데이터로 학습되었음에도 불구하고 뛰어난 성능을 달성했습니다.

4. 실험 결과 (Results)

EvoTok 은 ImageNet-1K 재구성, 시각적 이해, 이미지 생성 벤치마크에서 모두 우수한 성능을 보였습니다.

가. 이미지 재구성 (Reconstruction)

성능: ImageNet-1K (256x256) 에서 rFID 0.43을 기록했습니다.
비교: 데이터 양이 훨씬 적은 (13M vs 1B+) 조건임에도 불구하고, UniTok (rFID 0.33, 1B 데이터 사용) 을 제외하고 대부분의 기존 방법 (TokenFlow, VILA-U 등) 보다 우수한 재구성 품질을 보였습니다.

나. 시각적 이해 (Visual Understanding)

벤치마크: 9 개 시각적 이해 벤치마크 중 7 개에서 최상위 성능을 기록했습니다.
- 주요 성과: SEEDBench (71.8), GQA (61.8), AI2D (76.2), MMMU (45.9), MME (1895.1) 등에서 다른 이산적 (Discrete) 통합 모델들을 압도했습니다.
- 특히 추론이 필요한 AI2D 와 MMMU 에서 큰 격차로 우위를 점했습니다.

다. 이미지 생성 (Image Generation)

벤치마크: GenEval 과 GenAI-Bench 에서 뛰어난 성능을 보였습니다.
- GenEval: 전체 점수 0.75 (Position: 0.69, Color Attribution: 0.62 등 복잡한 조합 작업에서 강점).
- GenAI-Bench: 기본 (Basic) 점수 0.87.
- 전용 생성 모델 (SDXL, DALL-E 3 등) 과 통합 모델 (Janus, EMU3 등) 모두를 능가하거나 경쟁하는 성능을 보였습니다.

라. 분석 (Ablation Study)

진화 방향의 중요성: 픽셀에서 의미로 진화하는 방식 (Pixel-to-Semantic) 이 의미에서 픽셀로 진화하거나 (Semantic-to-Pixel), 특징을 섞는 방식 (Entangled) 보다 재구성, 이해, 생성 모든 작업에서 가장 균형 잡힌 성능을 보였습니다.
잠재 공간 분석: t-SNE 시각화 및 클러스터링 분석을 통해, 얕은 층에서는 텍스처와 색상 같은 저수준 특징이, 깊은 층에서는 객체 및 개념 같은 고수준 의미론적 특징이 자연스럽게 정렬됨을 확인했습니다.

5. 의의 및 결론 (Significance)

EvoTok 은 시각적 표현을 **고정된 특징이 아닌 '진화하는 궤적 (Evolving Trajectory)'**으로 모델링함으로써, 시각적 이해와 생성 간의 근본적인 간극 (Granularity Gap) 을 해결했습니다.

원칙적 해결책: 작업 간 간섭을 피하기 위해 특징을 분리하면서도, 단일 잠재 공간 내에서 일관성을 유지하는 새로운 설계 원칙을 제시했습니다.
효율성: 방대한 데이터 없이도 강력한 성능을 달성하여, 데이터 효율적인 멀티모달 모델 개발의 가능성을 열었습니다.
미래 전망: 이 연구는 통합 멀티모달 시스템의 토크나이저 설계에 새로운 통찰을 제공하며, 더 강력하고 균형 잡힌 차세대 MLLM 개발의 기반이 될 것으로 기대됩니다.