EvoTok: A Unified Image Tokenizer via Residual Latent Evolution for Visual Understanding and Generation

이 논문은 시각적 이해와 생성 간의 그레인粒度 차이를 해결하기 위해 공유 잠재 공간 내에서 잔차 벡터 양자화를 통해 이미지 토큰을 점진적으로 진화시키는 통합 토크나이저 'EvoTok'을 제안하며, 소규모 데이터셋으로도 뛰어난 재구성 품질과 다양한 멀티모달 작업에서 우수한 성능을 입증합니다.

Yan Li, Ning Liao, Xiangyu Zhao, Shaofeng Zhang, Xiaoxing Wang, Yifan Yang, Junchi Yan, Xue Yang

게시일 2026-03-13
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

이 논문은 **'EvoTok(이보톡)'**이라는 새로운 기술을 소개합니다. 이 기술은 인공지능이 이미지를 '이해'하는 능력이미지를 '그리는' 능력을 동시에, 그리고 훨씬 더 잘 수행할 수 있게 해줍니다.

기존의 AI 모델들은 보통 두 가지 능력을 따로따로 훈련하거나, 서로 충돌하는 요구사항을 한 번에 해결하려다 보니 성능이 떨어지는 문제가 있었습니다. EvoTok 은 이 문제를 한 번에 해결하는 혁신적인 방법을 제시합니다.

이 복잡한 기술을 일상적인 언어와 비유로 쉽게 설명해 드릴게요.


🎨 핵심 비유: "사진을 보는 두 가지 눈" vs "한 번에 변하는 마법"

기존의 AI 모델들은 보통 두 가지 방식 중 하나를 택했습니다.

  1. 두 개의 서로 다른 눈 (Decoupled):

    • 이해용 눈: 그림의 내용 (예: "이건 강아지야") 을 파악하는 데 집중합니다.
    • 그리기용 눈: 그림의 세부적인 질감이나 색상을 완벽하게 재현하는 데 집중합니다.
    • 문제점: 이 두 눈이 서로 다른 곳에서 작동하다 보니, AI 가 "강아지"라는 개념을 이해하면서도 동시에 "강아지 털 하나하나"를 그리는 데 어려움을 겪습니다. 두 가지 정보가 따로 놀아서 조화가 안 됩니다.
  2. 한 쌍의 눈 (Entangled):

    • 하나의 눈: 내용 이해와 세부 묘사를 동시에 하려고 애씁니다.
    • 문제점: "강아지"라는 개념을 설명하려다 보니 털의 디테일이 흐려지거나, 반대로 털을 그리느라 "강아지"라는 큰 그림을 놓치는 충돌이 발생합니다.

✨ EvoTok 의 해결책: "점진적인 진화 (Residual Evolution)"

EvoTok 은 이 두 가지 방식을 모두 버리고, **한 번의 여정 (Trajectory)**을 통해 해결합니다.

비유: "초보 예술가의 스케치에서 대가 (Master) 의 완성작까지"

EvoTok 은 이미지를 처리할 때, 하나의 캔버스 위에서 그림이 단계별로 진화한다고 상상해 보세요.

  1. 1 단계 (초기): AI 는 먼저 세부적인 점과 선을 그립니다. (색깔, 질감, 윤곽선 등)
    • 이 단계는 그림을 '그리는' 데 필요한 정보입니다.
  2. 2 단계 (중간): 그 위에 형태와 구조가 더해집니다.
  3. 최종 단계 (후기): 이제 의미와 개념이 완성됩니다. (이건 '강아지'야, '행복한 표정'이야 등)
    • 이 단계는 그림을 '이해'하는 데 필요한 정보입니다.

핵심 아이디어:
EvoTok 은 이 모든 과정을 하나의 연속된 흐름으로 만듭니다.

  • 그릴 때: AI 는 이 흐름의 **초반부 (세부 정보)**를 꺼내서 고화질 그림을 그립니다.
  • 이해할 때: AI 는 이 흐름의 **후반부 (개념 정보)**를 꺼내서 "이건 강아지야"라고 말합니다.

즉, **같은 데이터 (하나의 여정)**를 사용하되, 어느 시점의 정보를 가져오느냐에 따라 '그리기'와 '이해하기'가 자연스럽게 나뉘는 것입니다. 서로 충돌하지 않고, 오히려 서로를 보완합니다.


🚀 왜 이것이 대단한가요?

  1. 적은 데이터로 큰 성과:

    • 다른 AI 들은 수십 억 개의 이미지로 훈련해야 좋은 결과를 냈습니다. 하지만 EvoTok 은 1,300 만 개라는 상대적으로 적은 데이터로도, 거대 모델들보다 더 좋은 성능을 냈습니다. 마치 재능 있는 화가가 적은 연습으로도 명작을 그려내는 것과 같습니다.
  2. 이해와 생성의 완벽한 조화:

    • 이해하기: 9 가지 테스트 중 7 가지에서 최고의 점수를 받았습니다. (예: 복잡한 그림을 보고 논리적으로 추론하는 능력)
    • 그리기: 텍스트를 입력하면 "빨간색 우산 쓴 강아지"처럼 복잡한 조건을 정확히 반영한 그림을 그립니다.
  3. 단일 공간의 효율성:

    • 별도의 저장 공간이 필요하지 않습니다. 하나의 '잠재 공간 (Latent Space)' 안에서 정보가 진화하기 때문에, AI 가 기억해야 할 것이 줄고 계산도 효율적입니다.

📝 한 줄 요약

"EvoTok 은 AI 가 그림을 그릴 때는 '세부 묘사'를, 그림을 볼 때는 '의미 파악'을 동시에 할 수 있도록, 하나의 그림이 초기 스케치에서 완성된 명작으로 진화하는 과정을 그대로 학습시킨 혁신적인 기술입니다."

이 기술은 앞으로 우리가 AI 와 대화하거나, AI 가 만들어낸 이미지를 볼 때 훨씬 더 자연스럽고 똑똑한 경험을 할 수 있게 해줄 것입니다.