CaTok: Taming Mean Flows for One-Dimensional Causal Image Tokenization

이 논문은 Vision Foundation 모델의 특징 정렬을 통해 학습을 안정화하고, MeanFlow 디코더를 활용한 1 차원 인과적 이미지 토크나이저 'CaTok'을 제안하여 ImageNet 재구성 및 생성 성능에서 최첨단 결과를 달성했다고 요약할 수 있습니다.

Yitong Chen, Zuxuan Wu, Xipeng Qiu, Yu-Gang Jiang

게시일 2026-03-09
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

🎨 그림을 그리는 두 가지 방식: "한 번에 다 그리기" vs "한 줄씩 쓰기"

지금까지 AI 가 그림을 그릴 때는 주로 두 가지 방식 중 하나를 썼습니다.

  1. VQGAN 같은 방식 (2D 토큰): 그림을 작은 퍼즐 조각 (패치) 으로 잘게 나누고, 이를 2 차원 격자에 채워 넣습니다. 하지만 이 조각들을 1 차원 줄로 만들 때, 순서가 중요하지 않습니다. 마치 "퍼즐 조각을 아무렇게나 섞어서 옆에 놓는 것"과 비슷해서, AI 가 "다음 조각은 무엇이어야 할까?"라고 순서대로 생각하며 그리는 것이 어렵습니다.
  2. Diffusion Autoencoder (확산 모델): 그림을 1 차원 줄 (문장처럼) 로 만들려고 시도했지만, 기존 방식들은 모든 조각을 한 번에 다 보여주고 그림을 완성했습니다. 이는 "글을 쓸 때, 앞뒤 문장을 모두 다 보고 한 줄을 쓰는 것"과 같아서, AI 가 순서대로 예측하는 능력 (다음 단어 예측) 을 키우기 어렵게 만들었습니다.

🚀 CaTok 의 등장: "그림을 문장처럼 순서대로 쓰기"

CaTok 은 이 문제를 해결하기 위해 그림을 '문장'처럼 1 차원 줄로 만들고, 순서대로 읽을 수 있게 만들었습니다.

1. 시간의 흐름을 이용한 '순서' (인과성)

CaTok 은 그림을 그릴 때 시간의 흐름을 이용합니다.

  • 비유: 그림을 그리는 과정을 '시간이 흐르며 그림이 완성되어 가는 과정'으로 봅니다.
  • 작동 원리: AI 는 그림의 **처음 부분 (0~10% 시간)**에 해당하는 조각을 먼저 보고, 그다음 중간 부분, 그리고 나중 부분을 순서대로 학습합니다.
  • 결과: 마치 사람이 글을 쓸 때 "첫 문장 → 두 번째 문장 → 세 번째 문장" 순서로 이어가듯, AI 도 "그림의 앞부분 → 중간 → 뒷부분" 순서로 자연스럽게 이어지는 **인과성 (Causality)**을 갖게 됩니다.

2. '평균 흐름'을 보는 눈 (MeanFlow)

기존 방식들은 '순간적인 속도'만 보거나, '무작위로 일부만' 보는 문제가 있었습니다.

  • CaTok 의 해결책: CaTok 은 **시간 구간 [r, t] 동안의 '평균 흐름'**을 봅니다.
  • 비유: 차를 운전할 때, "지금 이 순간의 속도"만 보는 게 아니라, "지난 10 초 동안의 평균 속도"를 보고 다음 방향을 결정하는 것과 같습니다.
  • 장점: 이렇게 하면 AI 는 한 번에 그림을 완성할 수도 있고 (1 스텝), 단계별로 정교하게 다듬을 수도 있습니다 (25 스텝). 마치 빠른 스케치와 정밀한 드로잉을 모두 가능하게 하는 것입니다.

3. REPA-A: "명화 감수성을 가진 선생님"

학습을 더 빠르고 안정적으로 하기 위해, CaTok 은 REPA-A라는 기술을 썼습니다.

  • 비유: 초보 화가가 그림을 그릴 때, 이미 유명한 대가 (Vision Foundation Model) 가 그린 명화를 옆에 두고 "이 화가라면 이 부분을 어떻게 그렸을까?"라고 비교하며 배웁니다.
  • 효과: AI 가 그림의 의미 (개념, 사물의 특징) 를 더 잘 이해하게 되어, 훨씬 적은 시간으로 더 높은 퀄리티의 그림을 그릴 수 있게 됩니다.

🏆 CaTok 의 성과: 왜 이것이 중요한가요?

  1. 빠르고 정확한 그림: 256 개의 조각 (토큰) 만으로도 아주 선명한 그림을 만들 수 있습니다.
  2. 문장 같은 순서: 그림의 토큰들이 앞뒤로 자연스럽게 연결되어, AI 가 "다음에 어떤 그림 조각이 올지" 예측하는 능력이 뛰어납니다.
  3. 유연성: 그림을 한 번에 뚝딱 만들 수도 있고, 천천히 정교하게 다듬을 수도 있습니다.
  4. 최고의 기록: ImageNet(유명한 이미지 데이터셋) 에서 다른 최신 기술들보다 더 좋은 화질 (PSNR, SSIM) 을 보여주면서, 학습 시간도 절반 이하로 줄였습니다.

💡 한 줄 요약

CaTok 은 그림을 '퍼즐 조각'이 아니라 '문장'처럼 순서대로 이어 붙여 그릴 수 있게 만든 기술입니다. 이를 통해 AI 는 글을 쓰듯 그림을 순서대로 예측할 수 있게 되었고, 더 빠르고 더 똑똑하게 그림을 그릴 수 있게 되었습니다.