Towards Scalable Pre-training of Visual Tokenizers for Generation

이 논문은 기존 시각 토크나이저의 전처리 확장 한계를 해결하기 위해 이미지 - 텍스트 대비, 자기지도, 재구성 손실을 통합한 'VTP' 프레임워크를 제안하며, 고수준 의미 이해를 통해 생성 모델의 성능이 컴퓨팅 자원에 비례하여 효과적으로 확장됨을 입증합니다.

Jingfeng Yao, Yuda Song, Yucong Zhou, Xinggang Wang

게시일 2026-03-09
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

1. 기존 방식의 문제: "세부사항만 보는 눈"

기존의 AI 훈련 방식은 마치 고해상도 카메라처럼 작동했습니다.

  • 방식: AI 에게 원본 그림을 보여주고, 그걸 그대로 복사해 내게 하라고 시켰습니다 (재구성 훈련).
  • 문제: AI 는 점점 더 선명하게 복사하는 법을 배우지만, 그림이 '무엇'을 의미하는지 (고양이인지, 개인지) 는 전혀 이해하지 못하게 됩니다.
  • 비유: 마치 완벽한 복사기를 만든 셈입니다. 복사기는 원본을 100% 똑같이 찍어내지만, 원본이 '사랑의 편지'인지 '수학 문제'인지 구분하지 못합니다.
  • 결과: 복사기 성능은 좋지만, AI 가 직접 새로운 그림을 그릴 때는 엉망이 됩니다. 계산량을 늘려도 그림 실력은 더 이상 좋아지지 않는 **'한계 (스케일링 문제)'**에 부딪혔습니다.

2. 이 논문의 해결책: VTP (시각 토키나이저 사전 훈련)

저자들은 "AI 가 그림을 잘 그리려면, 먼저 그림의 의미를 이해해야 한다"고 주장하며 VTP라는 새로운 훈련 방식을 제시했습니다.

  • 핵심 아이디어: AI 에게 단순히 그림을 복사하는 것뿐만 아니라, 그림의 내용을 설명하는 글 (텍스트) 과 연결하고, 빈 부분을 채우는 게임을 시킵니다.
  • 비유:
    • 기존 방식: 아이에게 "이 그림을 그대로 그려봐"라고만 시킴. (세부 묘사는 잘하지만, 그림의 주제는 모름)
    • VTP 방식: 아이에게 "이 그림은 '해변에서 노는 강아지'야"라고 설명해주고, "눈을 가리고 이 부분을 그려봐"라고 시킴.
    • 효과: 아이는 이제 '강아지'와 '바다'라는 **개념 (의미)**을 이해하게 됩니다. 그래서 나중에 "강아지 그림 그려줘"라고 하면, 비록 세부적인 털 하나하나를 완벽하게 복사하지는 못하더라도, 강아지다운 강아지 그림을 훨씬 잘 그려냅니다.

3. 놀라운 발견: "이해"가 "창의성"을 키운다

이 논문은 세 가지 중요한 사실을 증명했습니다.

  1. 이해가 곧 창의성입니다:
    AI 가 그림의 '의미'를 잘 이해할수록 (텍스트와 연결, 빈 공간 채우기 훈련), 그리는 그림의 질이 비약적으로 좋아집니다. 단순히 복사하는 능력만 늘리는 것은 무의미합니다.

  2. 계산량을 늘리면 실력이 계속 좋아집니다 (스케일링 법칙):
    기존 방식은 계산량을 늘려도 실력이 어느 순간 멈췄습니다 (포화 상태). 하지만 VTP 방식은 계산량, 데이터, 모델 크기를 늘릴수록 AI 의 그림 실력이 계속 좋아졌습니다. 마치 공부할수록 지식이 쌓여 더 똑똑해지는 학생과 같습니다.

  3. 빠른 수렴 (빨리 배움):
    VTP 로 훈련된 AI 는 그림을 그리는 모델 (확산 모델) 과 짝을 지었을 때, 단 80 번의 훈련 (에포크) 만으로도 다른 방법들보다 훨씬 훌륭한 그림을 그렸습니다. 다른 방법들은 수천 번을 훈련해도 따라오지 못했습니다.

4. 결론: AI 의 '눈'을 바꾼다

이 연구는 AI 가 그림을 그릴 때, 단순히 픽셀 (화소) 을 맞추는 기술이 아니라 세상을 이해하는 기술이 중요하다는 것을 보여줍니다.

  • 기존: "눈을 뜨고 자세히 보라" (세부 사항 중심)
  • VTP: "눈을 뜨고 '무엇'인지 생각하라" (의미 중심)

이 새로운 방식 (VTP) 을 사용하면, AI 는 더 적은 노력으로 더 높은 수준의 그림을 그릴 수 있게 되며, 앞으로 더 큰 데이터와 더 큰 모델을 투입할수록 그 성능은 끝없이 성장할 수 있다는 희망을 주었습니다.

한 줄 요약:

"AI 가 그림을 잘 그리게 하려면, 세상을 복사하는 법이 아니라 세상을 이해하는 법을 가르쳐야 한다."