UniWeTok: An Unified Binary Tokenizer with Codebook Size 2128\mathit{2^{128}} for Unified Multimodal Large Language Model

이 논문은 $2^{128}$ 크기의 거대한 이진 코드북, Pre-Post 증류 및 생성 인식 사전 지식, 그리고 시그루 (SigLu) 활성화 함수를 활용한 하이브리드 아키텍처를 통해 고충실도 재구성, 복잡한 의미 추출, 생성 적합성을 동시에 달성하는 통합 멀티모달 대형 언어 모델용 유니토크 (UniWeTok) 를 제안합니다.

Shaobin Zhuang, Yuang Ai, Jiaming Han, Weijia Mao, Xiaohui Li, Fangyikang Wang, Xiao Wang, Yan Li, Shanchuan Lin, Kun Xu, Zhenheng Yang, Huaibo Huang, Xiangyu Yue, Hao Chen, Yali Wang

게시일 2026-03-12
📖 4 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

UniWeTok: 모든 것을 하나로 묶은 '만능 이미지 번역기' 이야기

안녕하세요! 오늘 소개해 드릴 UniWeTok은 인공지능이 그림을 이해하고, 다시 그리는 방식을 혁신한 새로운 기술입니다. 마치 **한 마리의 '만능 요정'**이 등장하여, 그동안 따로따로 하던 일을 모두 한 번에 해낸다고 상상해 보세요.

이 복잡한 기술 이야기를 일상적인 비유로 쉽게 풀어드리겠습니다.


1. 왜 이 기술이 필요할까요? (과거의 문제점)

예전에는 인공지능이 그림을 다룰 때 두 가지 부서를 따로 운영해야 했습니다.

  1. 이해 부서 (Understanding): 그림을 보고 "이건 고양이야, 배경은 바다야"라고 설명하는 역할.
  2. 그리기 부서 (Generation): "고양이가 바다에 있는 그림을 그려줘"라고 하면 실제로 그림을 그리는 역할.

문제는 이 두 부서가 서로 다른 언어를 썼다는 거예요.

  • 이해 부서는 그림의 '의미'를 중시해서 디테일을 버리고 요약했습니다.
  • 그리는 부서는 '화질'을 중시해서 의미보다는 픽셀 하나하나를 중요하게 여겼습니다.

이 때문에 두 부서를 하나로 합치려 하면, 화질은 떨어지거나, 의미 전달이 안 되거나, 둘 다 엉망이 되는 문제가 생겼습니다. 마치 고급 요리사 (그리는 부서) 가 요리 레시피 (의미) 를 못 읽거나, 요리사 (이해 부서) 가 요리를 못 하는 상황과 비슷합니다.

2. UniWeTok 의 등장: "한 번에 해결하는 만능 열쇠"

UniWeTok 은 이 문제를 해결하기 위해 등장한 **초고성능 '이미지 압축기'**입니다. 그림을 컴퓨터가 이해할 수 있는 '숫자 코드 (토큰)'로 바꾸는데, 이 코드가 세 가지 능력을 모두 동시에 갖췄습니다.

🌟 핵심 비유 1: 거대한 '레고 상자' (2¹²⁸ 개의 코드)

기존 기술들은 레고 조각이 적어서 복잡한 모양을 만들면 조각이 부족하거나, 모양이 뭉개졌습니다.
UniWeTok 은 2¹²⁸ 개 (약 340 조 개) 의 거대한 레고 조각을 준비했습니다. 이 조각 하나하나가 고양이 귀의 털결, 눈빛, 배경의 구름까지 모든 디테일과 의미를 담을 수 있을 만큼 강력합니다.

  • 결과: 그림을 75% 나 줄여도 (압축), 원래 그림과 거의 똑같이 재현할 수 있습니다.

🌟 핵심 비유 2: '이중 교육' (Pre-Post Distillation)

이제 이 레고 조각이 의미도 잘 전달하게 하려면 어떻게 해야 할까요?
UniWeTok 은 두 명의 선생님을 모셨습니다.

  1. 이론 선생님 (Pre-Distillation): 그림을 보기 전에 "이건 고양이다"라고 미리 가르쳐 줍니다.
  2. 실습 선생님 (Post-Distillation): 그림을 만든 후에도 "여기 고양이 눈이 잘 보이게 했니?"라고 점검합니다.

이 두 선생님이 함께 가르치니, 레고 조각이 의미 (고양이) 와 형태 (화질) 를 동시에 완벽하게 기억하게 됩니다.

🌟 핵심 비유 3: '안정제' (SigLu 활성화 함수)

기존 기술들은 레고 조각을 만들 때 너무 세게 누르거나 너무 느슨하게 만들어서 깨지거나 뭉개지는 경우가 많았습니다.
UniWeTok 은 **SigLu 라는 '안정제'**를 도입했습니다. 이는 레고 조각이 너무 튀지 않고 적당한 범위 (-1 과 1 사이) 에 딱 맞게 유지되도록 도와줍니다. 덕분에 의미 전달과 화질 유지라는 상충되는 두 마리 토끼를 모두 잡을 수 있게 되었습니다.

3. 어떻게 훈련시켰나요? (3 단계 커리큘럼)

UniWeTok 을 가르칠 때, 한 번에 모든 것을 가르치지 않고 단계별로 훈련시켰습니다.

  1. 1 단계 (기초 다지기): 작은 그림 (256x256) 으로 일반적인 사물을 많이 보고 기본기를 다집니다.
  2. 2 단계 (다양성 확장): 다양한 크기의 그림을 보며, 크기가 달라져도 잘 이해하도록 훈련합니다.
  3. 3 단계 (전문가 과정): 얼굴이나 글자처럼 세밀한 부분이 중요한 그림을 집중적으로 훈련시켜, 눈동자나 글씨체까지 완벽하게 복원하게 합니다.

4. 어떤 성과를 냈나요?

이 기술은 기존 최고의 모델들을 가볍게 제쳤습니다.

  • 화질: 그림을 다시 그릴 때, 다른 모델들보다 훨씬 더 선명하고 자연스럽습니다. (FID 점수 1.38 vs 1.42)
  • 학습 효율: 같은 화질을 내는데 필요한 학습 데이터 양이 기존의 1/8 수준으로 줄었습니다. (330 억 개 vs 2,620 억 개)
  • 만능 능력:
    • 이해: "이 고양이 사진에 무슨 글자가 써있니?"라고 물으면 정확히 답합니다.
    • 생성: "고양이가 우주선을 타고 있는 그림을 그려줘"라고 하면 바로 그립니다.
    • 편집: "배경을 바다로 바꿔줘"라고 하면 배경만 깔끔하게 바꿉니다.

5. 결론: 하나의 모델로 모든 것을

기존에는 그림을 이해하는 AI 와 그리는 AI 를 따로 만들어서 연결해야 했지만, UniWeTok은 **하나의 강력한 '디지털 번역기'**로 이 모든 일을 해결했습니다.

마치 한 명의 천재 요리사가 레시피를 읽고, 재료를 고르고, 요리를 하고, 심지어 요리 설명까지 완벽하게 해내는 것과 같습니다. 이 기술 덕분에 앞으로는 더 똑똑하고, 더 빠르며, 더 다양한 일을 해내는 차세대 멀티모달 AI를 만들 수 있게 되었습니다.

요약하자면:
UniWeTok 은 거대한 레고 상자로 그림을 압축하고, 두 명의 선생님에게 의미와 화질을 동시에 가르쳐, 한 번에 이해하고 그리는 만능 AI를 완성한 혁신적인 기술입니다! 🎨🤖✨