SemHiTok: A Unified Image Tokenizer via Semantic-Guided Hierarchical Codebook for Multimodal Understanding and Generation

이 논문은 의미 기반 계층적 코드북을 통해 고수준 의미 이해와 저수준 픽셀 생성 간의 균형을 달성한 통합 이미지 토크나이저 'SemHiTok'을 제안하며, 이를 통해 이미지 재구성 및 다중 모달 이해·생성 성능을 동시에 향상시켰음을 보여줍니다.

Zisheng Chen, Chunwei Wang, Runhui Huang, Hongbin Xu, Xiuwei Chen, Jun Zhou, Jianhua Han, Hang Xu, Xiaodan Liang

게시일 2026-03-03
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

🎨 비유: "명화 감식가"와 "세밀한 화가"의 문제

과거의 인공지능 모델들은 그림을 다룰 때 두 가지 성격이 극단적으로 나뉘어 있었습니다.

  1. 명화 감식가 (이해용 모델):

    • 이 모델은 그림을 보면 "이건 강아지야, 배경은 산이야"라고 개념을 파악하는 데는 천재입니다.
    • 하지만 그림의 세부적인 질감이나 색감은 잘 기억하지 못합니다. 마치 "이건 강아지 그림이지"는 말은 하지만, 강아지 털의 결이나 눈빛의 반짝임은 잊어버리는 것과 같습니다.
    • 결과: 그림을 이해는 잘하지만, 그걸 바탕으로 똑같은 그림을 다시 그리면 흐릿하고 뭉개집니다.
  2. 세밀한 화가 (생성용 모델):

    • 이 모델은 그림의 **모든 픽셀 (점)**을 정확히 기억하고 재현하는 데 능숙합니다.
    • 하지만 "이 그림이 무슨 의미인지"는 잘 모릅니다. 강아지 털은 완벽하게 그리지만, 그게 강아지인지 고양이인지 구분하지 못할 수도 있습니다.
    • 결과: 그림은 선명하지만, AI 가 그림을 보고 질문에 답하거나 논리적으로 이해하는 능력은 떨어집니다.

기존의 문제점:
연구자들은 이 두 모델을 하나로 합치려고 노력했습니다. 하지만 "감식가"와 "화가"를 한 사람으로 만들려고 하면, 두 가지 성격이 서로 충돌해서 둘 다 제 역할을 못 하는 상황이 벌어졌습니다. (이론적으로 '이해'를 하려면 추상화해야 하고, '생성'을 하려면 구체적이어야 하기 때문입니다.)


💡 SemHiTok 의 해결책: "지휘자가 있는 오케스트라"

SemHiTok 은 이 문제를 해결하기 위해 **'의미 기반 계층적 코드북 (Semantic-Guided Hierarchical Codebook)'**이라는 독특한 방식을 도입했습니다. 이를 **'지휘자와 악단'**에 비유해 볼까요?

  1. 지휘자 (의미 코드북):

    • 먼저, 이미지의 **큰 그림 (개념)**을 파악하는 '지휘자'가 있습니다.
    • 지휘자는 "여기는 강아지 영역, 저기는 배경 영역"이라고 큰 틀을 잡습니다. (예: "이 부분은 '닭벼슬'이야")
  2. 세부 악단 (픽셀 서브 코드북):

    • 지휘자가 "이곳은 닭벼슬이야"라고 지시하면, **해당 영역에 맞는 전문 악단 (서브 코드북)**이 나옵니다.
    • 중요한 점은, 같은 '닭벼슬'이라는 개념을 가진 부분들은 서로 비슷한 색과 질감을 가진다는 사실을 이용했다는 것입니다.
    • 지휘자가 "닭벼슬"을 지시하면, 그 지시를 받은 악단만 "닭벼슬에 어울리는 붉은색과 주름진 질감"을 담당합니다.

이 방식의 장점:

  • 분업의 효율성: 지휘자 (의미) 는 개념만 생각하고, 악단 (픽셀) 은 세부적인 질감만 담당합니다. 서로 간섭하지 않아서 이해 능력도 떨어지지 않고, 그림의 선명함도 유지됩니다.
  • 하나의 언어: 이 두 가지 정보 (지휘자의 지시 + 악단의 연주) 를 하나로 합쳐서, 인공지능이 읽을 수 있는 **단어 (토큰)**로 만듭니다. 그래서 기존 인공지능 모델 (LLM) 에도 쉽게 붙여서 쓸 수 있습니다.

🚀 이 기술이 가져온 변화

이론을 실제 실험에 적용한 결과, 놀라운 성과가 있었습니다.

  • 이해와 생성의 완벽한 조화: 기존에 따로 쓰이던 모델들보다 **이미지 재현 (그림을 다시 그리는 것)**과 다중 모달 이해 (그림 보고 질문 답하기) 모두에서 최상위권 성적을 냈습니다.
  • 효율성: 단순히 용량을 늘리는 게 아니라, 구조를 clever하게 바꿔서 더 적은 자원으로 더 좋은 결과를 냈습니다. 마치 "단순히 악기 수를 늘리는 게 아니라, 악기 배치를 최적화해서 더 아름다운 연주를 만든 것"과 같습니다.

📝 한 줄 요약

SemHiTok은 인공지능에게 **"큰 그림을 보는 눈 (이해)"**과 **"세부적인 묘사하는 손 (생성)"**을 동시에 갖게 해주는 혁신적인 기술입니다. 마치 명화 감식가에게 화가의 손기술을, 화가에게 감식가의 안목을 동시에 부여하여, 인공지능이 그림을 보고도 잘 이해하고, 말로 지시받으면 완벽하게 그려내는 시대를 열었습니다.