Communication-Inspired Tokenization for Structured Image Representations

Each language version is independently generated for its own context, not a direct translation.

🎨 핵심 아이디어: "이미지를 조각조각 나누어 대화하듯 기억하기"

기존의 인공지능 이미지 인식 기술은 보통 사진을 한 번에 통째로 보고, 모든 픽셀을 압축해서 기억하려 했습니다. 마치 한 장의 사진을 보고 "이건 고양이 사진이야, 털이 많고 눈이 커"라고 한 번에 외우는 것과 비슷합니다. 문제는 이렇게 하면 세부적인 특징 (고양이의 귀, 눈, 꼬리) 이 서로 뒤섞여서 나중에 "고양이와 개가 함께 있는 사진"을 만들 때 혼란이 생긴다는 점입니다.

COMiT 는 이를 '대화'로 바꿉니다.

1. 시나리오: "눈가리개 게임"과 "점진적인 설명"

상상해 보세요. 친구가 눈을 가리고 있는데, 당신이 그 친구에게 어떤 장면을 설명해야 한다고 칩시다.

기존 방식: "여기 고양이가 있고, 개가 있고, 나무가 있어!"라고 한 번에 다 말해버립니다. 친구는 모든 정보를 한꺼번에 받아서 기억해야 하므로, 고양이와 개의 특징이 섞여버릴 수 있습니다.
COMiT 방식 (이 논문의 아이디어):
1. 당신은 친구에게 먼저 고양이 얼굴만 보여줍니다. 친구는 "아, 고양이 얼굴이 있구나"라고 기억합니다.
2. 그다음 고양이 옆에 있는 개를 보여줍니다. 친구는 "아, 고양이 옆에 개가 있구나"라고 기존 기억에 새로운 정보를 추가합니다.
3. 마지막으로 배경 나무를 보여줍니다.
4. 친구는 이 순서대로 들어온 정보를 조합해서 전체 장면을 머릿속에 그립니다.

이처럼 COMiT 는 이미지를 한 번에 다 보는 게 아니라, 작은 조각 (크롭) 을 하나씩 순서대로 보여주면서 정보를 쌓아갑니다. 이 과정에서 인공지능은 "고양이 정보", "개 정보"를 각각 따로따로 정리해서 기억하게 됩니다.

2. 화자와 청자가 같은 사람 (자기 대화)

기존 기술은 '그리는 사람 (인코더)'과 '그림을 보는 사람 (디코더)'이 서로 다른 두 개의 뇌처럼 작동했습니다. 하지만 COMiT 는 한 명의 사람이 화자이자 청자가 되는 방식을 사용합니다.

비유: 당신이 혼자서 장면을 기억했다가, 나중에 그 기억을 바탕으로 다시 그림을 그리는 상황입니다.
효과: 이렇게 하면 인공지능이 "어떤 정보가 중요하고, 어떤 정보는 생략해야 할지" 스스로 판단하며, **의미 있는 구조 (객체 중심)**로 정보를 정리하게 됩니다.

🚀 이 기술이 왜 특별한가요?

1. "의미"를 먼저 생각합니다.

기존 기술은 이미지를 압축해서 저장하는 데 집중했습니다 (파일 크기 줄이기). 하지만 COMiT 는 **"이 이미지에 무엇이 있는가?"**에 집중합니다.

비유: 도서관에서 책을 정리할 때, 기존 방식은 책의 두께와 색으로 정리했다면, COMiT 는 **주제 (로맨스, 공상과학, 역사)**별로 정리합니다. 그래서 나중에 "로맨스 소설과 공상과학 소설이 섞인 이야기"를 만들 때 훨씬 정확합니다.

2. "창의적인 일반화"가 가능합니다.

이 기술은 학습하지 않은 새로운 상황에서도 잘 작동합니다.

비유: "파란색 고양이"와 "빨간색 개"를 배웠다면, 기존 기술은 "빨간색 고양이"를 그리면 망칠 수 있습니다. 하지만 COMiT 는 '색상'과 '동물'을 따로따로 기억하므로, 빨간색 고양이를 자연스럽게 그려낼 수 있습니다.

3. 불확실성을 줄여갑니다.

이미지를 복원할 때, COMiT 는 처음엔 흐릿하게 그리고, 정보가 들어올수록 선명하게 만듭니다.

비유: 안개 낀 날에 창문을 통해 밖을 볼 때, 처음엔 흐릿한 형상만 보이다가, 안개가 걷히면서 (정보가 추가되면서) 고양이인지 개인지 명확해지는 것과 같습니다.

💡 요약: COMiT 가 가져오는 변화

이 논문은 **"이미지를 이해하는 가장 좋은 방법은, 마치 사람이 대화하듯 정보를 하나씩 쌓아가는 것"**이라고 주장합니다.

기존: "사진을 통째로 압축해서 저장하자." (데이터 위주)
COMiT: "사진을 작은 조각으로 나누고, 하나씩 설명하며 의미를 정리하자." (이해와 구조 위주)

이 덕분에 인공지능은 이제 단순히 이미지를 재현하는 것을 넘어, **객체 간의 관계 (고양이가 개 위에 앉아 있다)**를 이해하고, 새로운 조합을 창의적으로 만들어내는 능력을 갖게 되었습니다. 이는 미래의 멀티모달 AI(텍스트, 이미지, 비디오를 모두 이해하는 AI) 가 더 똑똑하고 논리적으로 사고하는 데 큰 발걸음이 될 것입니다.

Each language version is independently generated for its own context, not a direct translation.

1. 문제 정의 (Problem)

기존의 이산적 이미지 토크나이저 (VQ-VAE, VQ-GAN 등) 는 주로 **재구성 (Reconstruction)**과 압축 (Compression) 최적화에 중점을 둡니다. 이로 인해 학습된 토큰들은 객체 수준의 의미론적 구조 (semantic structure) 보다는 국소적인 질감 (texture) 이나 패치 통계에 더 민감하게 반응하는 경향이 있습니다.

최근 트랜스포머 기반 모델에 적합한 1 차원 (1D) 토큰 시퀀스 연구가 진행되고 있지만, 여전히 대부분의 방법은 압축 효율성을 최우선으로 하여 토큰 간의 의미론적 정보가 뒤섞여 있고 (entangled), 객체 중심의 구조가 명확하지 않아 하류 작업 (compositional generalization, relational reasoning 등) 에서 성능이 제한적입니다.

2. 방법론 (Methodology)

저자들은 인간의 의사소통 (Communication) 방식, 즉 복잡한 장면을 설명할 때 한 번에 하나의 영역에 주의를 기울이며 정보를 점진적으로 통합하는 과정을 모방하여 COMiT 를 설계했습니다.

핵심 설계 원칙

주의 기반 순차적 토크나이저 (Attentive and Sequential Tokenization):
- 이미지를 한 번에 처리하는 것이 아니라, 무작위로 선택된 **로컬 크롭 (local crops)**을 순차적으로 관찰합니다.
- 각 단계에서 새로운 시각 정보를 통합하면서 기존에 학습된 이산적 잠재 메시지 (latent message) 를 업데이트하고 재구성합니다.
- 이는 고정된 용량 내에서 정보를 '탐욕적 (greedy)'으로 사용하여 불필요한 세부 사항을 버리고 핵심 객체 정보를 유지하도록 유도합니다.
동질적 통신 (Homogeneous Communication):
- 기존 오토인코더와 달리 인코더와 디코더를 분리하지 않고, 단일 트랜스포머 모델이 '화자 (인코딩)'와 '청자 (디코딩)' 역할을 모두 수행하도록 설계했습니다. 이는 인간이 동시에 관찰하고 기억하며 재구성하는 능력과 유사합니다.

아키텍처 및 학습 프로세스

인코딩: 입력 이미지의 크롭 시퀀스 $\{c_k\}$ 를 순차적으로 입력받아, 현재 메시지 $m_{k-1}$ 을 업데이트하여 새로운 메시지 $m_k$ 를 생성합니다. 메시지는 **FSQ (Finite Scalar Quantization)**를 통해 이산적 토큰 시퀀스로 양자화됩니다.
디코딩: 최종 메시지 $m_K$ 를 조건으로 하여 Flow Matching 기반의 생성 모델을 통해 전체 이미지를 재구성합니다.
손실 함수 (Loss Function):
- Flow Matching Loss: 이미지 재구성 정확도 확보.
- Semantic Representation Alignment (SREPA): DINOv2 와 같은 사전 학습된 자기지도 학습 (SSL) 모델의 특징을 증류 (distill) 하여, 토큰 시퀀스가 고수준 의미론적 정보를 갖도록 유도합니다.
- REPA: 중간 표현의 정렬을 통해 학습 속도를 가속화합니다.

3. 주요 기여 (Key Contributions)

의사소통 영감 토크나이저 (COMiT) 제안: 재구성/압축 최적화에서 벗어나, **의미론적 조직화 (Semantic Organization)**와 구조화된 표현을 목표로 하는 새로운 토크나이저 프레임워크를 제시했습니다.
점진적 정보 통합 메커니즘: 순차적 크롭 관찰과 메시지 업데이트를 통해 토큰들이 객체 중심 (object-centric) 이고 해석 가능한 구조를 자연스럽게 형성하도록 유도했습니다.
통합 아키텍처: 인코딩과 디코딩을 단일 네트워크로 통합하여 파라미터 중복을 줄이고, 모델이 작업 간 용량 배분을 자율적으로 결정하도록 했습니다.
새로운 벤치마크 및 평가: 의미론적 그라운딩, 구성적 일반화 (compositional generalization), 객체 간 관계 추론 (relational reasoning) 을 평가하는 일련의 벤치마크를 도입하여 기존 방법론보다 우수한 성능을 입증했습니다.

4. 실험 결과 (Results)

벤치마크 성능: ImageNet100 (분류), MSCOCO (구성적 일반화), Visual Genome (관계 추론) 에서 기존 1D 이산 이미지 인코더 (TiTok, FlexTok, SelfTok 등) 보다 압도적으로 우수한 성능을 보였습니다.
- 특히 COMiT-B 모델은 ImageNet100 Top-1 정확도에서 82.91% 를 기록하여 기존 최상위 모델들을 능가했습니다.
Ablation Study:
- SREPA (의미 정렬): 토큰의 의미적 내용을 강화하는 데 필수적입니다.
- 주의 기반 순차 토크나이저: 토큰이 이미지 내 객체와 명확하게 정렬되도록 (attention maps 가 객체와 일치) 하여 해석 가능성과 구성적 구조를 형성하는 핵심 요소입니다.
토큰 구조 분석: 학습된 토큰 시퀀스는 객체와 그 부분 (parts) 에 집중하는 경향을 보이며, 이는 모델이 장면을 구성적으로 이해하고 있음을 시사합니다.

5. 의의 및 결론 (Significance)

COMiT 는 단순한 이미지 압축 도구를 넘어, 멀티모달 AI 시스템이 시각 정보를 구조화하고 추론하는 방식에 대한 새로운 패러다임을 제시합니다.

해석 가능성: 토큰이 특정 객체나 영역에 대응하도록 학습되어, 모델의 내부 작동 원리를 이해하는 데 기여합니다.
하류 작업 향상: 객체 중심의 구조화된 토큰은 복잡한 추론, 구성적 일반화, 그리고 멀티모달 이해 작업에 더 적합한 인터페이스를 제공합니다.
미래 방향: 비디오 처리 (시공간적 구조 학습) 로의 확장 및 강화학습을 통한 적응형 크롭 정책 연구 등 향후 연구의 중요한 방향성을 제시합니다.

요약하자면, COMiT 는 **인간의 인지 과정 (점진적 관찰과 통합)**을 모방하여, 의미론적으로 정렬되고 구조화된 이산적 이미지 토큰을 생성함으로써 기존 토크나이저의 한계를 극복한 획기적인 연구입니다.