Communication-Inspired Tokenization for Structured Image Representations

이 논문은 인간의 점진적이고 구성적인 의사소통에서 영감을 받아, 국소적 이미지 영역을 반복적으로 관찰하며 토큰 시퀀스를 점진적으로 정제하는 단일 트랜스포머 기반의 COMiT 프레임워크를 제안하여, 기존 재구성 중심의 토큰화 방식을 넘어 해석 가능한 객체 중심의 구조적 표현과 구성적 일반화 능력을 향상시킨다는 것을 보여줍니다.

Aram Davtyan, Yusuf Sahin, Yasaman Haghighi, Sebastian Stapf, Pablo Acuaviva, Alexandre Alahi, Paolo Favaro

게시일 2026-02-25
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

🎨 핵심 아이디어: "이미지를 조각조각 나누어 대화하듯 기억하기"

기존의 인공지능 이미지 인식 기술은 보통 사진을 한 번에 통째로 보고, 모든 픽셀을 압축해서 기억하려 했습니다. 마치 한 장의 사진을 보고 "이건 고양이 사진이야, 털이 많고 눈이 커"라고 한 번에 외우는 것과 비슷합니다. 문제는 이렇게 하면 세부적인 특징 (고양이의 귀, 눈, 꼬리) 이 서로 뒤섞여서 나중에 "고양이와 개가 함께 있는 사진"을 만들 때 혼란이 생긴다는 점입니다.

COMiT 는 이를 '대화'로 바꿉니다.

1. 시나리오: "눈가리개 게임"과 "점진적인 설명"

상상해 보세요. 친구가 눈을 가리고 있는데, 당신이 그 친구에게 어떤 장면을 설명해야 한다고 칩시다.

  • 기존 방식: "여기 고양이가 있고, 개가 있고, 나무가 있어!"라고 한 번에 다 말해버립니다. 친구는 모든 정보를 한꺼번에 받아서 기억해야 하므로, 고양이와 개의 특징이 섞여버릴 수 있습니다.
  • COMiT 방식 (이 논문의 아이디어):
    1. 당신은 친구에게 먼저 고양이 얼굴만 보여줍니다. 친구는 "아, 고양이 얼굴이 있구나"라고 기억합니다.
    2. 그다음 고양이 옆에 있는 개를 보여줍니다. 친구는 "아, 고양이 옆에 개가 있구나"라고 기존 기억에 새로운 정보를 추가합니다.
    3. 마지막으로 배경 나무를 보여줍니다.
    4. 친구는 이 순서대로 들어온 정보를 조합해서 전체 장면을 머릿속에 그립니다.

이처럼 COMiT 는 이미지를 한 번에 다 보는 게 아니라, 작은 조각 (크롭) 을 하나씩 순서대로 보여주면서 정보를 쌓아갑니다. 이 과정에서 인공지능은 "고양이 정보", "개 정보"를 각각 따로따로 정리해서 기억하게 됩니다.

2. 화자와 청자가 같은 사람 (자기 대화)

기존 기술은 '그리는 사람 (인코더)'과 '그림을 보는 사람 (디코더)'이 서로 다른 두 개의 뇌처럼 작동했습니다. 하지만 COMiT 는 한 명의 사람이 화자이자 청자가 되는 방식을 사용합니다.

  • 비유: 당신이 혼자서 장면을 기억했다가, 나중에 그 기억을 바탕으로 다시 그림을 그리는 상황입니다.
  • 효과: 이렇게 하면 인공지능이 "어떤 정보가 중요하고, 어떤 정보는 생략해야 할지" 스스로 판단하며, **의미 있는 구조 (객체 중심)**로 정보를 정리하게 됩니다.

🚀 이 기술이 왜 특별한가요?

1. "의미"를 먼저 생각합니다.

기존 기술은 이미지를 압축해서 저장하는 데 집중했습니다 (파일 크기 줄이기). 하지만 COMiT 는 **"이 이미지에 무엇이 있는가?"**에 집중합니다.

  • 비유: 도서관에서 책을 정리할 때, 기존 방식은 책의 두께와 색으로 정리했다면, COMiT 는 **주제 (로맨스, 공상과학, 역사)**별로 정리합니다. 그래서 나중에 "로맨스 소설과 공상과학 소설이 섞인 이야기"를 만들 때 훨씬 정확합니다.

2. "창의적인 일반화"가 가능합니다.

이 기술은 학습하지 않은 새로운 상황에서도 잘 작동합니다.

  • 비유: "파란색 고양이"와 "빨간색 개"를 배웠다면, 기존 기술은 "빨간색 고양이"를 그리면 망칠 수 있습니다. 하지만 COMiT 는 '색상'과 '동물'을 따로따로 기억하므로, 빨간색 고양이를 자연스럽게 그려낼 수 있습니다.

3. 불확실성을 줄여갑니다.

이미지를 복원할 때, COMiT 는 처음엔 흐릿하게 그리고, 정보가 들어올수록 선명하게 만듭니다.

  • 비유: 안개 낀 날에 창문을 통해 밖을 볼 때, 처음엔 흐릿한 형상만 보이다가, 안개가 걷히면서 (정보가 추가되면서) 고양이인지 개인지 명확해지는 것과 같습니다.

💡 요약: COMiT 가 가져오는 변화

이 논문은 **"이미지를 이해하는 가장 좋은 방법은, 마치 사람이 대화하듯 정보를 하나씩 쌓아가는 것"**이라고 주장합니다.

  • 기존: "사진을 통째로 압축해서 저장하자." (데이터 위주)
  • COMiT: "사진을 작은 조각으로 나누고, 하나씩 설명하며 의미를 정리하자." (이해와 구조 위주)

이 덕분에 인공지능은 이제 단순히 이미지를 재현하는 것을 넘어, **객체 간의 관계 (고양이가 개 위에 앉아 있다)**를 이해하고, 새로운 조합을 창의적으로 만들어내는 능력을 갖게 되었습니다. 이는 미래의 멀티모달 AI(텍스트, 이미지, 비디오를 모두 이해하는 AI) 가 더 똑똑하고 논리적으로 사고하는 데 큰 발걸음이 될 것입니다.

이런 논문을 받은편지함으로 받아보세요

관심사에 맞는 일간 또는 주간 다이제스트. Gist 또는 기술 요약을 당신의 언어로.

Digest 사용해 보기 →