LGQ: Learning Discretization Geometry for Scalable and Stable Image Tokenization

이 논문은 기존 이산 이미지 토크나이저의 한계를 극복하고 대규모 어휘 크기에서도 안정적인 최적화와 균일한 코드 활용을 가능하게 하기 위해, 학습 가능한 기하학적 양자화 (LGQ) 를 통해 엔드투엔드 방식으로 이산화 기하학을 학습하는 새로운 토크나이저를 제안합니다.

Idil Bilge Altun, Mert Onur Cakiroglu, Elham Buxton, Mehmet Dalkilic, Hasan Kurban

게시일 2026-02-23
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

🎨 비유: 거대한 그림 퍼즐을 어떻게 나누는가?

인공지능이 이미지를 생성할 때, 이미지를 아주 작은 조각 (토큰) 으로 잘게 나누어 기억하고 다시 조립합니다. 이때 중요한 것은 **"이 조각들을 어떻게 분류하고 저장할 것인가?"**입니다.

기존의 방식들은 두 가지 극단적인 문제가 있었습니다.

  1. 방식 A (기존 VQ 방식): "완벽한 지도가 없는 나침반"

    • 상황: 인공지능이 새로운 이미지 조각을 보면, 미리 정해진 '저장소 (코드북)'에서 가장 비슷한 조각을 찾아갑니다.
    • 문제: 저장소가 너무 커지면, 인공지능이 자주 쓰는 몇 개의 조각만 계속 사용하고, 나머지 수천 개의 조각은 **아예 쓰이지 않고 방치 (Dead Code)**됩니다. 마치 도서관에 책이 10 만 권 있는데, 인기 있는 책 10 권만 계속 빌려가고 나머지는 먼지만 쌓이는 것과 같습니다.
    • 결과: 효율이 떨어지고, 큰 그림을 그리기 힘들어집니다.
  2. 방식 B (FSQ 방식): "딱딱한 격자 무늬 자"

    • 상황: 모든 조각을 미리 정해진 딱딱한 칸 (격자) 에 억지로 넣습니다.
    • 문제: 모든 칸을 다 쓰게 되어 효율은 좋지만, 자연스러운 이미지의 흐름을 무시합니다. 마치 구부러진 강물을 직사각형의 물통에 억지로 담으려다 물이 새거나 모양이 망가지는 것과 같습니다.
    • 결과: 안정적이지만, 이미지의 미세한 뉘앙스를 놓칩니다.

✨ LGQ 의 등장: "스마트하고 유연한 지도"

이 논문이 제안한 **LGQ (학습 가능한 기하학적 양자화)**는 이 두 문제의 중간 지점을 찾았습니다.

핵심 아이디어: "부드러운 점수 매기기"

  • 기존 방식: "이 조각은 A 박스에 딱 들어맞아! (100%)"라고 딱 잘라 말합니다.
  • LGQ 방식: "이 조각은 A 박스에 80% 비슷하고, B 박스에 20% 비슷해."라고 부드럽게 점수 (확률) 를 매깁니다.

이게 왜 좋을까요?

  1. 모두가 참여합니다: 딱 잘라 정하지 않기 때문에, 모든 저장소 (코드북) 가 학습 과정에 참여합니다. 어떤 박스도 소외되지 않습니다.
  2. 스스로 모양을 바꿉니다: 인공지능이 학습을 하며 "아, 이 이미지는 이런 모양의 박스에 더 잘 어울리네?"라고 생각하면, 박스의 모양과 위치를 스스로 조절합니다. 마치 점토를 손으로 빚어 이미지 모양에 딱 맞게 만드는 것과 같습니다.
  3. 최종 결정은 똑똑하게: 학습 중에는 부드럽게 점수를 매기지만, 실제로 이미지를 만들 때는 가장 점수가 높은 박스를 딱 선택하여 명확한 결과를 냅니다.

🚀 LGQ 가 가져온 놀라운 변화

이 논문은 LGQ 를 다양한 크기의 이미지 데이터 (ImageNet) 로 실험했는데, 다음과 같은 성과를 얻었습니다.

  • 더 적은 자원으로 더 좋은 결과: 기존 방식들은 모든 저장소를 다 쓰려고 애썼지만, LGQ 는 필요한 곳에만 집중해서 훨씬 적은 저장 공간으로 더 선명한 이미지를 만들었습니다. (비유: 100 개의 책상 중 50 개만 쓰더라도, 그 50 개를 아주 효율적으로 배치해서 100 개를 다 쓰는 것보다 더 잘 일하는 셈입니다.)
  • 안정적인 학습: "어떤 박스를 써야 할지 고민하다가 망가진다 (붕괴)"는 문제가 사라졌습니다.
  • 자연스러운 적응: 이미지가 복잡해지거나 변해도, LGQ 는 저장소의 모양을 유연하게 바꿔가며 적응합니다.

💡 한 줄 요약

"LGQ 는 인공지능이 이미지를 조각낼 때, 딱딱한 규칙이나 무작위 선택 대신, 데이터의 모양에 맞춰 스스로 유연하게 변하는 '스마트한 분류 시스템'을 만들어, 더 적은 자원으로 더 아름다운 그림을 그릴 수 있게 해줍니다."

이 기술은 앞으로 더 크고 복잡한 이미지나 영상을 인공지능이 생성할 때, 훨씬 효율적이고 안정적으로 작동하는 기반이 될 것으로 기대됩니다.

이런 논문을 받은편지함으로 받아보세요

관심사에 맞는 일간 또는 주간 다이제스트. Gist 또는 기술 요약을 당신의 언어로.

Digest 사용해 보기 →