Latent Denoising Makes Good Tokenizers

이 논문은 생성 모델의 재구성 목표에 맞춰 잠재 공간에 노이즈를 추가하고 이를 복원하도록 학습된 'Latent Denoising Tokenizer(l-DeTok)'를 제안하여, 다양한 생성 모델에서 이미지 생성 품질을 획기적으로 향상시킨다는 것을 보여줍니다.

Jiawei Yang, Tianhong Li, Lijie Fan, Yonglong Tian, Yue Wang

게시일 2026-02-17
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

🎨 "잡음 제거"가 만드는 완벽한 화가: l-DeTok 소개

이 논문은 인공지능이 그림을 그릴 때 사용하는 '작은 조각 (토큰)'을 어떻게 더 잘 만들 수 있는지에 대한 새로운 비법을 제시합니다. 마치 레고 블록을 조립할 때, 블록 자체가 뚱뚱하고 잘 부서지는 것보다 튼튼하고 모양이 명확한 블록을 사용하면 더 멋진 성을 쌓을 수 있는 것과 같은 원리입니다.

이 연구의 핵심은 **"잡음 (Noise) 을 제거하는 훈련"**이 바로 그 비법이라는 것입니다.


1. 문제: 왜 그림을 그리는 AI 는 여전히 실수가 많을까?

현대 AI 는 그림을 그릴 때, 픽셀 (화소) 하나하나를 직접 그리지 않습니다. 대신 그림을 **작은 조각 (토큰)**으로 잘게 쪼개고, 그 조각들을 조합해서 그림을 완성합니다. 이 조각을 만드는 장치를 **'토크나이저 (Tokenizer)'**라고 부릅니다.

기존의 토크나이저는 마치 **"거울을 닦는 것"**처럼 훈련되었습니다.

  • 기존 방식: "원래 그림을 똑같이 복사해라." (복원력 위주)
  • 한계: 거울이 깨끗할 때는 좋지만, 거울에 **흙이나 먼지 (잡음)**가 묻으면 AI 는 당황해서 엉뚱한 그림을 그리거나, 그림에 반짝이는 점 (아티팩트) 같은 결함이 생깁니다.

2. 해결책: "눈가리개"와 "오염된 그림"으로 훈련하기

이 논문은 AI 에게 **"원래 그림을 완벽하게 복사하는 것"이 아니라, "망가진 그림을 원래대로 되돌리는 능력"**을 키우게 하자는 아이디어를 제시합니다.

저희가 제안한 l-DeTok은 다음과 같은 두 가지 훈련법을 사용합니다:

🧪 방법 1: "무작위 눈가리개" (Masking)

  • 비유: 그림의 70~90% 를 검은색 가림막으로 가리고, AI 에게 **"가려진 부분을 상상해서 그려내라"**고 시킵니다.
  • 효과: AI 는 조각의 일부만 보고도 전체 그림의 맥락을 파악하는 강력한 직관력을 기르게 됩니다.

🌫️ 방법 2: "심한 오염" (Interpolative Noise)

  • 비유: 그림 조각에 심한 안개나 흐릿한 얼룩을 끼얹고, AI 에게 **"이 흐릿한 그림을 선명하게 다듬어라"**고 시킵니다.
  • 효과: 기존 방식은 안개가 살짝 끼었을 때만 훈련했지만, 우리는 심하게 흐려진 상태에서도 원래 모습을 기억해내도록 훈련시킵니다.

3. 왜 이것이 중요한가? (핵심 통찰)

이 논문이 발견한 놀라운 사실은 **"현대 AI 그림 그리기 기술 (확산 모델, 자동 회귀 모델 등) 이 모두 '망가진 그림을 고치는 것'을 목표로 한다"**는 점입니다.

  • 기존 토크나이저: "깨끗한 그림을 복사하는 법"을 배웠는데, 실제 그림 그리기 AI 는 "망가진 그림을 고치는 법"을 사용합니다. 목표가 달라서 AI 가 혼란을 겪습니다.
  • l-DeTok: "망가진 그림을 고치는 법"을 미리 훈련받았기 때문에, 실제 그림을 그릴 때 AI 와 완벽하게 호흡을 맞춥니다.

비유:

  • 기존 방식: 소방관이 "물통을 채우는 법"만 훈련받았는데, 실제 화재 현장에서는 "불을 끄는 법"이 필요해서 당황하는 상황.
  • l-DeTok: 소방관이 평소부터 "불을 끄는 훈련"을 했기 때문에, 실제 화재가 나자마자 신속하고 완벽하게 불을 끄는 상황.

4. 결과: 얼마나 좋아졌을까?

이 새로운 방식 (l-DeTok) 을 적용한 결과, 다양한 AI 모델에서 놀라운 성과가 나왔습니다.

  • 화질 향상: 그림의 선명도가 높아지고, 불필요한 반짝이는 점 (Spot Artifacts) 같은 결함이 사라졌습니다.
  • 범용성: 그림을 그리는 방식이 다른 (순차적으로 그리는 AI vs 한 번에 그리는 AI) 모델 모두에서 효과가 입증되었습니다.
  • 비용 절감: 거대한 외부 AI(선생님) 의 지식을 빌려오지 않아도 (지식 증류 없이), 스스로 훈련만으로 최고의 성능을 냈습니다.

5. 결론: "어려운 훈련"이 "좋은 결과"를 만든다

이 논문의 메시지는 간단합니다. "더 어렵고 힘든 훈련 (심한 잡음 제거) 을 시키면, AI 는 더 강인하고 똑똑한 조각 (토큰) 을 만들어냅니다."

마치 고강도 운동을 한 선수가 경기장에서 더 좋은 성적을 내는 것처럼, AI 도 **어려운 상황 (망가진 입력)**을 견디도록 훈련받아야 실제 그림을 그릴 때 더 훌륭한 작품을 만들어낼 수 있다는 것입니다.

이 연구는 앞으로 AI 가 그림뿐만 아니라 영상, 음악, 3D 모델 등을 만들 때도 '잡음 제거' 훈련이 핵심 열쇠가 될 것임을 시사합니다.

이런 논문을 받은편지함으로 받아보세요

관심사에 맞는 일간 또는 주간 다이제스트. Gist 또는 기술 요약을 당신의 언어로.

Digest 사용해 보기 →