Each language version is independently generated for its own context, not a direct translation.

🎨 "잡음 제거"가 만드는 완벽한 화가: l-DeTok 소개

이 논문은 인공지능이 그림을 그릴 때 사용하는 '작은 조각 (토큰)'을 어떻게 더 잘 만들 수 있는지에 대한 새로운 비법을 제시합니다. 마치 레고 블록을 조립할 때, 블록 자체가 뚱뚱하고 잘 부서지는 것보다 튼튼하고 모양이 명확한 블록을 사용하면 더 멋진 성을 쌓을 수 있는 것과 같은 원리입니다.

이 연구의 핵심은 **"잡음 (Noise) 을 제거하는 훈련"**이 바로 그 비법이라는 것입니다.

1. 문제: 왜 그림을 그리는 AI 는 여전히 실수가 많을까?

현대 AI 는 그림을 그릴 때, 픽셀 (화소) 하나하나를 직접 그리지 않습니다. 대신 그림을 **작은 조각 (토큰)**으로 잘게 쪼개고, 그 조각들을 조합해서 그림을 완성합니다. 이 조각을 만드는 장치를 **'토크나이저 (Tokenizer)'**라고 부릅니다.

기존의 토크나이저는 마치 **"거울을 닦는 것"**처럼 훈련되었습니다.

기존 방식: "원래 그림을 똑같이 복사해라." (복원력 위주)
한계: 거울이 깨끗할 때는 좋지만, 거울에 **흙이나 먼지 (잡음)**가 묻으면 AI 는 당황해서 엉뚱한 그림을 그리거나, 그림에 반짝이는 점 (아티팩트) 같은 결함이 생깁니다.

2. 해결책: "눈가리개"와 "오염된 그림"으로 훈련하기

이 논문은 AI 에게 **"원래 그림을 완벽하게 복사하는 것"이 아니라, "망가진 그림을 원래대로 되돌리는 능력"**을 키우게 하자는 아이디어를 제시합니다.

저희가 제안한 l-DeTok은 다음과 같은 두 가지 훈련법을 사용합니다:

🧪 방법 1: "무작위 눈가리개" (Masking)

비유: 그림의 70~90% 를 검은색 가림막으로 가리고, AI 에게 **"가려진 부분을 상상해서 그려내라"**고 시킵니다.
효과: AI 는 조각의 일부만 보고도 전체 그림의 맥락을 파악하는 강력한 직관력을 기르게 됩니다.

🌫️ 방법 2: "심한 오염" (Interpolative Noise)

비유: 그림 조각에 심한 안개나 흐릿한 얼룩을 끼얹고, AI 에게 **"이 흐릿한 그림을 선명하게 다듬어라"**고 시킵니다.
효과: 기존 방식은 안개가 살짝 끼었을 때만 훈련했지만, 우리는 심하게 흐려진 상태에서도 원래 모습을 기억해내도록 훈련시킵니다.

3. 왜 이것이 중요한가? (핵심 통찰)

이 논문이 발견한 놀라운 사실은 **"현대 AI 그림 그리기 기술 (확산 모델, 자동 회귀 모델 등) 이 모두 '망가진 그림을 고치는 것'을 목표로 한다"**는 점입니다.

기존 토크나이저: "깨끗한 그림을 복사하는 법"을 배웠는데, 실제 그림 그리기 AI 는 "망가진 그림을 고치는 법"을 사용합니다. 목표가 달라서 AI 가 혼란을 겪습니다.
l-DeTok: "망가진 그림을 고치는 법"을 미리 훈련받았기 때문에, 실제 그림을 그릴 때 AI 와 완벽하게 호흡을 맞춥니다.

비유:

기존 방식: 소방관이 "물통을 채우는 법"만 훈련받았는데, 실제 화재 현장에서는 "불을 끄는 법"이 필요해서 당황하는 상황.

l-DeTok: 소방관이 평소부터 "불을 끄는 훈련"을 했기 때문에, 실제 화재가 나자마자 신속하고 완벽하게 불을 끄는 상황.

4. 결과: 얼마나 좋아졌을까?

이 새로운 방식 (l-DeTok) 을 적용한 결과, 다양한 AI 모델에서 놀라운 성과가 나왔습니다.

화질 향상: 그림의 선명도가 높아지고, 불필요한 반짝이는 점 (Spot Artifacts) 같은 결함이 사라졌습니다.
범용성: 그림을 그리는 방식이 다른 (순차적으로 그리는 AI vs 한 번에 그리는 AI) 모델 모두에서 효과가 입증되었습니다.
비용 절감: 거대한 외부 AI(선생님) 의 지식을 빌려오지 않아도 (지식 증류 없이), 스스로 훈련만으로 최고의 성능을 냈습니다.

5. 결론: "어려운 훈련"이 "좋은 결과"를 만든다

이 논문의 메시지는 간단합니다. "더 어렵고 힘든 훈련 (심한 잡음 제거) 을 시키면, AI 는 더 강인하고 똑똑한 조각 (토큰) 을 만들어냅니다."

마치 고강도 운동을 한 선수가 경기장에서 더 좋은 성적을 내는 것처럼, AI 도 **어려운 상황 (망가진 입력)**을 견디도록 훈련받아야 실제 그림을 그릴 때 더 훌륭한 작품을 만들어낼 수 있다는 것입니다.

이 연구는 앞으로 AI 가 그림뿐만 아니라 영상, 음악, 3D 모델 등을 만들 때도 '잡음 제거' 훈련이 핵심 열쇠가 될 것임을 시사합니다.

Each language version is independently generated for its own context, not a direct translation.

1. 문제 제기 (Problem Statement)

배경: 현대의 시각 생성 모델 (Diffusion, Autoregressive 등) 은 픽셀 수준의 모델링 복잡도를 피하기 위해 토크나이저를 통해 이미지를 컴팩트한 잠재 임베딩 (Latent Embeddings) 으로 변환한 후 학습합니다.
현황: 기존 토크나이저들은 주로 표준 변이 오토인코더 (VAE) 로 훈련되어 픽셀 수준의 재구성 (Pixel-level Reconstruction) 을 최적화합니다.
한계: 생성 모델의 성능에 결정적인 영향을 미치지만, 어떤 속성이 생성 모델에 더 효과적인 토크나이저를 만드는지 명확하지 않습니다. 또한, 최근 생성 모델 아키텍처의 급속한 발전에 비해 토크나이저 개발은 상대적으로 뒤처져 있습니다.
핵심 질문: 생성 모델링을 위해 시각 토크나이저를 더 효과적으로 만들 수 있는 속성은 무엇인가?

2. 방법론 (Methodology)

저자들은 현대 생성 모델들의 공통된 학습 목표를 **'손상된 신호로부터 원본 신호를 재구성하는 디노이징 (Denoising)'**으로 정의하고, 이를 토크나이저 훈련에 직접 적용했습니다.

A. 핵심 통찰 (Key Insight)

확산 모델 (Diffusion Models): 확산으로 인한 노이즈를 제거하여 깨끗한 신호를 복원합니다.
자기회귀 모델 (Autoregressive Models): 부분적으로 관측된 (마스크된) 문맥에서 완전한 시퀀스를 재구성합니다.
통일된 관점: 두 모델 모두 '파괴 (Deconstruction) 된 잠재 표현을 재구성'하는 과정을 공유합니다. 따라서, 하위 생성 모델의 디노이징 목표와 정렬된 잠재 임베딩을 생성하는 토크나이저가 더 효과적일 것입니다.

B. l-DeTok 아키텍처 및 훈련 전략

제안된 l-DeTok은 잠재 공간에서 노이즈를 제거하는 디노이징 오토인코더로 훈련됩니다.

파괴 전략 (Deconstruction Strategies):
- 간섭적 잠재 노이즈 (Interpolative Latent Noise): 기존 VAE 의 단순 가산 노이즈 ( $x + \epsilon$ ) 와 달리, 원본 임베딩과 가우시안 노이즈를 보간합니다 ( $x' = (1-\tau)x + \tau\epsilon$ ). 이는 높은 노이즈 레벨 ( $\tau$ ) 에서도 잠재 표현이 효과적으로 파괴되도록 하여 재구성 난이도를 높입니다.
- 랜덤 마스킹 (Random Masking): MAE(Masked Autoencoders) 와 유사하게 입력 패치 중 일부를 무작위로 마스킹합니다.
훈련 목표:
- 심하게 손상된 잠재 임베딩 (노이즈가 섞이거나 마스킹된 상태) 에서 원본 이미지를 픽셀 단위로 재구성하도록 훈련합니다.
- 손실 함수는 픽셀 MSE, 잠재 공간 KL 정규화, 지각적 손실 (Perceptual Loss), GAN 손실 (Adversarial Loss) 을 결합합니다.
추론 (Inference):
- 생성 모델을 사용할 때는 토크나이저의 인코더와 디코더에 노이즈나 마스킹을 적용하지 않습니다. 즉, 토크나이저는 깨끗한 이미지를 잠재 공간으로 인코딩하고, 생성 모델이 이를 디코딩합니다.

3. 주요 기여 (Key Contributions)

새로운 설계 원칙 제시: 생성 모델용 토크나이저 설계에 '디노이징'을 핵심 원칙으로 도입했습니다. 이는 하위 태스크 (생성) 와 토크나이저 학습 목표를 정렬시킵니다.
의미 정제 (Semantics Distillation) 불필요: 기존 최첨단 토크나이저 (VA-VAE, MAETok 등) 는 DINOv2 나 CLIP 같은 거대 사전 학습 모델에서 의미를 정제 (Distillation) 하여 성능을 높였습니다. 반면, l-DeTok 은 외부 사전 학습 모델에 의존하지 않고 자체적으로 우수한 잠재 표현을 학습합니다. 이는 비디오, 오디오, 3D 등 사전 학습 모델이 부재한 도메인에서도 적용 가능함을 의미합니다.
범용성 (Generalizability): 비자기회귀 (Non-AR, Diffusion 기반) 모델과 자기회귀 (AR) 모델 모두에서 일관된 성능 향상을 입증했습니다. 특히 AR 모델에서 기존 토크나이저의 한계를 극복했습니다.
아키텍처 무관성: Transformer 기반뿐만 아니라 CNN 기반, 1D 토크나이저, 벡터 양자화 (VQ) 토크나이저 등 다양한 아키텍처와 토큰화 방식에서도 유효함을 검증했습니다.

4. 실험 결과 (Results)

실험은 ImageNet (256x256, 512x512) 과 MS-COCO 데이터셋에서 수행되었습니다.

주요 벤치마크 (ImageNet 256x256):
- MAR-B (Autoregressive): 기존 MAR-VAE(FID 2.31) 대비 l-DeTok 사용 시 FID 1.55로 대폭 개선되었으며, 이는 거대한 MAR-H 모델 (FID 1.55) 과 동급의 성능입니다.
- MAR-L: FID 1.78 에서 1.35로 개선되었습니다.
- 비자기회귀 모델 (SiT, DiT 등): 기존 표준 토크나이저 (SD-VAE 등) 보다 일관되게 우수한 성능을 보였습니다.
- 의미 정제 토크나이저 비교: VA-VAE 나 MAETok 같은 의미 정제 토크나이저는 비자기회귀 모델에서는 잘 작동하지만, 자기회귀 (AR) 모델에서는 성능이 떨어지는 경향이 있었습니다. 반면 l-DeTok 은 두 모델 모두에서 최상위 성능을 기록했습니다.
텍스트-이미지 생성 (MS-COCO):
- MAR-B 및 SiT-B 기반 T2I 모델에서 l-DeTok 을 사용하면 FID 와 CLIP 점수 모두에서 기존 토크나이저를 능가했습니다.
- 특히 다른 토크나이저에서 흔히 발생하는 "스팟 아티팩트 (Spot Artifacts)" 현상이 l-DeTok 을 사용할 때 현저히 감소했습니다.
확장성 (Scalability):
- 모델 크기 (SiT-B/L/XL, MAR-B/L) 가 커질수록 l-DeTok 의 이점이 유지되거나 더욱 커지는 것을 확인했습니다.
- 1D 토크나이저와 VQ 토크나이저에서도 성능 향상이 확인되었습니다.

5. 의의 및 결론 (Significance & Conclusion)

간단하지만 강력한 통찰: 복잡한 의미 정제나 거대한 외부 모델 의존 없이, 단순히 '노이즈 제거' 목표를 토크나이저 훈련에 포함시키는 것만으로도 생성 모델의 성능을 획기적으로 높일 수 있음을 보였습니다.
미래 지향적: 이 접근법은 비디오, 오디오, 과학 데이터 등 대규모 사전 학습 모델이 부재하거나 적용하기 어려운 영역에서도 고품질 토크나이저를 설계할 수 있는 유연한 경로를 제공합니다.
연구 방향 전환: 생성 모델의 발전은 아키텍처뿐만 아니라 이를 지원하는 토크나이저의 설계 원칙 (디노이징 정렬) 에도 달려 있음을 시사하며, 향후 생성 모델 연구의 새로운 방향성을 제시합니다.

요약하자면, l-DeTok은 생성 모델이 본질적으로 수행하는 '디노이징' 작업을 토크나이저의 학습 목표에 명시적으로 반영함으로써, 외부 의존성 없이도 다양한 생성 모델 아키텍처에서 SOTA 성능을 달성하는 혁신적인 토크나이저입니다.

Latent Denoising Makes Good Tokenizers