UniFlow: A Unified Pixel Flow Tokenizer for Visual Understanding and Generation

이 논문은 시각 이해와 생성 간의 성능 트레이드오프를 해결하기 위해 사전 학습된 비전 인코더에 계층별 적응형 자기 증류와 패치 기반 픽셀 흐름 디코더를 결합한 범용 토크나이저 'UniFlow'를 제안하며, 다양한 벤치마크에서 이해와 생성 성능을 동시에 극대화하는 결과를 입증합니다.

Zhengrong Yue, Haiyu Zhang, Xiangyu Zeng, Boyu Chen, Chenting Wang, Shaobin Zhuang, Lu Dong, Yi Wang, Limin Wang, Yali Wang

게시일 2026-03-03
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

유니플로우 (UniFlow): 그림을 이해하고 그리는 '만능 화가'의 비밀

이 논문은 컴퓨터가 이미지를 이해하는 능력 (예: "이 사진에 개가 몇 마리 있나요?") 과 이미지를 생성하는 능력 (예: "고양이가 달리는 그림을 그려줘") 을 동시에 완벽하게 수행할 수 있는 새로운 기술인 **'유니플로우 (UniFlow)'**를 소개합니다.

기존 기술들은 이 두 가지 일을 동시에 잘하는 데 큰 어려움을 겪었습니다. 마치 고급 요리사가 동시에 요리 레시피를 분석하는 일과 실제 요리를 만드는 일을 하려 할 때, 레시피 분석에 집중하면 요리가 맛없어지거나, 요리에 집중하면 레시피 분석이 엉망이 되는 것과 비슷합니다.

유니플로우가 이 문제를 어떻게 해결했는지, 쉬운 비유로 설명해 드릴게요.


1. 기존 기술의 문제: "이해"와 "창작"의 싸움

기존의 AI 모델들은 보통 두 가지 방식을 썼는데, 둘 다 단점이 있었습니다.

  • 방식 A (두 명의 전문가): 이해를 담당하는 전문가와 그림을 그리는 전문가를 따로 두었습니다. 하지만 이 두 사람이 서로 다른 언어를 쓰다 보니 소통이 안 되고, 모델이 너무 무거워져서 비효율적이었습니다.
  • 방식 B (한 명의 다재다능한 사람): 한 명의 AI에게 두 가지 일을 모두 시켰습니다. 하지만 "추상적인 개념 (의미)"을 이해하는 뇌와 "세부적인 픽셀 (화소)"을 그리는 뇌는 서로 충돌했습니다. 결과적으로 의미는 이해하지만 그림은 흐릿하거나, 그림은 선명하지만 내용을 못 알아듣는 문제가 생겼습니다.

2. 유니플로우의 해결책: "유능한 멘토"와 "재능 있는 견습생"

유니플로우는 이 문제를 해결하기 위해 두 가지 핵심 아이디어를 도입했습니다.

① 레이어별 적응형 자기 교습 (Layer-wise Adaptive Self-Distillation)

비유: "명문대 교수님 (멘토) 과 천재 학생 (유니플로우)"

  • 상황: 이미 잘 훈련된 거대 AI 모델 (예: DINOv2, CLIP 등) 을 '멘토'로 삼습니다. 이 멘토는 이미 세상을 잘 이해하고 있습니다.
  • 문제: 멘토는 큰 그림 (의미) 은 잘 보지만, 아주 작은 디테일 (머리카락 한 올, 물방울) 을 그리기는 부족할 수 있습니다.
  • 해결: 유니플로우 (학생) 는 멘토를 따라 배웁니다. 하지만 모든 것을 똑같이 따라 하는 게 아닙니다.
    • 깊은 층 (Deep Layers): 추상적인 의미 (예: "이건 개다") 를 배울 때는 멘토를 엄격하게 따라야 합니다. (멘토의 지식을 그대로 흡수)
    • 얕은 층 (Shallow Layers): 세부적인 디테일 (예: "개 코의 주름") 을 배울 때는 멘토의 지식을 유연하게 받아들이고, 스스로 디테일을 채워 넣을 수 있게 합니다.
  • 결과: 학생은 멘토의 지혜를 그대로 물려받으면서도, 그림을 그릴 때 필요한 미세한 디테일을 스스로 보완할 수 있게 됩니다.

② 패치별 픽셀 흐름 디코더 (Patch-wise Pixel Flow Decoder)

비유: "조각조각 맞춰 붙이는 퍼즐 장인"

  • 기존 방식: 그림을 그릴 때, 먼저 잠재 공간 (Latent Space) 이라는 복잡한 암호를 풀어서 그림을 만들었습니다. 이 과정이 불완전해서 그림이 흐릿해지거나, 원래 이미지의 정밀도를 잃기 쉽습니다.
  • 유니플로우 방식: 암호를 풀지 않고, 이미지 자체 (픽셀) 에서 직접 그림을 그립니다.
    • 작동 원리: 이미지를 작은 조각 (패치) 으로 나눕니다. 그리고 "소음 (Noise) 상태"에서 "완벽한 그림"으로 가는 **흐름 (Flow)**을 수학적으로 계산합니다.
    • 장점: 마치 흐르는 물이 자연스럽게 그릇을 채우듯, 소음에서 선명한 이미지로 자연스럽게 변형됩니다. 특히 **한 번의 단계 (One-step)**만으로도 매우 선명한 그림을 만들어냅니다. (기존 방식은 수십 번의 반복이 필요했음)

3. 왜 유니플로우가 특별한가요?

유니플로우는 **이해 (Understanding)**와 **생성 (Generation)**이라는 두 마리 토끼를 모두 잡았습니다.

  • 이해 능력: 140 억 개의 파라미터를 가진 거대 모델 (TokenFlow-XL) 보다 **작은 모델 (70 억)**로 더 높은 이해 능력을 보여줍니다. (비유: 작은 두뇌로도 명문대 교수의 지식을 완벽히 이해함)
  • 생성 능력: 그림을 그릴 때 흐릿함 없이, 마치 원본처럼 선명하게 복원합니다. (비유: 흐릿한 스케치를 고화질 사진처럼 되살림)
  • 효율성: 기존 방식보다 훨씬 적은 데이터와 짧은 시간 (30 회 학습) 으로 훈련이 가능합니다.

4. 요약: 한 마디로 뭐라고 할까요?

"유니플로우는 '세상을 잘 이해하는 지혜'와 '아름다운 그림을 그리는 손기술'을 하나로 합친, AI 의 만능 화가입니다."

기존에는 지혜와 손기술을 따로 따로 훈련해야 했지만, 유니플로우는 **지혜를 배우는 과정 (멘토링)**과 **손기술을 연마하는 과정 (흐름 모델링)**을 자연스럽게 연결하여, AI 가 그림을 볼 때와 그릴 때 모두 최고의 성능을 내도록 만들었습니다.

이 기술은 앞으로 AI 가 그림을 보고 이야기를 나누거나, 우리의 상상력을 바탕으로 고품질의 영상을 만들어내는 데 큰 역할을 할 것으로 기대됩니다.