Markovian Scale Prediction: A New Era of Visual Autoregressive Generation

이 논문은 이전 모든 스케일의 의존성을 제거하면서도 히스토리 벡터를 활용한 마르코프 상태 예측을 통해 계산 효율성을 극대화하고 생성 품질을 향상시킨 새로운 시각적 자기회귀 모델인 Markov-VAR 을 제안합니다.

Yu Zhang, Jingyi Liu, Yiwei Shi, Qi Zhang, Duoqian Miao, Changwei Wang, Longbing Cao

게시일 2026-03-04
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

🎨 1. 기존 방식 (VAR) 의 문제점: "모든 걸 기억해야 하는 화가"

기존의 'VAR'이라는 AI 는 그림을 그릴 때 완벽한 기억력을 요구받았습니다.

  • 상황: AI 가 그림을 그릴 때, 먼저 큰 윤곽 (저해상도) 을 그리고, 그다음 중간 크기, 마지막으로 세부적인 디테일 (고해상도) 을 채워 넣습니다.
  • 문제: 이 AI 는 지금 그리는 단계뿐만 아니라, 처음부터 지금까지 그린 모든 단계의 그림을 계속 기억하고 참조해야만 다음 단계를 그릴 수 있었습니다.
  • 비유: 마치 1000 장의 스케치북을 모두 펼쳐놓고, 1000 번째 그림을 그릴 때 1 번째 그림부터 999 번째 그림까지 모두 다시 훑어보며 "아, 이 부분은 1 번째 그림에서 시작했으니 이렇게 이어야지!"라고 생각하는 화가입니다.
    • 결과: 그림이 커질수록 (해상도가 높아질수록) 기억해야 할 스케치북이 너무 많아져서 컴퓨터 메모리가 터지고, 계산 속도도 매우 느려졌습니다. 또한, 초기에 실수한 부분이 끝까지 계속 전달되어 그림이 망가질 위험도 컸습니다.

✨ 2. 새로운 방식 (Markov-VAR): "현재 상태만 보고 미래를 예측하는 스마트 화가"

이 논문은 이 문제를 해결하기 위해 **"마르코프 과정 (Markov Process)"**이라는 개념을 도입했습니다.

  • 핵심 아이디어: "과거의 모든 것을 기억할 필요는 없어. 지금의 상태만 잘 파악하면, 과거의 중요한 정보는 이미 지금 상태에 녹아있어."
  • 비유: 이제 AI 는 가장 최근에 그린 그림 한 장만 보고 다음 단계를 그립니다. 하지만 여기서 중요한 건, 그 '한 장' 속에 과거의 핵심 정보들이 압축되어 있다는 점입니다.
    • 마치 스마트한 화가가 있습니다. 이 화가는 1000 장의 스케치북을 다 펼쳐보지 않아도, 지금 손에 들고 있는 최신 스케치북만 보면 "아, 이 그림은 1 번 스케치에서 시작된 거구나"라고 직감적으로 알 수 있습니다.
    • 효과: 기억해야 할 과거의 스케치북이 사라지니 컴퓨터 메모리 사용량이 80% 이상 줄어들고, 속도도 엄청나게 빨라졌습니다.

🧩 3. 어떻게 과거 정보를 잃지 않을까? (히스토리 보상)

"과거를 다 잊어버리면 그림이 엉망이 되지 않나요?"라고 물을 수 있습니다. 여기서 이 모델의 마법 같은 기술인 **'슬라이딩 윈도우 (Sliding Window) + 히스토리 벡터'**가 등장합니다.

  • 비유: 화가는 과거의 모든 스케치북을 다 볼 수는 없지만, 가장 최근 3~4 장의 스케치북을 하나의 '요약 노트'로 만들어 항상 옆에 둡니다.
    • 이 '요약 노트'는 과거의 핵심 정보 (예: "이 그림은 고양이였어", "색감은 파란색이야") 를 압축해서 담고 있습니다.
    • 화가는 **현재 그리는 그림 + 이 '요약 노트'**를 함께 보며 다음 그림을 그립니다.
  • 결과: 과거의 모든 정보를 다 기억하는 것은 아니지만, 필요한 핵심 정보만 쏙쏙 뽑아내어 그림의 완성도는 오히려 더 좋아지고, 컴퓨터는 훨씬 가볍게 작동합니다.

📊 4. 실제 성과: "더 빠르고, 더 예쁘고, 더 가볍게"

이 새로운 방식 (Markov-VAR) 을 실험해 보니 놀라운 결과가 나왔습니다.

  1. 화질 향상: 기존 방식보다 그림이 더 선명하고 자연스러워졌습니다. (이미지 품질 지표인 FID 점수가 10% 이상 개선됨)
  2. 메모리 폭탄 해결: 고해상도 (1024x1024) 그림을 그릴 때, 기존 방식은 117GB 의 메모리가 필요했지만, 이 방식은 19GB 만으로도 가능했습니다. (약 84% 감소!)
    • 비유: 기존 방식은 대형 트럭이 필요했는데, 이 방식은 경차로도 충분히 이동할 수 있게 된 셈입니다.
  3. 빠른 속도: 그림을 그리는 데 걸리는 시간도 줄어들었습니다.

🚀 5. 결론

이 논문은 **"과거의 모든 것을 기억하려 애쓰지 말고, 현재 상태와 핵심 요약만으로도 충분히 미래를 예측할 수 있다"**는 통찰을 제시합니다.

마치 장기적인 계획을 세울 때 과거의 모든 일기를 다 읽을 필요 없이, 최근의 일기장과 핵심 메모지만으로도 충분히 다음 계획을 잘 세울 수 있는 것처럼, 이 AI 는 훨씬 가볍고 효율적으로 고품질의 이미지를 만들어냅니다. 이는 앞으로 AI 가 더 큰 그림을 그리고, 더 복잡한 작업을 할 수 있는 새로운 시대를 열었다고 볼 수 있습니다.