Locality-aware Parallel Decoding for Efficient Autoregressive Image Generation

이 논문은 학습 가능한 위치 쿼리 토큰을 활용한 유연한 병렬 자기회귀 모델링과 국소성 인식 생성 순서 최적화를 통해 이미지 생성 품질을 유지하면서 생성 단계를 대폭 줄이고 지연 시간을 기존 병렬 자기회귀 모델 대비 최소 3.4 배 단축하는 '국소성 인식 병렬 디코딩 (LPD)' 기법을 제안합니다.

Zhuoyang Zhang, Luke J. Huang, Chengyue Wu, Shang Yang, Kelly Peng, Yao Lu, Song Han

게시일 2026-03-12
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

이 논문은 **"이미지를 그릴 때, 한 번에 여러 칸을 동시에 채우는 똑똑한 방법 (LPD)"**을 소개합니다.

기존의 AI 그림 그리기 기술은 마치 한 줄씩 글을 쓰는 사람처럼, 한 번에 한 칸 (패치) 씩만 그려나갔습니다. 이 방식은 매우 정확하지만, 256x256 크기의 그림을 그리려면 256 번이나 반복해서 그려야 해서 시간이 매우 오래 걸렸습니다.

이 논문은 **"한 번에 여러 칸을 동시에 그려도 그림이 망가지지 않게 하는 새로운 규칙"**을 찾아냈습니다. 이를 **LPD(Locality-aware Parallel Decoding)**라고 부릅니다.


🎨 핵심 비유: "벽화 그리기"와 "동시 작업"

1. 기존 방식: "한 줄씩 쓰는 서예가"

기존 AI 는 그림을 그릴 때 왼쪽에서 오른쪽, 위에서 아래로 한 칸씩만 그려나갔습니다.

  • 문제점: 벽화 100 칸을 그릴 때, 1 번 칸을 그릴 때까지 2 번 칸은 절대 건드릴 수 없습니다. 100 번을 기다려야 하므로 시간이 매우 느립니다.
  • 비유: 한 사람이 벽화 전체를 한 번에 한 칸씩 그려나가는 상황입니다.

2. 새로운 방식 (LPD): "함께 일하는 예술가 팀"

LPD 는 여러 칸을 동시에 그려도 됩니다. 하지만 무작정 동시에 그리면 그림이 엉망이 됩니다. (예: 눈과 입을 동시에 그리는데 위치가 어긋나거나 색이 안 맞을 수 있음)

이 논문은 두 가지 스마트한 규칙을 제안합니다.


💡 두 가지 핵심 아이디어

1. "주변을 잘 아는" 그리기 순서 (Locality-aware)

  • 원리: 그림을 그릴 때, 이미 그려진 부분과 가까운 곳을 먼저 채우고, 동시에 그리는 칸들은 서로 멀리 떨어뜨려야 합니다.
  • 비유:
    • 잘못된 방법: 벽화에서 '눈'과 '코'를 동시에 그리는데, 둘 다 벽화 구석구석에 흩어져 있으면 서로의 모양을 참고할 수 없어 엉망이 됩니다.
    • LPD 의 방법:
      1. 이미 그려진 '눈' 주변에 있는 '눈썹'을 먼저 그립니다. (이웃과 가까워야 정답을 알 수 있음)
      2. 동시에 그릴 때는 '눈썹'과 '코'처럼 서로 멀리 떨어진 곳을 선택합니다. (서로 간섭하지 않게 함)
    • 결과: 한 번에 20 칸을 동시에 그려도, 마치 한 번에 한 칸씩 그리는 것처럼 자연스럽고 정확한 그림이 나옵니다.

2. "위치 안내자" 토큰 (Flexible Parallelized Modeling)

  • 원리: AI 가 "어디를 그릴지" 모르면 혼란스러워합니다. LPD 는 **"이곳을 그려!"라고 지시하는 특수한 토큰 (Position Query Token)**을 사용합니다.
  • 비유:
    • 기존 방식: "다음 칸을 그려"라고만 하면 AI 는 순서대로만 그릴 수 있습니다.
    • LPD 방식: "이곳 (좌표 1,1) 과 이곳 (좌표 5,5) 을 동시에 그려!"라고 지시합니다. AI 는 이 지시를 받으면, 이미 그려진 주변 정보를 참고해서 두 곳을 동시에 완벽하게 채웁니다.

🚀 어떤 성과가 있었나요?

이 방법을 적용하자 놀라운 변화가 일어났습니다.

  1. 속도 폭발:

    • 기존: 256 번의 작업을 256 번 반복 (약 10 초 이상 소요)
    • LPD: 256 번의 작업을 20 번으로 줄임 (약 0.5 초 소요)
    • 결과: 기존보다 최소 3.4 배, 최대 12 배 이상 빨라졌습니다.
  2. 품질 유지:

    • 속도를 10 배나 높였지만, 그림의 선명도나 아름다움은 떨어지지 않았습니다. 오히려 다른 빠른 방법들보다 더 좋은 그림을 그렸습니다.
  3. 유연한 편집:

    • 순서대로만 그리는 게 아니라, 임의의 순서로 그릴 수 있으므로, 그림의 일부만 지우고 다시 그리기 (인페인팅) 나, 그림을 확장하기 (아웃페인팅) 도 매우 쉽게 할 수 있습니다.

📝 한 줄 요약

"그림을 그릴 때, 한 번에 한 칸씩만 그리지 말고, '주변을 잘 보고' '서로 간섭하지 않는 곳'을 골라 여러 칸을 동시에 그리는 지능적인 팀워크를 도입하면, 그림 속도는 10 배 빨라지고 품질은 그대로 유지된다!"

이 기술은 앞으로 AI 가 더 빠르고 자연스럽게 이미지를 생성하고, 멀티모달 (텍스트, 이미지, 언어를 모두 이해하는) AI 로 발전하는 데 큰 역할을 할 것입니다.