HybridStitch: Pixel and Timestep Level Model Stitching for Diffusion Acceleration

이 논문은 확산 모델의 생성 과정을 편집으로 간주하여 복잡한 영역은 대형 모델이, 단순한 영역은 소형 모델이 담당하는 'HybridStitch'라는 새로운 패러다임을 제안함으로써 Stable Diffusion 3 에서 기존 혼합 모델 방법론보다 빠른 1.83 배의 가속화를 달성했다고 요약할 수 있습니다.

Desen Sun, Jason Hon, Jintao Zhang, Sihang Liu

게시일 2026-03-10
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

🎨 비유: "명화 그리기 프로젝트"

인공지능이 그림을 그리는 과정은 마치 거대한 캔버스에 명화를 그리는 작업과 같습니다.

  1. 기존의 문제 (무거운 작업):

    • 예전에는 그림을 그릴 때, **가장 뛰어난 화가 (대형 모델)**가 캔버스 전체를 처음부터 끝까지 혼자서 그렸습니다.
    • 배경의 하늘이나 단순한 벽처럼 그리기 쉬운 부분도, 눈이나 손가락처럼 정교하게 그려야 하는 복잡한 부분도 모두 똑같이 그 유명한 화가에게 맡겼습니다.
    • 결과: 화질은 훌륭하지만, 시간이 너무 오래 걸리고 비용이 많이 듭니다.
  2. 기존의 해결책 (순차적 교체):

    • 다른 연구자들은 "처음에는 대략적인 윤곽을 그릴 때만 유명한 화가를 쓰고, 그 뒤는 **보조 화가 (소형 모델)**에게 나머지를 맡기자"라고 제안했습니다.
    • 하지만 이 방법은 캔버스 전체를 한 번에 보조 화가에게 넘겨버립니다.
    • 문제: "아직 복잡한 눈동자를 그릴 때가 안 왔는데"라고 보조 화가가 먼저 손을 대면 화질이 떨어지고, "눈동자를 다 그릴 때까지 기다렸다가" 넘기면 시간이 아까워집니다. 전체 캔버스를 한 번에 처리하는 방식이라 비효율적입니다.

✨ HybridStitch 의 혁신: "현명한 감독과 팀워크"

이 논문이 제안한 HybridStitch는 그림을 그리는 방식을 **'편집'**처럼 바꿉니다. 캔버스 전체를 한 번에 넘기는 게 아니라, 부분별로 가장 적합한 화가를 투입하는 방식입니다.

1. 두 명의 화가, 하나의 캔버스

  • 유명한 화가 (대형 모델): 정교함이 필요한 복잡한 부분 (예: 사람의 얼굴, 손, 복잡한 문양) 만 그립니다.
  • 보조 화가 (소형 모델): 배경이나 단순한 부분처럼 그리기 쉬운 곳을 빠르게 채웁니다.

2. 실시간으로 바뀌는 '마스크' (가림막)

  • HybridStitch 는 그림이 그려지는 순간순간을 지켜보다가, "이 부분은 보조 화가가 해도 충분해!"라고 판단되면 그 부분만 보조 화가에게 넘깁니다.
  • 반면, "이 부분은 아직 미묘한 차이가 나니 유명한 화가가 다시 다듬어야 해!"라고 판단되면, 그 부분만 유명한 화가에게 맡깁니다.
  • 마치 **마스크 (가림막)**를 붙여서, 필요한 곳만 유명 화가가 작업하고 나머지는 보조 화가가 처리하는 것과 같습니다.

3. 끊어지지 않는 연결 (KV Cache)

  • 유명한 화가가 캔버스의 일부만 그릴 때, 주변 맥락이 끊어질까 봐 걱정할 수 있습니다.
  • 이를 해결하기 위해, **이전 단계에서 그려진 맥락 정보 (KV Cache)**를 기억해 두었다가, 유명한 화가에게 넘겨줍니다. 덕분에 유명한 화가는 캔버스의 일부만 보더라도 전체 그림의 흐름을 잊지 않고 정교하게 그릴 수 있습니다.

🚀 결과: 얼마나 빨라졌을까요?

이 방법을 적용한 결과, Stable Diffusion 3 같은 최신 모델에서 약 1.83 배 더 빨라졌습니다.

  • 기존 방법 (SRDiffusion 등): 1.55 배 빨라짐.
  • HybridStitch: 1.83 배 빨라짐. (기존 방법보다 약 18% 더 빠름)

핵심 요약:

"그림을 그릴 때, 어려운 부분은 전문가가, 쉬운 부분은 보조자가 맡되, 어떤 부분이 어려운지 실시간으로 판단해서 두 사람이 함께 작업하게 만들었습니다. 그래서 시간은 훨씬 줄이고, 화질은 그대로 유지할 수 있게 되었습니다."

이 기술은 앞으로 우리가 AI 그림을 더 빠르고 저렴하게 즐길 수 있게 해주는 중요한 발걸음이 될 것입니다.