Momentum Guidance: Plug-and-Play Guidance for Flow Models

이 논문은 기존 유동 모델의 조건부 샘플링에서 발생하는 흐릿함과 세부 정보 부족을 해결하면서도 추론 비용을 증가시키지 않는 새로운 '모멘텀 가이드 (Momentum Guidance)' 기법을 제안하여, 기존 방법 대비 샘플 품질을 획기적으로 향상시킵니다.

Runlong Liao, Jian Yu, Baiyu Su, Chi Zhang, Lizhang Chen, Qiang Liu

게시일 2026-02-25
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

1. 문제 상황: "흐릿한 초상화"를 그리는 AI

AI 가 그림을 그릴 때 (특히 '플로우 모델'이라는 최신 기술을 쓸 때), 원래 의도했던 것보다 너무 부드럽고 흐릿한 결과가 나오는 경우가 많습니다.

  • 비유: 마치 사진이 초점이 맞지 않아 전체적으로 번져 보이거나, 그림자가 너무 부드럽게 섞여 있어 눈, 코, 입의 경계가 뚜렷하지 않은 상태라고想象해 보세요.
  • 원인: AI 는 학습 과정에서 '평균'을 추구하는 경향이 있습니다. 다양한 얼굴을 보면, AI 는 "가장 평범한 얼굴"을 그리려 하다가, 개별적인 특징 (예: 날카로운 눈썹, 주름, 빛의 반사) 이 사라져 버리는 것입니다.

2. 기존 해결책의 한계: "두 번 일하는 비효율"

이 흐릿함을 잡기 위해 기존에 쓰던 방법 (CFG) 은 다음과 같은 방식이었습니다.

  • 방식: AI 에게 "그림을 그려줘"라고 한 뒤, 또 다른 AI(또는 같은 AI) 에게 "그림을 그려줘 (조건 없이)"라고 해서 두 개의 결과를 비교합니다. 그리고 "조건 없는 결과"를 빼고 "조건 있는 결과"를 더 강조해서 선명하게 만듭니다.
  • 단점: 이 방법은 화질은 좋아지지만, AI 가 그림을 그리는 속도가 두 배로 느려집니다. (한 번에 두 번 일을 해야 하니까요.) 또한, 너무 강하게 잡으면 그림이 과장되거나 다양성이 떨어지기도 합니다.

3. 새로운 해결책: "모멘텀 가이드 (MG)" - 과거의 경험을 활용하다

이 논문이 제안한 모멘텀 가이드는 아주 똑똑하고 효율적인 방법입니다.

🏃‍♂️ 비유: "달리는 자전거의 관성 (모멘텀)"

그림을 그리는 과정을 자전거를 타고 언덕을 내려가는 것으로 상상해 보세요.

  1. 기존 방식 (흐릿함): 자전거가 너무 부드럽게 굴러가서, 길가의 돌멩이나 나무 같은 디테일을 무시하고 그냥 평평하게 지나쳐 버립니다.
  2. 기존 해결책 (CFG): 자전거를 멈추고, 옆에 또 다른 자전거를 세워두고 "너는 어디로 가니?"라고 물어본 뒤, 두 자전거의 방향을 비교해서 길을 수정합니다. (시간이 두 배 걸림)
  3. 모멘텀 가이드 (MG):
    • 자전거를 타고 내려오면서 **과거에 지나온 길 (이전 단계의 움직임)**을 기억합니다.
    • "아까는 너무 부드럽게 굴러갔는데, 지금 방향은 조금 더 날카롭게 가야겠다!"라고 과거의 흐름을 참고해서 현재 방향을 살짝 수정합니다.
    • 핵심: 옆에 다른 자전거를 부르지 않아도 됩니다. 자신만의 과거 경험 (이전 단계의 데이터) 을 활용하기 때문에, 속도는 그대로 유지하면서 훨씬 선명한 길을 찾아갑니다.

4. 이 기술의 놀라운 점

  • 🚀 추가 비용 제로: AI 가 그림을 그리는 동안 "한 번 더 계산"을 하지 않아도 됩니다. 기존에 하던 일만 하면서, 그 과정에서 '과거의 기억'을 살짝 활용하는 것뿐이라 속도가 느려지지 않습니다.
  • 🎨 더 선명한 디테일: 머리카락 한 올, 물방울의 반사, 벽돌의 질감 등 미세한 부분까지 생생하게 표현됩니다.
  • 🤝 기존 기술과도 궁합 좋음: 이미 쓰던 다른 기술 (CFG) 과 함께 쓰면 효과가 배가 됩니다. 마치 좋은 요리 재료에 소금 한 꼬집을 더하는 것과 같습니다.

5. 실제 성과

이 기술을 적용했을 때, AI 가 만든 그림의 품질이 놀라울 정도로 좋아졌습니다.

  • 이미지넷 (ImageNet) 같은 유명한 테스트에서 화질 점수 (FID) 가 약 36%나 향상되었습니다. (기존에 CFG 를 쓰지 않았을 때 기준)
  • Stable Diffusion 3FLUX.1 같은 최신 대형 모델에서도 적용되어, 더 선명하고 자연스러운 이미지를 만들어냈습니다.

📝 한 줄 요약

"AI 가 그림을 그릴 때, '과거의 경험'을 살짝 기억하게 해서 흐릿함을 잡는 똑똑한 기술입니다. 속도는 그대로 유지하면서, 화질은 두 배로 좋아지게 해줍니다."

이 기술은 앞으로 우리가 AI 로부터 더 빠르고 아름다운 그림, 영상, 음악을 만들어내는 데 큰 도움을 줄 것으로 기대됩니다.

이런 논문을 받은편지함으로 받아보세요

관심사에 맞는 일간 또는 주간 다이제스트. Gist 또는 기술 요약을 당신의 언어로.

Digest 사용해 보기 →