Diffusion Blend: Inference-Time Multi-Preference Alignment for Diffusion Models

이 논문은 사전 학습된 확산 모델의 추론 단계에서 추가적인 미세 조정 없이도 사용자가 지정한 여러 선호도 목표와 KL 정규화 강도의 임의의 선형 조합을 유연하게 반영하여 이미지를 생성할 수 있도록 하는 'Diffusion Blend'라는 새로운 접근법을 제안합니다.

Min Cheng, Fatemeh Doudi, Dileep Kalathil, Mohammad Ghavamzadeh, Panganamala R. Kumar

게시일 2026-03-13
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

🎨 "Diffusion Blend": AI 그림 그리기, 이제 사용자 취향대로 실시간 조절하기

이 논문은 AI 가 그림을 그릴 때, 우리가 원하는 대로 "맛"을 실시간으로 조절할 수 있는 새로운 방법을 소개합니다.

기존의 AI 그림 그리기 기술 (확산 모델) 은 한 번 훈련되면 그 성향이 고정되어 있었습니다. "예쁜 그림"을 잘 그리도록 훈련시켰다면, "글자와 그림이 딱 맞는 그림"을 그리게 하려면 처음부터 다시 훈련시켜야 했습니다. 마치 요리사가 "매운맛"만 익힌 후, 갑자기 "단맛"을 내게 하려면 새로운 요리를 배워야 하는 상황과 비슷했죠.

이 논문은 **"한 번만 훈련하면, 사용자가 원하는 대로 실시간으로 맛을 섞을 수 있다"**는 획기적인 방법을 제안합니다. 이를 **'Diffusion Blend (확산 블렌드)'**라고 부릅니다.


🍳 핵심 비유: "요리사의 스프"와 "실시간 소스 믹서"

이 기술을 이해하기 위해 요리에 비유해 보겠습니다.

  1. 기존 방식 (재훈련 필요):

    • 요리사 (AI) 가 "매운맛 (Reward A)"을 잘 내는 요리를 배우고, 또 다른 요리사가 "단맛 (Reward B)"을 잘 내는 요리를 배웁니다.
    • 손님이 "매운맛과 단맛을 7:3 으로 섞어줘!"라고 주문하면? 기존 방식은 새로운 요리사를 다시 고용해서 7:3 비율로 훈련시켜야 했습니다. 시간과 비용이 너무 많이 들죠.
  2. 새로운 방식 (Diffusion Blend):

    • 우리는 이미 "매운맛 요리사"와 "단맛 요리사" 두 명을 훈련시켜 두었습니다.
    • 손님이 주문하면, 실시간으로 두 요리사의 손맛을 섞어서 그릇에 담아냅니다.
    • "매운맛 70%, 단맛 30%"? 순간적으로 두 요리사의 행동을 섞어서 그 비율대로 요리를 완성합니다. 새로운 훈련 없이도 원하는 맛을 즉시 구현할 수 있습니다.

🛠️ 이 기술이 어떻게 작동할까요? (세 가지 알고리즘)

논문은 이 "실시간 맛 섞기"를 위해 세 가지 방법을 제안합니다.

1. DB-MPA: "여러 가지 맛을 섞는 믹서" (Multi-Preference Alignment)

  • 상황: "글자와 그림이 잘 맞아야 하고 (A), 동시에 예쁘기도 해야 해 (B)"라고 요구할 때.
  • 작동: AI 는 A 를 잘하는 모델과 B 를 잘하는 모델을 따로 훈련해 둡니다. 사용자가 "A 는 80%, B 는 20% 로 해줘"라고 하면, AI 는 두 모델이 그리는 과정을 실시간으로 섞어서 그림을 완성합니다.
  • 효과: 사용자가 원하는 어떤 비율의 그림도, 새로운 훈련 없이 즉시 만들어냅니다.

2. DB-KLA: "원래 모습 vs 새로운 모습"의 조절기 (KL Alignment)

  • 상황: AI 가 너무 변해버려서 원래의 자연스러운 느낌이 사라진다면? (이를 '과적합'이라고 합니다).
  • 작동: AI 가 원래의 모습 (Pre-trained) 과 새로운 목표 (Fine-tuned) 사이에서 **얼마나 멀어질지 조절하는 레버 (λ)**를 제공합니다.
    • 레버를 살짝만 당기면: 원래 AI 의 느낌이 살아있는 그림.
    • 레버를 꽉 당기면: 목표에 완벽하게 맞춰진 그림.
  • 효과: 사용자가 "너무 과하지 않게, 적당히만 바꿔줘"라고 조절할 수 있습니다.

3. DB-MPA-LS: "가볍고 빠른 믹서" (LoRA Sampling)

  • 문제: 위 1 번 방법은 여러 모델을 동시에 돌려야 해서 컴퓨터가 무거워질 수 있습니다.
  • 해결: 매번 모든 모델을 다 돌리는 대신, 확률에 따라 한 번에 한 모델만 골라 섞는 방식을 썼습니다.
  • 효과: 속도는 원래 AI 와 똑같이 빠르면서, 성능은 거의 비슷하게 유지됩니다. 스마트폰에서도 가볍게 쓸 수 있게 만든 것이죠.

📊 왜 이것이 중요한가요?

  • 비용 절감: 매번 새로운 취향에 맞춰 AI 를 다시 훈련시킬 필요가 없습니다. (시간과 전기세 아낌!)
  • 유연성: 같은 그림을 그려도, "오늘은 더 예쁘게", "내일엔 더 사실적으로"라고 실시간으로 취향을 바꿀 수 있습니다.
  • 충돌하는 요구 해결: "화려하게 그려줘"와 "단순하게 그려줘"처럼 서로 반대되는 요구도 균형 있게 섞어서 해결할 수 있습니다.

🎯 결론

이 논문은 AI 그림 그리기를 고정된 기계에서 사용자의 취향에 맞춰 실시간으로 변하는 예술가로 바꾸는 길을 열었습니다. 마치 스마트폰의 필터처럼, AI 가 그리는 그림의 스타일과 성향을 사용자가 직접 조절할 수 있게 된 것입니다.

이제 우리는 "내 취향대로 AI 를 조종하는" 시대를 맞이하게 되었습니다! 🚀🎨

이런 논문을 받은편지함으로 받아보세요

관심사에 맞는 일간 또는 주간 다이제스트. Gist 또는 기술 요약을 당신의 언어로.

Digest 사용해 보기 →