Navigating with Annealing Guidance Scale in Diffusion Space

이 논문은 Classifier-Free Guidance 의 온도를 동적으로 조절하는 어닐링 스케줄러를 제안하여, 추가적인 계산 비용 없이 텍스트 - 이미지 생성의 품질과 프롬프트 정합성을 동시에 향상시키는 방법을 제시합니다.

Shai Yehezkel, Omer Dahary, Andrey Voynov, Daniel Cohen-Or

게시일 2026-03-04
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

안니얼링 가이드 스케일: AI 그림 그리기의 '스마트 나침반'

이 논문은 인공지능 (AI) 이 텍스트 설명을 보고 그림을 그릴 때, **"얼마나 강하게 지시를 따르게 할 것인가"**라는 오래된 문제를 해결한 새로운 방법을 소개합니다.

기존의 방식과 이 새로운 방법의 차이를 이해하기 위해, **'미술평가관과 화가'**의 관계를 비유로 들어보겠습니다.


1. 기존 방식 (CFG): "뻔뻔한 미술평가관"

기존의 AI 그림 그리기 기술 (Diffusion Model) 은 '무작위 노이즈'에서 시작해 점점 선명한 그림을 만들어냅니다. 이때 사용자가 "불꽃을 들고 있는 모자를 쓴 남자"라고 명령하면, AI 는 그 명령을 따르려고 노력합니다.

하지만 여기서 **CFG(클래스프리 가이드)**라는 '미술평가관'이 등장합니다.

  • 역할: "너가 그린 게 내 명령 (프롬프트) 과 얼마나 비슷해?"를 체크하고, 다르면 "다시 그려!"라고 지적합니다.
  • 문제점: 이 미술평가관의 **지적 강도 (가이드 스케일)**를 조절하는 것이 매우 어렵습니다.
    • 지적 강도가 너무 약하면: AI 는 명령을 잘 듣지 않아, "불꽃 모자" 대신 그냥 "모자"만 그립니다. (명령 불일치)
    • 지적 강도가 너무 세면: AI 는 "불꽃 모자"를 그리려고 너무 애를 써서, 손이 6 개 달리거나, 불꽃이 얼굴을 태우거나, 비현실적으로 과장된 그림이 나옵니다. (화질 저하, 왜곡)

기존에는 이 '지적 강도'를 고정된 숫자로 설정해야 했기 때문에, 복잡한 그림을 그릴 때 항상 이 두 가지 문제 중 하나를 겪어야 했습니다.

2. 이 논문의 해결책: "상황을 읽는 스마트 나침반 (Anneling Scheduler)"

이 논문은 **"지적 강도는 고정되어서는 안 된다. 그림이 그려지는 과정 (시간) 과 현재 AI 가 얼마나 혼란스러운지에 따라 실시간으로 조절해야 한다"**고 주장합니다.

저희가 개발한 **'어닐링 (Annealing) 가이드 스케일'**은 마치 상황을 읽는 스마트 나침반과 같습니다.

🧭 비유: 등산과 나침반

그림을 그리는 과정은 어두운 산을 정상 (완성된 그림) 으로 올라가는 여정과 같습니다.

  • 초반 (산 아래): 안개가 짙고 방향을 잃기 쉽습니다. 이때는 나침반이 강하게 "이쪽으로 가!"라고 지시해야 합니다. (명령에 집중)
  • 중반 (산비탈): 방향이 어느 정도 잡혔습니다. 이때는 나침반이 조금 부드럽게 "조심해서 가라"고 지시해야 합니다. (자연스러운 형태 유지)
  • 후반 (정상 근처): 거의 정상에 가까워졌습니다. 이때는 나침반이 매우 정밀하게 "왼쪽 발을 살짝 옮겨라"라고 지시해야 합니다. (디테일 완성)

기존 방식은 내내 같은 세기로 나침반을 흔드는 것이라면, 이 새로운 방식은 등산로와 날씨에 따라 나침반의 흔들림 세기를 자동으로 조절합니다.

3. 어떻게 작동할까요? (핵심 원리)

이 나침반은 두 가지 신호를 보고 결정을 내립니다.

  1. 시간 (Timestep): "지금 산의 어느 단계에 와 있나?" (초반인가, 후반인가?)
  2. 혼란도 (Discrepancy, δt\delta_t): "내가 명령 (조건부) 과 자연스러운 모습 (무조건부) 을 비교했을 때, 두 생각이 얼마나 달라?"
    • 두 생각이 많이 다르면 \rightarrow 혼란이 크다 \rightarrow 나침반을 강하게 흔들어 방향을 잡아줌.
    • 두 생각이 비슷하면 \rightarrow 혼란이 적다 \rightarrow 나침반을 부드럽게 흔들어 자연스러운 흐름을 유지함.

이렇게 AI 가 그리는 순간순간의 상태를 파악해서, "지금 이 단계에서는 명령을 더 따르라", "아니, 지금 이 단계에서는 자연스러움을 더 지켜라"라고 동적으로 지시합니다.

4. 실제 효과: 무엇이 달라졌나요?

이 방법을 쓰면 다음과 같은 기적이 일어납니다.

  • 과부하 방지: "불꽃 모자"를 그릴 때, 불꽃이 너무 과해서 얼굴이 타는 것을 막아줍니다.
  • 명령 정확도: "두 마리의 기린"이라고 했을 때, 기린이 3 마리가 되거나 1 마리만 나오는 실수를 줄여줍니다.
  • 자연스러움: 손가락이 6 개 달리는 등 기괴한 왜곡을 방지하면서도, 명령에 충실한 그림을 만듭니다.

5. 결론: 왜 이것이 중요한가요?

기존의 AI 그림 기술은 "명령을 얼마나 따를지"를 정할 때 사용자가 직접 숫자를 맞추는 게임을 해야 했습니다. 너무 세면 그림이 망가지고, 너무 약하면 명령을 무시합니다.

이 논문의 **'어닐링 가이드 스케일'**은 그 게임을 없애고, AI 스스로가 "지금 이 순간에는 어떻게 행동해야 가장 좋은 그림이 나올지"를 학습하여 스스로 조절하게 만들었습니다.

한 줄 요약:

"AI 가 그림을 그릴 때, 상황에 따라 지시하는 강도를 자동으로 조절하는 똑똑한 나침반을 달아주니, 명령도 잘 따르고 그림도 훨씬 예쁘게 그려집니다."

이 기술은 별도의 복잡한 추가 메모리나 연산 없이도 기존 AI 모델에 바로 적용할 수 있어, 앞으로 우리가 보는 AI 그림들의 품질이 한 단계 더 올라갈 것으로 기대됩니다.