Rethinking Preference Alignment for Diffusion Models with Classifier-Free Guidance

Each language version is independently generated for its own context, not a direct translation.

이 논문은 **"인공지능이 그림을 그릴 때, 사람의 취향을 더 잘 반영하게 만드는 새로운 방법"**을 소개합니다.

기존의 방법들은 인공지능을 '재학습'시키는 과정에서 오히려 원래의 창의성을 잃거나, 특정 스타일만 고집하게 되는 문제가 있었습니다. 이 논문은 **"그림을 그리는 인공지능 (모델) 을 다시 가르치지 않고, 그림을 그리는 '순간'에만 작은 조정 신호를 보내는 것"**으로 문제를 해결했습니다.

이 복잡한 기술을 쉽게 이해할 수 있도록 세 가지 핵심 비유로 설명해 드릴겠습니다.

1. 문제 상황: "열심히 공부한 학생이 오히려 망친다" (기존 방식의 한계)

지금까지 인공지능이 사람의 취향을 배우는 방법은 **DPO(Direct Preference Optimization)**라는 방식이 주류였습니다.

비유: 그림을 잘 그리는 학생 (AI) 이에게 "이 그림은 좋고, 저 그림은 나쁘다"라고 수천 장의 예시만 보여주고 재시험을 치르게 하는 겁니다.
문제점: 학생이 시험 문제 (예시 데이터) 만 너무 열심히 외우면, 실제 시험장 (새로운 주문) 에서는 엉뚱한 그림을 그리거나, 원래 가지고 있던 창의성 (다양성) 을 잃어버립니다. 이를 **'과적합 (Overfitting)'**이라고 합니다. 마치 시험 문제만 외운 학생이 새로운 문제를 풀지 못하는 것과 같습니다.

2. 해결책 1: "명예교수님의 실시간 코칭" (PGD 방법)

이 논문은 **"다시 가르치지 말고, 그리는 순간에 코칭만 해보자"**고 제안합니다.

비유: 원래 그림을 잘 그리는 학생 (기반 모델) 이 그림을 그리고 있을 때, 옆에서 **명예교수님 (선호도 학습 모델)**이 "여기 색감을 조금 더 따뜻하게 해줘"라고 실시간으로 조언을 해주는 것입니다.
핵심: 학생을 다시 가르치지 않고, 그림을 그리는 **순간 (추론 단계)**에만 이 조언을 반영합니다.
효과: 학생은 원래의 실력 (다양성) 을 유지하면서, 명예교수님의 조언 (사람의 취향) 만을 받아들이게 되어 훨씬 더 만족스러운 그림을 그릴 수 있습니다.

3. 해결책 2: "좋아하는 것과 싫어하는 것을 동시에 보는 눈" (cPGD 방법)

하지만 단순히 "좋아하는 것"만 알려주면, 학생이 "싫어하는 것"을 피하는 법을 모를 수도 있습니다. 그래서 논문은 더 발전된 방법을 제안합니다.

비유: 옆에 두 명의 코치를 둡니다.
1. A 코치: "이런 그림은 좋아해!"라고 가르칩니다.
2. B 코치: "이런 그림은 싫어해!"라고 가르칩니다.
작동 원리: 그림을 그릴 때, A 코치의 조언에서 B 코치의 조언을 빼줍니다. (좋아하는 것 - 싫어하는 것 = 진짜 취향)
효과: 단순히 "무엇이 좋은지"만 아는 게 아니라, "무엇이 나쁜지"도 함께 배워서, 훨씬 더 명확하고 날카로운 취향을 반영한 그림을 그릴 수 있게 됩니다. 마치 미식가에게 "이건 맛있고, 저건 맛이 없다"를 동시에 알려주어 더 정확한 입맛을 기르는 것과 같습니다.

요약: 왜 이 방법이 특별한가요?

재학습 불필요: 거대한 인공지능 모델을 다시 훈련시킬 필요가 없습니다. 기존 모델을 그대로 두고, '코칭 신호'만 추가하면 됩니다.
유연성: 사람마다 취향이 다를 수 있습니다. 이 방법은 코칭의 강도 (얼마나 많이 조언을 듣을지) 를 사용자가 조절할 수 있어, 더 강렬한 스타일을 원하거나 부드러운 스타일을 원할 때 모두 대응 가능합니다.
범용성: 한 번 훈련된 코칭 모델은 다른 종류의 그림 AI 에도 그대로 적용할 수 있습니다. (플러그 앤 플레이)

결론적으로, 이 논문은 "인공지능을 다시 가르치는 대신, 그림을 그리는 순간에 현명한 조언자를 붙여주어 사람의 마음을 더 잘 움직이는 그림을 그리게 했다"는 혁신적인 아이디어를 담고 있습니다.

Each language version is independently generated for its own context, not a direct translation.

1. 문제 정의 (Problem Statement)

대규모 텍스트 - 이미지 확산 모델 (Diffusion Models) 을 인간의 세밀한 선호도 (Human Preferences) 에 정렬하는 것은 여전히 어려운 과제입니다. 기존 접근 방식인 직접 선호도 최적화 (Direct Preference Optimization, DPO) 는 단순하고 효과적이지만, 대규모 파인튜닝 시 다음과 같은 한계를 보입니다.

일반화 격차 (Generalization Gap): DPO 로 파인튜닝된 모델은 훈련 데이터에 과적합 (Overfitting) 되기 쉽고, 분포 밖 (Out-of-Distribution) 텍스트 프롬프트에 대해 매끄럽지 않은 예측을 하거나 모드 붕괴 (Mode Collapse) 를 일으킬 수 있습니다.
RLHF 의 복잡성: 기존 강화학습 (RLHF) 은 보상 모델 학습과 하이퍼파라미터 조정이 필요하여 복잡합니다.
DPO 의 불안정성: DPO 는 보상 모델 없이 선호도 쌍을 이진 분류 문제로 취급하지만, 이는 종종 RLHF 보다 덜 견고하며, 사전 학습 데이터 전체를 정규화 용도로 사용할 수 없는 대규모 모델의 경우 과적합 위험이 큽니다.

저자들은 DPO 의 이러한 실패 원인을 시각화하기 위해 2 차원 가우시안 데이터셋 실험을 수행했으며, DPO 는 훈련이 길어질수록 이상적인 분포에서 벗어나 과적합되는 경향을 보임을 확인했습니다.

2. 제안 방법론 (Methodology)

저자들은 테스트 시간 가이드 (Test-time Guidance) 에서 영감을 받아, 선호도 정렬 문제를 클래스프리 가이드 (Classifier-Free Guidance, CFG) 의 관점으로 재해석했습니다.

핵심 아이디어: CFG 관점에서의 정렬

CFG 는 조건부 예측과 무조건부 예측을 선형 결합하여 샘플링하는 방식입니다. 저자들은 이를 다음과 같이 확장했습니다.

기저 모델 (Base Model): 무조건부 사전 분포 (Unconditional Prior) 역할을 합니다.
파인튜닝된 모델: 선호도 데이터셋에 조건부인 가상 제어 신호 (Control Signal) 역할을 합니다.
추론 과정: 정렬된 확산 모델에서 샘플링하는 것은 CFG 스타일의 추론 과정으로 볼 수 있습니다.

이를 바탕으로 두 가지 방법을 제안합니다.

A. 선호도 유도 확산 (Preference-Guided Diffusion, PGD)

개념: DPO 로 파인튜닝된 모델을 "조건부" 모델로, 기저 모델을 "무조건부" 모델로 간주합니다.
방식: 추론 시, 기저 모델의 예측과 DPO 모델의 예측 차이를 가중치 $w$ 로 증폭하여 최종 예측에 더합니다.
$\nabla \log \pi_{PGD}(x) = \nabla \log \pi_{ref}(x) + w \cdot (\nabla \log \pi_{DPO}(x) - \nabla \log \pi_{ref}(x))$
장점: DPO 모델을 완전히 파인튜닝할 필요 없이, 적은 스텝으로만 학습된 모델을 제어 신호로 사용하여 과적합을 방지합니다.

B. 대비적 PGD (Contrastive PGD, cPGD)

동기: CFG 훈련이 양 (Positive) 과 음 (Negative) 데이터를 분리하여 학습하는 조건부 확산 훈련과 유사하다는 점에 착안합니다.
방식:
1. 양성 모델 ( $\theta^+$ ): 선호도 데이터의 '승자 (Positive)' 샘플만 사용하여 파인튜닝.
2. 음성 모델 ( $\theta^-$ ): 선호도 데이터의 '패자 (Negative)' 샘플만 사용하여 파인튜닝.
3. 추론: 두 모델의 예측 차이를 계산하여 기저 모델에 더합니다.
  $\nabla \log \pi_{cPGD}(x, t) = \nabla \log \pi_{ref}(x, t) + w \cdot (\nabla \log \pi(x, t; \theta^+) - \nabla \log \pi(x, t; \theta^-))$
의미: 이는 DPO 손실의 그래디언트를 동적으로 재가중 (Dynamic Reweighting) 하는 것과 수학적으로 동치이며, 과적합을 완화하고 일반화 성능을 향상시킵니다.

3. 주요 기여 (Key Contributions)

CFG 기반 정렬 관점 제시: Diffusion-DPO 의 일반화 문제를 해결하기 위해, 확산 모델 정렬을 CFG 스타일 추론의 특수한 경우로 재정의했습니다.
PGD 및 cPGD 제안:
- PGD: 추론 시 CFG 스타일 가이드를 통해 생성 분포를 인간 선호도에 정렬합니다.
- cPGD: 파인튜닝을 조건부 확산 훈련으로 간주하고, 양/음성 데이터를 분리하여 학습한 두 모델을 대비적으로 결합하는 변형을 제안합니다.
플러그 앤 플레이 (Plug-and-Play) 모듈: 학습된 가이드 모듈은 다른 기저 확산 모델에도 재사용 가능하여, 모델 아키텍처 변경 없이 선호도 정렬을 적용할 수 있습니다.
파레토 개선 (Pareto Improvement): 제안된 방법은 기존 Diffusion-DPO 대비 더 높은 보상 (Reward), 더 낮은 FID(분포 왜곡), 더 높은 다양성을 동시에 달성함을 실험적으로 증명했습니다.

4. 실험 결과 (Results)

데이터셋 및 모델: Stable Diffusion 1.5 (SD1.5) 와 SDXL 모델을 사용했으며, Pick-a-Pic v2 와 HPDv3 데이터셋에서 평가했습니다.
성능:
- Win Rate: PGD 와 cPGD 는 다양한 테스트 프롬프트 (Pick-a-Pic, Parti-Prompts 등) 에서 DPO, MaPO, NPO 등 기존 최선 기법 (SOTA) 보다 일관되게 높은 승률 (Win Rate) 을 기록했습니다.
- 다양성과 충실도: FID 점수 (기저 분포 보존) 와 다양성 점수 (Sample Diversity) 를 유지하면서 인간 선호도 (PickScore, HPS, ImageReward) 를 크게 향상시켰습니다.
- cPGD vs PGD: SD1.5 에서는 cPGD 가 더 우수한 일반화 성능을 보였으며, SDXL 에서는 두 방법 모두 유사하거나 PGD 가 약간 우세했습니다.
휴먼 평가: 인간 평가자 (Human Evaluators) 가 선택한 비율에서 PGD 가 45.5% 로 가장 높았으며, DPO(29.5%) 보다 54.2% 상대적인 개선을 보였습니다.
효율성: 가이드를 전체 스텝이 아닌 초기 고노이즈 스텝 (예: 30 스텝) 에만 적용해도 성능의 94% 이상을 유지하며 계산 비용을 절감할 수 있음을 확인했습니다. 또한, 단일 체크포인트로 증류 (Distillation) 하여 추론 비용을 줄일 수도 있습니다.

5. 의의 및 결론 (Significance)

이 논문은 확산 모델의 인간 선호도 정렬을 위한 새로운 패러다임을 제시합니다.

과적합 해결: DPO 와 같은 파인튜닝 기반 접근법의 과적합 및 일반화 문제를 해결하기 위해, 추론 시간 (Inference-time) 의 가이드 메커니즘을 활용함으로써 모델의 유연성을 유지하면서도 선호도를 효과적으로 반영합니다.
간단하고 강력한 방법론: 복잡한 보상 모델 학습이나 RLHF 파이프라인 없이, 단순한 CFG 스타일 조합만으로 뛰어난 성능을 달성합니다.
확장성: 학습된 가이드 모듈이 플러그 앤 플레이 방식으로 다른 모델 아키텍처 (예: KOALA 등) 에도 적용 가능하다는 점은 실제 응용에서 매우 중요한 장점을 제공합니다.

결론적으로, 이 연구는 확산 모델 정렬을 위한 DPO 의 한계를 극복하고, 더 견고하고 일반화 가능한 정렬 솔루션을 제시함으로써 텍스트 - 이미지 생성 모델의 실용성을 크게 향상시켰습니다.

Rethinking Preference Alignment for Diffusion Models with Classifier-Free Guidance

1. 문제 상황: "열심히 공부한 학생이 오히려 망친다" (기존 방식의 한계)

2. 해결책 1: "명예교수님의 실시간 코칭" (PGD 방법)

3. 해결책 2: "좋아하는 것과 싫어하는 것을 동시에 보는 눈" (cPGD 방법)

요약: 왜 이 방법이 특별한가요?

1. 문제 정의 (Problem Statement)

2. 제안 방법론 (Methodology)

핵심 아이디어: CFG 관점에서의 정렬

A. 선호도 유도 확산 (Preference-Guided Diffusion, PGD)

B. 대비적 PGD (Contrastive PGD, cPGD)

3. 주요 기여 (Key Contributions)

4. 실험 결과 (Results)

5. 의의 및 결론 (Significance)

유사한 논문

Conversational Successes and Breakdowns in Everyday Smart Glasses Use

EmbodMocap: In-the-Wild 4D Human-Scene Reconstruction for Embodied Agents

GVGS: Gaussian Visibility-Aware Multi-View Geometry for Accurate Surface Reconstruction

PyEncode: An Open-Source Library for Structured Quantum State Preparation

DOne: Decoupling Structure and Rendering for High-Fidelity Design-to-Code Generation