Taming Preference Mode Collapse via Directional Decoupling Alignment in Diffusion Reinforcement Learning

Each language version is independently generated for its own context, not a direct translation.

이 논문은 인공지능이 그림을 그릴 때 발생하는 '지루한 반복' 문제를 해결한 새로운 방법을 소개합니다. 쉽게 설명해 드릴게요.

🎨 핵심 문제: "인공지능이 똑같은 그림만 그리는 이유"

상상해 보세요. 여러분이 인공지능 (AI) 화가에게 "멋진 그림 그려줘"라고 주문했습니다. AI 는 처음에는 다양한 스타일, 다양한 얼굴, 다양한 색감으로 멋진 그림들을 그려냈습니다.

하지만 AI 를 훈련시키는 과정에서 "사람이 좋아하는 점수를 높게 받기 위해" 무조건적인 최적화를 시키면 이상한 일이 발생합니다.

문제 상황: AI 는 "아! 이 그림 스타일이 점수를 많이 받네? 그럼 이 스타일만 계속 그려야지!"라고 생각하게 됩니다.
결과: AI 는 점점 더 똑같은 얼굴, 똑같은 배경, 똑같은 색감의 그림만 그려냅니다. 마치 매번 같은 메뉴 (예: 김치볶음밥) 만 내놓는 식당처럼 말이죠.
논문 용어: 이를 **'선호도 모드 붕괴 (Preference Mode Collapse)'**라고 부릅니다. 점수는 높지만, 다양성은 완전히 죽어버린 상태입니다.

💡 해결책: "나침반을 고쳐서 방향을 바꾸다 (D²-Align)"

이 논문은 이 문제를 해결하기 위해 D²-Align이라는 새로운 방법을 제안합니다. 이걸 이해하기 위해 '나침반' 비유를 써볼게요.

1. 왜 문제가 생길까요? (고장 난 나침반)

AI 가 그림을 그릴 때, '사람이 좋아하는지'를 판단해주는 **심사위원 (보상 모델)**이 있습니다. 그런데 이 심사위원이 약간의 편견을 가지고 있습니다.

예: "조금 과장되게 밝고 윤기 나는 그림을 좋아해."
AI 는 이 심사위원의 말만 듣고 "윤기 나는 그림만 그려야 점수를 받겠다!"라고 생각하며 나침반 (방향) 을 그쪽으로만 돌립니다. 그래서 모든 그림이 똑같은 윤기 나는 스타일로 변해버립니다.

2. D²-Align 의 방법: "나침반의 방향을 살짝 교정하다"

이 논문은 AI 를 직접 고치는 게 아니라, **심사위원의 편견을 보정하는 '방향 교정기'**를 개발했습니다.

1 단계 (학습): AI 가 그림을 그리지 않고, 오직 심사위원의 나침반 방향만 연구합니다. "아, 심사위원은 윤기만 보고 점수를 주네. 그럼 윤기가 아닌 다른 요소 (진짜 예술성) 를 보게 하려면 나침반을 이쪽으로 살짝 틀어야겠다"라고 **보정 벡터 (방향 수정 값)**를 찾아냅니다.
2 단계 (적용): 이제 AI 가 그림을 그릴 때, 이 보정된 나침반을 사용합니다.
- 예: "윤기 나는 그림"을 그릴 때, 보정된 나침반은 "아니, 진짜 예술적인 그림을 그려야 점수를 준다고!"라고 알려줍니다.
- 결과: AI 는 점수는 높게 받으면서도, 다양한 스타일, 다양한 얼굴, 다양한 색감의 그림을 계속 그려낼 수 있게 됩니다.

🌟 이 방법이 특별한 이유

기존 방법들은 "점수를 너무 높게 받지 말자"라고 억지로 제한을 걸거나, 여러 심사위원을 섞어 쓰기도 했습니다. 하지만 이 논문은 **"심사위원의 편견 자체를 방향적으로 수정"**했습니다.

기존 방법: "너무 많이 먹으면 살 찌니까 밥을 적게 먹어." (단순 제한)
이 논문 (D²-Align): "너가 좋아하는 음식이 건강에 안 좋은 거였어. 진짜 맛있는 건강한 음식을 골라주는 나침반을 바꿔줄게." (방향 수정)

📊 실제 효과

이 방법으로 훈련된 AI 는:

다양성 유지: 같은 주문을 해도 매번 다른 얼굴, 다른 스타일, 다른 배경을 그려냅니다.
품질 향상: 단순히 똑같은 그림을 반복하지 않아도, 사람이 정말 좋아하는 '고퀄리티' 그림을 그립니다.
균형: "품질"과 "다양성"이라는 두 마리 토끼를 모두 잡았습니다.

🏁 한 줄 요약

"AI 가 점수만 쫓다가 똑같은 그림만 그리지 않도록, 심사위원의 편견을 보정해 주는 '나침반 교정기'를 만들어, AI 가 창의적이고 다양한 명작을 계속 그리게 만들었습니다."

이 기술은 AI 가 단순히 똑같은 패턴을 반복하는 것을 막고, 진정한 창의성을 발휘할 수 있게 도와줍니다.

Each language version is independently generated for its own context, not a direct translation.

1. 문제 정의: 선호도 모드 붕괴 (Preference Mode Collapse, PMC)

최근 인간 피드백을 통한 강화 학습 (RLHF) 은 텍스트-이미지 (T2I) 확산 모델의 품질을 크게 향상시켰으나, 새로운 형태의 '보상 해킹 (Reward Hacking)' 문제를 야기했습니다. 이를 저자들은 선호도 모드 붕괴 (PMC) 라고 명명했습니다.

현상: 모델이 인간 선호도 점수 (Reward Score) 를 극대화하기 위해, reward model 의 내재된 편향 (bias) 에 과도하게 최적화됩니다.
결과: 이미지 품질 점수는 높아지지만, 생성된 이미지들의 다양성이 급격히 떨어집니다. 예를 들어, 모든 이미지가 동일한 스타일, 과도한 노출 (over-exposure), 또는 단조로운 구도 (homogeneous layout) 를 갖게 되어 창의성이 사라집니다.
기존 방법의 한계:
- 기존 연구들은 주로 이미지 품질 저하를 막는 데 집중했으나, 다양성 손실은 간과했습니다.
- KL 발산 (Flow-GRPO) 이나 앙상블 (DanceGRPO) 같은 기존 해결책은 경험적 (empirical) 이고 하이퍼파라미터에 민감하며, 근본적인 최적화 방향 (optimization direction) 을 수정하지 못해 PMC 를 완전히 해결하지 못했습니다.

2. 제안 방법: 방향성 분해 정렬 (Directional Decoupling Alignment, D²-Align)

저자는 PMC 를 해결하기 위해 보상 신호의 방향 (Direction) 을 교정하는 새로운 프레임워크인 D²-Align을 제안합니다. 이 방법은 보상 모델의 내재적 편향을 보정하여 모델이 특정 모드로 수렴하는 것을 방지합니다.

핵심 메커니즘

D²-Align 은 생성기 (Generator) 를 고정시킨 상태에서 보상 신호를 학습하는 2 단계 프레임워크입니다.

Stage 1: 방향성 교정 벡터 학습 (Reward Signal Correction)
- 생성기 ( $G_\theta$ ) 는 고정 (Frozen) 시킵니다.
- 보상 모델의 임베딩 공간에서 학습 가능한 방향 벡터 ( $b_v$ ) 를 학습합니다.
- 텍스트 임베딩에 $b_v$ 를 더하거나 빼서 ( $e^+, e^-$ ) 새로운 가이드 임베딩 ( $\tilde{e}_{text}$ ) 을 생성하고, 이를 통해 보상 점수를 조정합니다.
- 목적: reward model 이 특정 스타일 (예: 지나치게 사실적이거나 광택이 나는 이미지) 을 과도하게 선호하는 편향을 감지하고, 이를 상쇄할 수 있는 방향을 찾습니다.
Stage 2: 가이드된 정렬 (Guided Alignment)
- Stage 1 에서 학습된 고정된 벡터 ( $b^*_v$ ) 를 사용하여 생성기 ( $G_\theta$ ) 를 최적화합니다.
- 기존 보상 함수 대신 교정된 보상 신호 ( $R_{guided}$ ) 를 사용하여 그래디언트 업데이트를 수행합니다.
- 효과: 모델이 reward model 의 편향된 패턴으로 수렴하는 것을 방지하고, 인간이 실제로 선호하는 더 넓은 범위의 해답 공간 (solution space) 을 탐색하도록 유도하여 다양성과 품질을 동시에 확보합니다.

3. 주요 기여 (Key Contributions)

PMC 의 정의 및 정량화:
- 인간 선호도 정렬 과정에서 발생하는 '다양성 붕괴' 현상을 Preference Mode Collapse (PMC) 로 정의하고, 이를 측정하기 위한 새로운 벤치마크 DivGenBench를 제안했습니다.
- 기존 벤치마크가 주로 품질 (Fidelity) 에 집중했던 반면, DivGenBench 는 ID(신원), 스타일, 레이아웃, 톤 (Tonal) 의 4 차원적 다양성을 체계적으로 평가합니다.
D²-Align 프레임워크 제안:
- 보상 모델의 편향을 방향성 벡터로 보정하여 PMC 를 해결하는 새로운 최적화 기법을 제시했습니다. 이는 단순히 보상 크기를 조절하는 기존 방법과 달리, 최적화 방향 자체를 수정한다는 점에서 차별화됩니다.
성능 입증:
- FLUX 모델과 다양한 SOTA 기법 (DanceGRPO, Flow-GRPO, SRPO 등) 에 대한 실험을 통해, 제안된 방법이 인간 선호도 점수와 생성 다양성을 동시에 극대화함을 입증했습니다.

4. 실험 결과 (Results)

정량적 평가 (DivGenBench):
- 다양성 지표: 제안된 방법은 ID 분산 점수 (IDS), 예술적 스타일 커버리지 (ASC), 공간 분산 지수 (SDI), 사진적 분산 점수 (PVS) 등 모든 다양성 지표에서 기존 방법들을 압도적으로 능가했습니다.
- 품질 지표: HPS-v2.1, PickScore, CLIP Score 등 인간 선호도 및 텍스트 - 이미지 정렬 관련 지표에서도 기존 방법들보다 우수한 성능을 보였습니다.
- 특이점: 기존 방법들 (DanceGRPO, Flow-GRPO) 은 HPS-v2.1 점수는 높았으나, 실제 다양성은 오히려 베이스 모델 (FLUX) 보다 낮아 PMC 가 발생했음을 확인했습니다.
정성적 평가:
- 유사한 프롬프트에 대한 다양한 출력: 동일한 프롬프트 집합에 대해 기존 방법들은 동일한 얼굴, 동일한 스타일, 동일한 조명을 생성하는 반면, D²-Align 은 프롬프트의 세부 사항 (예: 인종, 나이, 예술 스타일, 조명) 에 따라 명확하게 다른 이미지를 생성했습니다.
- 개념 유지: "Big Chungus"나 "Iron Man"과 같은 구체적인 캐릭터나 복잡한 속성 (예: "야간 애니메이션 스타일") 을 정확히 표현하여 기존 방법들의 개념 망각 (Concept Forgetting) 문제를 해결했습니다.
사용자 연구 (User Study):
- 인간 평가자 대상 실험에서 D²-Align 은 세부 사항 보존, 색상 일관성, 텍스트 - 이미지 정렬, 전반적 선호도 등 모든 항목에서 가장 높은 선호도를 받았습니다. 특히 다양성 측면에서 기존 RL 방법들이 붕괴된 것과 달리, D²-Align 은 높은 다양성을 유지하며 인간 선호도를 충족시켰습니다.

5. 의의 및 결론

이 논문은 RLHF 기반 T2I 모델의 핵심 병목 현상이었던 '품질 vs 다양성'의 트레이드오프를 깨뜨렸습니다.

기술적 의의: 보상 모델의 편향을 단순히 억제하는 것이 아니라, 임베딩 공간에서의 방향성 벡터를 학습하여 보상 신호를 교정함으로써, 모델이 reward hacking 에 빠지지 않고 진정한 인간 선호도에 부합하는 다양한 콘텐츠를 생성하도록 유도했습니다.
실용적 의의: 제안된 DivGenBench는 향후 T2I 모델의 다양성 평가에 대한 표준 벤치마크로 자리 잡을 수 있으며, D²-Align은 다양한 RL 기반 생성 모델에 적용 가능한 범용적인 해결책으로 제시됩니다.

결론적으로, D²-Align 은 생성 모델이 단순히 "점수 높은 이미지"를 만드는 것을 넘어, "다양하고 창의적이며 인간이 실제로 원하는 이미지"를 생성할 수 있도록 하는 중요한 진전을 이루었습니다.