Enhancing Spatial Understanding in Image Generation via Reward Modeling

Each language version is independently generated for its own context, not a direct translation.

이 논문은 **"AI 가 그림을 그릴 때, 물체들의 위치 관계를 정확히 이해하도록 가르치는 새로운 방법"**에 대한 이야기입니다.

기존의 AI 그림 그리기 기술은 "고양이"나 "해변" 같은 간단한 명령어에는 훌륭하지만, "책상 왼쪽에 노트북이 있고, 그 오른쪽에 커피잔이 놓여 있으며, 그 뒤로 책장이 있다"처럼 복잡한 공간적 관계를 요구하면 엉뚱한 그림을 그려내는 경우가 많았습니다.

이 문제를 해결하기 위해 연구팀이 제안한 방법을 일상적인 비유로 설명해 드리겠습니다.

1. 문제: "눈이 멀은 예술가"와 "잘못된 감점자"

기존 AI(예술가) 는 그림 실력은 좋지만, 위치 감각이 매우 둔합니다.

상황: "노트북 왼쪽에 컵을 그려줘"라고 시켰는데, AI 는 컵을 노트북 오른쪽에 그리거나, 아예 공중에 띄워버립니다.
기존 감점자 (Reward Model): AI 가 그렸을 때 "잘했니?"를 평가해주는 기존 시스템들은 그림이 예쁜지, 글자와 이미지가 대략 일치하는지만 봅니다. "컵이 노트북 왼쪽에 있나?" 같은 정밀한 위치 검사는 잘 못합니다. 마치 미술 작품의 색감은 잘 보지만, 구도나 위치는 전혀 모르고 "오, 예쁘네!"라고만 점수를 주는 감점자 같습니다.

2. 해결책 1: "위치 감각 훈련용 문제집" (SpatialReward-Dataset)

연구팀은 AI 가 위치 관계를 배우게 하려면, 정답과 오답의 차이가 명확한 문제집이 필요하다고 생각했습니다.

만드는 과정:
1. 먼저 AI 가 그릴 수 있는 복잡한 지시문 (예: "의자 왼쪽에 책상, 책상 위에 노트북...") 을 8 만 개 이상 만들었습니다.
2. 정답 (Perfect Image): 지시문을 그대로 지킨 그림.
3. 오답 (Perturbed Image): 지시문의 일부만 바꿔서 (예: '왼쪽'을 '오른쪽'으로) AI 가 그렸을 때 틀리게 나오는 그림.
4. 인간 전문가의 검수: 이 8 만 개의 쌍을 사람이 직접 확인해서, "이건 정말 정답이야", "이건 확실히 틀렸어"라고 엄격하게 분류했습니다.

비유: 마치 수학 선생님이 학생에게 "3+2=5"는 맞고 "3+2=6"은 틀린 것을 명확히 보여주는 오답 노트를 만들어준 것과 같습니다.

3. 해결책 2: "위치 감각의 달인 감점자" (SpatialScore)

이제 이 문제집을 바탕으로 **새로운 감점자 (SpatialScore)**를 훈련시켰습니다.

특징: 이 감점자는 그림이 예쁜지보다 **"지시문대로 물체들이 제자리에 있는지"**를 유심히 봅니다.
성공: 기존에 유명한 유료 AI 모델들 (GPT-5 등) 보다도 위치 관계를 판단하는 정확도가 더 높았습니다.
의미: 이제 AI 가 그림을 그릴 때, "오, 컵이 노트북 오른쪽에 있네? 틀렸어!"라고 정확히 지적해 줄 수 있는 교사가 생긴 것입니다.

4. 해결책 3: "현장 실습" (Online Reinforcement Learning)

마지막으로, 이 새로운 감점자를 이용해 AI 를 실전 훈련시켰습니다.

과정:
1. AI 가 무작위로 그림을 여러 장 그립니다.
2. SpatialScore가 그림을 보고 점수를 매깁니다.
3. Top-k 필터링 전략: 모든 그림을 다 보는 게 아니라, **가장 잘 그린 것 (Top)**과 **가장 못 그린 것 (Bottom)**만 골라내서 AI 에게 "이건 잘했어, 이걸 참고해"와 "이건 완전히 엉망이야, 고쳐"라고 가르칩니다.
4. 이 과정을 반복하며 AI 는 점점 위치 감각이 발달합니다.

비유: 요리 견습생이 요리를 24 개 만들어냈을 때, 모든 요리를 다 맛보는 대신 가장 맛있는 것 6 개와 가장 맛없는 것 6 개만 뽑아서 "이건 소금 양이 적당했어, 이건 너무 짜서 버려"라고 가르쳐주는 효율적인 훈련 방식입니다.

5. 결과: "공간 감각의 마법사"가 되다

이 방법으로 훈련된 AI 는 다음과 같은 변화를 보였습니다.

복잡한 지시문도 잘 따라함: "의자 왼쪽에 책상, 책상 위에 노트북, 노트북 오른쪽에 컵..." 같은 긴 문장도 정확하게 그림으로 구현합니다.
기존 방법보다 뛰어남: 기존에 '물체 감지'만 하던 방식보다 훨씬 자연스럽고 논리적인 그림을 그립니다.
유용성: 이제 AI 는 단순히 예쁜 그림을 그리는 것을 넘어, 실제 공간 구성이 필요한 디자인, 건축, 게임 배경 등을 그리는 데도 쓸모가 있게 되었습니다.

요약

이 논문은 **"AI 가 그림을 그릴 때 위치 감각이 부족하다"**는 문제를 발견하고, **"엄격한 인간 검수를 거친 위치 관계 문제집"**을 만들어 **"위치 감각을 전문으로 보는 새로운 감점자"**를 개발한 뒤, 이를 통해 AI 를 효율적으로 훈련시켜 복잡한 공간 지시문도 완벽하게 이해하게 만든 획기적인 연구입니다.

마치 눈이 먼 예술가에게 안경을 써주고, 정밀한 자를 가진 교사가 지도를 시켜서, 이제야 정확한 구도로 그림을 그릴 수 있게 만든 것과 같습니다.

Each language version is independently generated for its own context, not a direct translation.

1. 문제 정의 (Problem)

최근 텍스트 - 이미지 (Text-to-Image, T2I) 생성 모델은 시각적 충실도와 창의성 측면에서 비약적인 발전을 이루었습니다. 그러나 복잡한 프롬프트, 특히 여러 객체 간의 정교한 공간적 관계 (Spatial Relationships) 를 표현하는 경우 기존 모델은 여전히 한계를 보입니다.

기존 reward 모델의 한계:
- Human Preference Models (HPS, PickScore 등): 미적 품질이나 전반적인 텍스트 - 이미지 정렬에는 강점이 있으나, 복잡한 공간 관계 (예: "A 의 왼쪽에 B 가 있고, C 는 D 뒤에 있다") 를 정밀하게 평가하지 못합니다.
- VQA 기반 모델: 객체 감지기를 기반으로 하는 규칙 기반 평가 (GenEval 등) 는 가려짐 (occlusion) 이나 긴 프롬프트에서 오류가 발생하며, 복잡한 공간 추론에 실패합니다.
- 상용 VLM API: GPT-4o 나 Gemini 와 같은 최신 모델은 공간 이해도가 높지만, 온라인 강화학습 (Online RL) 에 필요한 빈번한 reward 조회 비용이 너무 높아 실용적이지 않습니다.
- 오픈소스 VLM: Qwen2.5-VL-72B 와 같은 대형 모델조차도 복잡한 공간 추론 시 할루시네이션 (Hallucination) 이 발생하여 신뢰할 수 있는 reward 신호를 제공하지 못합니다.

이로 인해 복잡한 공간 지시를 따르는 이미지 생성 시, 만족스러운 결과를 얻기 위해 여러 번의 샘플링을 반복해야 하는 비효율이 발생합니다.

2. 방법론 (Methodology)

이 논문은 온라인 강화학습 (RL) 을 통해 이미지 생성 모델의 공간 이해도를 향상시키기 위해 신뢰할 수 있는 Reward Model을 구축하는 데 중점을 둡니다.

A. SpatialReward-Dataset 구축

데이터 구성: 8 만 개 이상의 적대적 선호 쌍 (Adversarial Preference Pairs) 으로 구성된 대규모 데이터셋을 구축했습니다.
생성 방식:
1. GPT-5 를 이용해 복잡한 공간 관계를 포함한 프롬프트를 생성합니다.
2. GPT-5 를 통해 일부 공간 관계만 변경 (Perturbation) 하여 '오류가 있는 프롬프트'를 만듭니다.
3. 동일한 이미지 생성 모델 (Qwen-Image, HunyuanImage, Seedream 등) 을 사용하여 '완벽한 프롬프트'와 '변형된 프롬프트'로 이미지를 생성합니다.
4. 인간 검증: 생성된 모든 쌍을 인간 전문가가 검토하여, 완벽한 이미지가 프롬프트의 공간 제약을 정확히 따르고 변형된 이미지가 명확한 공간 오류를 보이는지 확인합니다.
특징: 기존 GenEval 의 단순한 템플릿보다 훨씬 긴 프롬프트와 복잡한 다중 객체 관계를 포함합니다.

B. SpatialScore (Reward Model) 개발

아키텍처: Qwen2.5-VL-7B 를 백본 (Backbone) 으로 사용하여 이미지와 텍스트 특징을 추출하고, 이를 reward 점수로 매핑하는 선형 헤드를 추가했습니다.
학습 방식:
- Bradley-Terry 모델을 기반으로 선호 쌍 $(y_w, y_l)$ 을 학습합니다.
- HPSv3 에서 영감을 받아, 결정론적 값 대신 가우시안 분포 ( $s \sim N(\mu, \sigma^2)$ ) 로 reward 점수를 모델링하여 더 강력한 랭킹 능력을 확보했습니다.
- LoRA (Low-Rank Adaptation) 를 사용하여 모델의 기존 지식을 유지하면서 미세 조정 (Fine-tuning) 했습니다.

C. 온라인 강화학습 (Online RL) 및 Top-k 필터링

RL 프레임워크: Flow-GRPO (Group Relative Policy Optimization) 알고리즘을 기반으로 FLUX.1-dev 모델을 미세 조정합니다.
Top-k 필터링 전략:
- RL 학습 시 프롬프트의 난이도 차이로 인해 그룹 내 reward 분포가 불균형해지고, 이로 인해 'Advantage Bias'가 발생할 수 있습니다 (쉬운 프롬프트에서 좋은 샘플도 평균이 높아 음수 advantage 를 받는 경우).
- 이를 해결하기 위해 그룹 내 Top-k (가장 좋은) 와 Bottom-k (가장 나쁜) 샘플만 선택하여 평균과 표준편차를 계산하고, 이 부분집합만을 사용하여 정책 (Policy) 을 업데이트합니다.
- 이 방식은 학습 효율성을 높이고 NFE (Function Evaluations) 를 줄이면서도 안정적인 수렴을 보장합니다.

3. 주요 기여 (Key Contributions)

SpatialReward-Dataset: 인간이 엄격하게 검증한 8 만 개의 적대적 공간 선호 쌍 데이터셋을 공개했습니다.
SpatialScore: 복잡한 공간 관계를 평가하는 데 있어 GPT-5 나 Gemini-2.5 Pro 와 같은 선두 주자 상용 모델보다 더 높은 정확도를 보이는 오픈소스 reward 모델을 개발했습니다.
성능 향상: SpatialScore 를 reward 로 활용하고 Top-k 필터링 전략을 적용한 RL 학습을 통해, 베이스 모델 (FLUX.1-dev) 의 공간 이해도를 획기적으로 개선했습니다.

4. 실험 결과 (Results)

Reward Model 성능 (평가 벤치마크)

Pairwise Accuracy: SpatialScore (7B) 는 80K 데이터셋 기반 벤치마크에서 **95.8%**의 정확도를 기록했습니다.
비교: 이는 GPT-5 (93.3%), Gemini-2.5 Pro (95.1%) 등 최신 상용 모델보다 높은 성능이며, 기존 오픈소스 VLM (Qwen2.5-VL-72B: 76.4%) 보다 월등히 우수합니다.

이미지 생성 성능 (RL 학습 후)

In-domain 평가 (SpatialScore): 베이스 모델의 점수 (2.18) 가 RL 학습 후 7.81로 크게 향상되었습니다.
Out-of-domain 벤치마크:
- DPG-Bench: 모든 차원 (Global, Entity, Attribute, Relation 등) 에서 일관된 개선을 보였으며, 전체 점수는 상용 모델 GPT-Image-1 에 근접했습니다.
- TIIF-Bench & UniGenBench++: 짧은 프롬프트뿐만 아니라 긴 프롬프트에서도 복잡한 공간 관계를 정확히 구현하는 능력을 입증했습니다.
GenEval 기반 학습과의 비교: 기존 GenEval (규칙 기반) 으로 학습한 모델은 긴 프롬프트에서 성능이 급격히 저하되거나 객체가 누락되는 반면, SpatialScore 기반 모델은 복잡한 구성에서도 일관된 성능을 유지했습니다.

5. 의의 및 결론 (Significance)

이 연구는 텍스트 - 이미지 생성 모델이 복잡한 공간적 추론을 수행하는 데 있어 기존 reward 모델의 한계를 극복하고, 효율적인 온라인 RL을 가능하게 하는 새로운 패러다임을 제시합니다.

비용 효율성: 고비용의 상용 API 를 대체할 수 있는 고품질 오픈소스 reward 모델을 제공하여, 대규모 RL 학습의 실용성을 높였습니다.
일반화 능력: 단순한 객체 배치뿐만 아니라 긴 프롬프트와 다양한 시나리오에서 공간 이해도를 향상시켜, 향후 3D 생성, 비디오 생성, 로봇 시뮬레이션 등 더 복잡한 공간적 작업으로의 확장에 중요한 기반을 마련했습니다.
기술적 혁신: Top-k 필터링 전략을 통해 RL 학습 중 발생할 수 있는 Advantage Bias 문제를 해결하여 학습 안정성과 효율성을 동시에 개선했습니다.

결론적으로, 이 논문은 고품질의 공간 특화 Reward Model과 효율적인 RL 전략의 결합을 통해 이미지 생성 모델의 공간적 정밀도를 획기적으로 높였음을 입증했습니다.