Enhancing Spatial Understanding in Image Generation via Reward Modeling

이 논문은 8 만 개 이상의 선호도 쌍으로 구성된 SpatialReward-Dataset 과 이를 기반으로 구축된 SpatialScore 보상 모델을 통해 텍스트-이미지 생성 모델의 공간 관계 이해 능력을 강화하고, 이를 온라인 강화 학습에 적용하여 복잡한 공간적 묘사 성능을 획기적으로 개선하는 방법을 제시합니다.

Zhenyu Tang, Chaoran Feng, Yufan Deng, Jie Wu, Xiaojie Li, Rui Wang, Yunpeng Chen, Daquan Zhou

게시일 2026-03-02
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

이 논문은 **"AI 가 그림을 그릴 때, 물체들의 위치 관계를 정확히 이해하도록 가르치는 새로운 방법"**에 대한 이야기입니다.

기존의 AI 그림 그리기 기술은 "고양이"나 "해변" 같은 간단한 명령어에는 훌륭하지만, "책상 왼쪽에 노트북이 있고, 그 오른쪽에 커피잔이 놓여 있으며, 그 뒤로 책장이 있다"처럼 복잡한 공간적 관계를 요구하면 엉뚱한 그림을 그려내는 경우가 많았습니다.

이 문제를 해결하기 위해 연구팀이 제안한 방법을 일상적인 비유로 설명해 드리겠습니다.


1. 문제: "눈이 멀은 예술가"와 "잘못된 감점자"

기존 AI(예술가) 는 그림 실력은 좋지만, 위치 감각이 매우 둔합니다.

  • 상황: "노트북 왼쪽에 컵을 그려줘"라고 시켰는데, AI 는 컵을 노트북 오른쪽에 그리거나, 아예 공중에 띄워버립니다.
  • 기존 감점자 (Reward Model): AI 가 그렸을 때 "잘했니?"를 평가해주는 기존 시스템들은 그림이 예쁜지, 글자와 이미지가 대략 일치하는지만 봅니다. "컵이 노트북 왼쪽에 있나?" 같은 정밀한 위치 검사는 잘 못합니다. 마치 미술 작품의 색감은 잘 보지만, 구도나 위치는 전혀 모르고 "오, 예쁘네!"라고만 점수를 주는 감점자 같습니다.

2. 해결책 1: "위치 감각 훈련용 문제집" (SpatialReward-Dataset)

연구팀은 AI 가 위치 관계를 배우게 하려면, 정답과 오답의 차이가 명확한 문제집이 필요하다고 생각했습니다.

  • 만드는 과정:
    1. 먼저 AI 가 그릴 수 있는 복잡한 지시문 (예: "의자 왼쪽에 책상, 책상 위에 노트북...") 을 8 만 개 이상 만들었습니다.
    2. 정답 (Perfect Image): 지시문을 그대로 지킨 그림.
    3. 오답 (Perturbed Image): 지시문의 일부만 바꿔서 (예: '왼쪽'을 '오른쪽'으로) AI 가 그렸을 때 틀리게 나오는 그림.
    4. 인간 전문가의 검수: 이 8 만 개의 쌍을 사람이 직접 확인해서, "이건 정말 정답이야", "이건 확실히 틀렸어"라고 엄격하게 분류했습니다.

비유: 마치 수학 선생님이 학생에게 "3+2=5"는 맞고 "3+2=6"은 틀린 것을 명확히 보여주는 오답 노트를 만들어준 것과 같습니다.

3. 해결책 2: "위치 감각의 달인 감점자" (SpatialScore)

이제 이 문제집을 바탕으로 **새로운 감점자 (SpatialScore)**를 훈련시켰습니다.

  • 특징: 이 감점자는 그림이 예쁜지보다 **"지시문대로 물체들이 제자리에 있는지"**를 유심히 봅니다.
  • 성공: 기존에 유명한 유료 AI 모델들 (GPT-5 등) 보다도 위치 관계를 판단하는 정확도가 더 높았습니다.
  • 의미: 이제 AI 가 그림을 그릴 때, "오, 컵이 노트북 오른쪽에 있네? 틀렸어!"라고 정확히 지적해 줄 수 있는 교사가 생긴 것입니다.

4. 해결책 3: "현장 실습" (Online Reinforcement Learning)

마지막으로, 이 새로운 감점자를 이용해 AI 를 실전 훈련시켰습니다.

  • 과정:
    1. AI 가 무작위로 그림을 여러 장 그립니다.
    2. SpatialScore가 그림을 보고 점수를 매깁니다.
    3. Top-k 필터링 전략: 모든 그림을 다 보는 게 아니라, **가장 잘 그린 것 (Top)**과 **가장 못 그린 것 (Bottom)**만 골라내서 AI 에게 "이건 잘했어, 이걸 참고해"와 "이건 완전히 엉망이야, 고쳐"라고 가르칩니다.
    4. 이 과정을 반복하며 AI 는 점점 위치 감각이 발달합니다.

비유: 요리 견습생이 요리를 24 개 만들어냈을 때, 모든 요리를 다 맛보는 대신 가장 맛있는 것 6 개가장 맛없는 것 6 개만 뽑아서 "이건 소금 양이 적당했어, 이건 너무 짜서 버려"라고 가르쳐주는 효율적인 훈련 방식입니다.

5. 결과: "공간 감각의 마법사"가 되다

이 방법으로 훈련된 AI 는 다음과 같은 변화를 보였습니다.

  • 복잡한 지시문도 잘 따라함: "의자 왼쪽에 책상, 책상 위에 노트북, 노트북 오른쪽에 컵..." 같은 긴 문장도 정확하게 그림으로 구현합니다.
  • 기존 방법보다 뛰어남: 기존에 '물체 감지'만 하던 방식보다 훨씬 자연스럽고 논리적인 그림을 그립니다.
  • 유용성: 이제 AI 는 단순히 예쁜 그림을 그리는 것을 넘어, 실제 공간 구성이 필요한 디자인, 건축, 게임 배경 등을 그리는 데도 쓸모가 있게 되었습니다.

요약

이 논문은 **"AI 가 그림을 그릴 때 위치 감각이 부족하다"**는 문제를 발견하고, **"엄격한 인간 검수를 거친 위치 관계 문제집"**을 만들어 **"위치 감각을 전문으로 보는 새로운 감점자"**를 개발한 뒤, 이를 통해 AI 를 효율적으로 훈련시켜 복잡한 공간 지시문도 완벽하게 이해하게 만든 획기적인 연구입니다.

마치 눈이 먼 예술가에게 안경을 써주고, 정밀한 자를 가진 교사가 지도를 시켜서, 이제야 정확한 구도로 그림을 그릴 수 있게 만든 것과 같습니다.