GoT-R1: Unleashing Reasoning Capability of MLLM for Visual Generation with… — 쉬운 설명

✨

이것은 아래 논문에 대한 AI 생성 설명입니다. 저자가 작성하거나 승인한 것이 아닙니다. 기술적 정확성을 위해서는 원본 논문을 참조하세요. 전체 면책 조항 읽기

Each language version is independently generated for its own context, not a direct translation.

🎨 1. 문제: "그림을 그리는 AI 의 고충"

예전부터 AI 는 "빨간 사과"라고 하면 사과를 잘 그렸습니다. 하지만 **"왼쪽에 빨간 사과, 오른쪽에 초록색 배, 그 사이에 노란 꽃이 피어 있는 정원"**처럼 여러 사물이 복잡하게 배치된 지시를 받으면 AI 는 종종 엉뚱한 그림을 그렸습니다.

왜 그럴까요? 기존 AI 는 글자 (텍스트) 를 바로 그림 (픽셀) 으로 변환하는 '직관적인' 방식을 썼습니다. 마치 요리사가 레시피를 읽지 않고 바로 재료를 섞는 것과 같습니다. 복잡한 레시피 (지시사항) 가 들어오면 "사과가 배보다 왼쪽에 있어야지" 같은 공간적 논리를 놓치고, 사과와 배를 뒤섞거나 색상을 잘못 입히는 실수를 범합니다.

🧠 2. 해결책: "생각하는 시간을 가진 AI (GoT)"

이 문제를 해결하기 위해 먼저 **GoT(생성 체인 오브 씽킹)**라는 기술이 등장했습니다. 이는 AI 가 그림을 그리기 전에 중간 단계로 '생각의 과정'을 거치게 한 것입니다.

비유: 이제 AI 는 그림을 그릴 때, 먼저 건축 설계도를 그립니다. "여기에 사과, 저기에 배"라고 좌표와 설명을 적어놓은 뒤, 그 설계도를 보고 그림을 그리는 것입니다.
한계: 하지만 이 '설계도'는 사람이 미리 정해둔 **고정된 양식 (템플릿)**에 맞춰서만 그려졌습니다. 마치 학생이 시험 문제를 풀 때, 정해진 답안지 형식만 따라야 하므로 상황에 맞는 더 좋은 해결책을 스스로 찾아내지 못하는 것과 같습니다.

🚀 3. 혁신: "GoT-R1 (강화 학습을 통한 스스로 배우기)"

이제 이 논문이 제안하는 GoT-R1이 등장합니다. 이 기술은 AI 가 스스로 더 좋은 설계도 (추론 과정) 를 찾아내도록 훈련시킵니다.

🏆 핵심 비유: "요리 대회와 심사위원"

GoT-R1 은 마치 요리 대회를 연상시킵니다.

참가자 (AI): 참가자 (AI) 는 주문 (프롬프트) 을 받습니다.
시도 (생성): 참가자는 여러 가지 다른 방식의 '요리 계획서 (추론)'와 '요리 결과물 (그림)'을 여러 개 만들어냅니다.
심사위원 (MLLM): 여기서 중요한 건 심사위원입니다. 이 심사위원은 **멀티모달 AI(이미지와 글을 모두 이해하는 AI)**입니다.
- 계획서 평가: "주문서에 '왼쪽'이라고 했는데, 계획서에는 '오른쪽'이라고 썼네? 감점!"
- 결과물 평가: "계획서에 '노란 꽃'이라고 했는데, 그림에는 '빨간 꽃'이 있네? 감점!"
- 전체 평가: "요리 자체도 맛없고, 주문서와도 안 맞네?"
보상과 학습 (강화 학습): 심사위원이 점수를 주면, AI 는 높은 점수를 받은 방식은 기억하고 낮은 점수를 받은 방식은 버립니다. 이를 반복하면서 AI 는 사람이 알려주지 않아도 스스로 "어떻게 생각해야 가장 좋은 그림이 나오는지"를 터득하게 됩니다.

✨ 4. GoT-R1 의 특별한 점: "눈으로 보는 공간 감각"

이 논문에서 가장 창의적인 부분은 공간 감각을 평가하는 방법입니다.

문제: AI 에게 "좌표 (x:100, y:200)"라는 숫자만 주면, "왼쪽"인지 "오른쪽"인지 이해하기 어렵습니다.
해결: GoT-R1 은 AI 가 쓴 좌표 숫자를 빈 캔버스에 박스 (상자) 로 그려낸 이미지로 변환해서 심사위원 AI 에게 보여줍니다.
효과: 숫자만 보는 것보다 그림으로 보는 것이 훨씬 직관적이므로, 심사위원 AI 가 "아, 이 박스는 확실히 왼쪽에 있구나!"라고 정확히 판단할 수 있게 됩니다. 이 덕분에 AI 는 공간 배치 능력을 비약적으로 향상시켰습니다.

📈 5. 결과: 무엇이 달라졌나요?

실험 결과, GoT-R1 은 기존 모델들보다 복잡한 그림을 그릴 때 압도적으로 잘했습니다.

기존 모델: "사과와 배가 서로 뒤섞인" 그림을 그렸다면,
GoT-R1: "정확히 왼쪽에 사과, 오른쪽에 배"가 배치된 완벽한 그림을 그립니다.
의미: 이제 AI 는 단순히 그림을 그리는 것을 넘어, 복잡한 지시사항을 논리적으로 분석하고 실행하는 '사고력'을 갖게 되었습니다.

💡 요약

GoT-R1은 그림을 그리는 AI 에게 **"그리기 전에 먼저 생각해보라"**고 가르치고, **"스스로 더 좋은 생각법을 찾아보라"**고 훈련시킨 기술입니다. 마치 숙련된 요리사가 레시피를 단순히 외우는 게 아니라, 재료의 특성과 배치 원리를 이해하여 어떤 주문이 들어와도 완벽하게 요리해내는 것과 같습니다.

이 기술은 앞으로 우리가 AI 에게 더 복잡하고 정교한 그림을 부탁할 때, AI 가 실수 없이 우리의 의도를 정확히 파악해줄 수 있는 기반이 될 것입니다.

Each language version is independently generated for its own context, not a direct translation.

1. 연구 배경 및 문제 정의 (Problem)

최근 텍스트 기반 시각 생성 (Text-to-Image) 모델은 놀라운 발전을 이루었으나, 복합적인 프롬프트 (여러 객체, 정확한 공간적 관계, 속성 결합 등을 명시한 프롬프트) 에 대해서는 여전히 어려움을 겪고 있습니다.

기존 한계: 기존 모델들은 텍스트 임베딩을 직접 시각 특징으로 매핑하는 방식에 의존하여, 장면의 구성적 구조에 대한 명시적인 추론 (Reasoning) 이 부족합니다.
GoT 의 제약: 기존 '생성 체인 오브 씽킹 (Generation Chain-of-Thought, GoT)' 프레임워크는 복잡한 프롬프트를 객체 설명과 좌표로 분해하는 중간 추론 단계를 도입하여 성능을 개선했으나, 이는 인간이 정의한 고정된 템플릿에 의존하는 지도 학습 (Supervised Fine-Tuning, SFT) 방식이었습니다. 이로 인해 모델이 더 효과적인 추론 전략을 자발적으로 발견하는 데 한계가 있었고, 프롬프트와 추론 과정이 불일치하는 경우가 발생했습니다.

2. 제안 방법론 (Methodology)

저자들은 GoT-R1을 제안하며, 강화 학습 (Reinforcement Learning, RL) 을 활용하여 자동 회귀 (Autoregressive) 기반 시각 생성 모델의 의미 - 공간 추론 능력을 향상시킵니다.

A. 기본 아키텍처 및 학습 전략

베이스 모델: 텍스트와 이미지 토큰을 통합적으로 모델링하는 통일형 멀티모달 LLM (Unified MLLM, 예: Janus-Pro) 을 사용합니다.
이단계 학습 (Two-Stage Training):
1. SFT 단계: GoT 데이터셋 (추론 체인과 이미지) 으로 모델을 미세 조정하여 템플릿 기반의 추론 생성 능력을 기릅니다.
2. RL 단계: 강화 학습을 통해 모델이 사전 정의된 템플릿을 넘어 자율적으로 효과적인 추론 전략을 탐색하도록 유도합니다.

B. 강화 학습 알고리즘: GRPO

**Group Relative Policy Optimization (GRPO)**을 적용합니다. 이는 별도의 크리틱 (Critic) 모델 없이, 그룹 내 샘플들 간의 상대적 성능을 비교하여 보상을 정규화하고 정책을 업데이트하는 효율적인 알고리즘입니다.

C. 핵심 혁신: MLLM 기반의 이중 단계 다차원 보상 체계 (Dual-Stage Multi-Dimensional Reward)

시각 생성의 RL 은 결과물 (이미지) 만 평가하는 것만으로는 부족하며, 추론 과정의 일관성이 필수적입니다. 이를 위해 MLLM 을 보상 모델로 활용하여 4 가지 차원의 보상을 설계했습니다.

프롬프트 - 이미지 정렬 보상 ( $R_{PI}$ ): 입력 프롬프트와 생성된 이미지의 전반적인 일치도 (객체, 속성, 레이아웃 등) 를 MLLM 이 평가합니다.
프롬프트 - 추론 정렬 보상 ( $R_{PR}$ ): 입력 프롬프트와 생성된 GoT 추론 체인의 일치도를 평가합니다.
- 의미적 보상 ( $R_{sem}$ ): 프롬프트의 모든 개념이 포함되었는지, 모순은 없는지 평가.
- 공간적 보상 ( $R_{spa}$ ): 핵심 기술로, 텍스트 좌표만으로는 MLLM 이 공간 관계를 잘 이해하지 못한다는 점을 해결하기 위해, 추론된 좌표를 빈 캔버스에 바운딩 박스로 시각화하여 MLLM 이 이미지 형태로 공간 관계를 평가하도록 합니다.
추론 - 이미지 정렬 보상 ( $R_{RI}$ ): 계획된 GoT 추론 (객체 위치) 과 실제 생성된 이미지 간의 정합성을 평가합니다. 생성된 이미지에서 객체 위치를 Grounding 하여 GoT 의 계획된 박스와 IoU(Intersection over Union) 를 계산합니다.
이미지 품질 보상 ( $R_{HPS}$ ): HPS v2.1 모델을 사용하여 생성된 이미지의 미적 품질을 평가합니다.

최종 보상: 위 4 가지 보상을 곱셈 형태로 결합하여 총보상 ( $R_{total}$ ) 을 산출합니다.

3. 주요 기여 (Key Contributions)

GoT-R1 프레임워크 제안: 강화 학습을 통해 자동 회귀 시각 생성 모델이 사전 정의된 템플릿을 넘어 자율적으로 효과적인 의미 - 공간 추론 전략을 발견하도록 합니다.
MLLM 기반 이중 단계 보상 체계: 추론 과정 (중간 단계) 과 최종 이미지 (결과 단계) 를 모두 평가하는 다차원 보상 설계를 통해, 시각 생성 RL 의 고유한 난제 (결과만 최적화할 때 발생하는 추론 - 결과 불일치) 를 해결했습니다. 특히 시각화된 바운딩 박스를 활용한 공간적 보상 평가는 혁신적입니다.
성능 입증: T2I-CompBench 와 GenEval 벤치마크에서 기존 최첨단 모델들을 압도하는 성능을 보여주었으며, 특히 복잡한 공간 관계와 속성 결합 작업에서 큰 개선을 보였습니다.

4. 실험 결과 (Results)

T2I-CompBench: GoT-R1-7B 모델은 6 개 평가 카테고리 중 5 개에서 최상위 점수를 기록했으며, 'Complex compositions' 카테고리에서 기존 모델 대비 최대 15% 향상된 성능을 보였습니다.
GenEval: 전체 점수 0.75 를 기록하여 새로운 SOTA 를 달성했습니다. 특히 'Two-object generation' (0.69→0.94) 과 'Attribute binding' (0.43→0.68) 에서 비약적인 성능 향상을 보였습니다.
일반 이미지 품질: COCO 2014 검증셋에서 CLIP 점수, Aesthetic 점수, 인간 평가 선호도 (77%) 모두에서 기존 모델 (Janus-Pro-7B, GoT-finetuned) 을 능가했습니다.
추론 품질 분석: GPT-4o 를 이용한 평가에서 GoT-R1 이 생성한 '자율 탐색 추론 (Self-explored reasoning)'이 기존 고정 템플릿 기반 추론보다 모든 카테고리에서 압도적으로 선호되었습니다.

5. 의의 및 결론 (Significance)

GoT-R1 은 언어 모델에서 발전된 고급 추론 능력을 시각 생성 영역으로 성공적으로 이전한 사례입니다. 단순히 이미지를 생성하는 것을 넘어, 복잡한 프롬프트의 의도를 정확히 이해하고 공간적, 의미적으로 일관된 추론 과정을 거쳐 이미지를 생성할 수 있는 능력을 입증했습니다. 이는 향후 더 정교하고 맥락에 민감한 시각 콘텐츠 생성을 위한 새로운 방향성을 제시하며, 자동 회귀 기반 생성 모델의 잠재력을 크게 확장시켰습니다.

GoT-R1: Unleashing Reasoning Capability of MLLM for Visual Generation with Reinforcement Learning