From "What" to "How": Constrained Reasoning for Autoregressive Image Generation

이 논문은 기존 생성 모델의 공간적 모호성을 해결하기 위해 입력 프롬프트에서 시각적 제약 조건을 유도하여 '그리는 방법 (How)'을 먼저 추론한 뒤 '무엇을 그릴지 (What)'를 생성하는 'CoR-Painter' 프레임워크와 듀얼-목표 GRPO 전략을 제안하여 자동회귀 이미지 생성의 공간적 일관성과 성능을 획기적으로 개선했습니다.

Ruxue Yan, Xubo Liu, Wenya Guo, Zhengkun Zhang, Ying Zhang, Xiaojie Yuan

게시일 2026-03-04
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

🎨 1. 기존 기술의 문제: "무엇 (What)"에만 집중한 화가

기존의 인공지능 (예: T2I-R1 등) 은 그림을 그릴 때 사용자의 명령어 (프롬프트) 를 보고 **"무엇을 그릴지"**만 나열하는 방식이었습니다.

  • 상황: "빨간 배낭 위에 파란 물병이 있어요."라고 명령했다고 칩시다.
  • 기존 AI 의 생각: "아, 배낭이 필요하고 물병이 필요하고, 빨간색과 파란색이 필요하구나. 알겠어!"
  • 결과: AI 는 물병과 배낭의 모양, 색깔은 아주 잘 그립니다. 하지만 어디에 둘지에 대한 명확한 규칙이 없어서, 물병이 배낭 안에 들어있거나, 배낭이 물병 위에 뒤집혀 있거나, 심지어 물병이 두 개나 생겨서 엉뚱하게 겹쳐지는 어이없는 실수를 자주 저지릅니다.

비유: 마치 **"재료만 챙겨온 요리사"**와 같습니다. "소금, 고기, 야채를 넣어라"라고 하면 다 넣기는 하지만, 어떤 순서로 넣고 어떻게 조리할지에 대한 레시피가 없어서 요리가 망가집니다.


🧠 2. 새로운 해결책: CoR-Painter ("어떻게 (How)"를 먼저 생각하는 화가)

이 논문에서 제안한 CoR-Painter는 화가가 그림을 그릴 때 먼저 **구도 (Composition)**를 잡는 것처럼, **"어떻게 그릴지"**에 대한 제약 조건을 먼저 정합니다.

이 과정을 "How-to-What(어떻게 → 무엇)" 패러다임이라고 부릅니다.

🖌️ 단계 1: "어떻게 그릴까?" (구도 잡기)

AI 는 그림을 그리기 전에 먼저 **지시명령 (제약 조건)**을 세웁니다.

  • "물병은 배낭의 정확히 위쪽에 놓여야 해."
  • "배낭은 배경이 되고 물병은 주인공이 되어야 해."
  • "색감은 밝은 야외 분위기로."

비유: 요리사가 재료를 넣기 전에 **"먼저 고기를 굽고, 그 위에 야채를 올리고, 마지막에 소금을 뿌리는 순서"**를 정하는 것과 같습니다.

🖌️ 단계 2: "무엇을 그릴까?" (상세 묘사)

이제 이 '어떻게'라는 규칙을 바탕으로 "무엇을" 구체적으로 묘사합니다.

  • "밝은 야외에서, 배낭 위에 깔끔하게 놓인 파란 물병과 거친 질감의 빨간 배낭을 그리자."

이렇게 하면 AI 는 혼란 없이 정확한 위치에 정확한 물체를 그릴 수 있게 됩니다.


🏆 3. 왜 이렇게 잘할 수 있을까? (두 가지 목표의 보상 시스템)

AI 가 이 방식을 배우게 하기 위해 연구팀은 **두 가지 목표를 동시에 칭찬하는 시스템 (Dual-Objective GRPO)**을 만들었습니다.

  1. 글쓰기 점수 (Reasoning Reward): "제약 조건을 잘 세웠니? (예: 물병이 배낭 위에 있다는 걸 명확히 했니?)"
  2. 그림 점수 (Visual Reward): "그림이 글대로 잘 그려졌니? (예: 물병이 실제로 배낭 위에 있니?)"

비유: 요리사에게 **"레시피를 잘 적었니?"**와 "요리 맛이 좋니?" 두 가지 점수를 모두 매겨주는 것입니다. 이 두 가지 점수를 모두 잘 받으면 AI 는 점점 더 똑똑해집니다.


💡 4. 요약: 이 기술이 가져온 변화

이 논문은 **"생각의 순서"**를 바꾸어 인공지능의 그림 실력을 획기적으로 높였습니다.

  • 기존: "무엇을 그릴까?" → (혼란) → 엉뚱한 그림
  • CoR-Painter: "어떻게 그릴까?" (규칙 세우기) → "무엇을 그릴까?" (구체화) → 완벽한 그림

이 방법은 특히 **물체들의 위치 관계 (누가 누구 위에 있는지, 왼쪽인지 오른쪽인지)**가 중요한 복잡한 그림을 그릴 때, 기존 기술보다 훨씬 정확하고 자연스러운 결과를 보여줍니다.

한 줄 요약:

"그림을 그릴 때, '무엇'을 그릴지 고민하기 전에 '어떻게' 배치할지 먼저 구상하는 AI 화가가 등장했습니다!"