VisionCreator: A Native Visual-Generation Agentic Model with Understanding, Thinking, Planning and Creation

이 논문은 메타인지 기반 데이터 구축, 점진적 전문화 훈련 및 가상 강화 학습을 통해 이해, 사고, 계획, 생성 (UTPC) 능력을 통합한 'VisionCreator'라는 네이티브 시각 생성 에이전트 모델을 제안하고, 이를 통해 기존 대형 폐쇄형 모델보다 우수한 성능을 입증한 연구입니다.

Jinxiang Lai, Zexin Lu, Jiajun He, Rongwei Quan, Wenzhe Zhao, Qinyu Yang, Qi Chen, Qin Lin, Chuyue Li, Tao Gao, Yuhao Shan, Shuai Shao, Song Guo, Qinglin Lu

게시일 2026-03-04
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

1. 왜 이 AI 가 필요한가요? (기존의 문제점)

지금까지의 AI 들은 크게 세 가지 종류였는데, 각각 약점이 있었습니다.

  • 일반적인 AI (UMM): "사과를 그려줘"라고 하면 사과를 잘 그립니다. 하지만 "사과가 있는 농장 풍경을 그리고, 그걸로 30 초짜리 광고 영상을 만들어줘"라고 하면, 어떻게 시작해야 할지 몰라 당황합니다. (창의적인 기획 능력이 부족함)
  • 작업 지시형 AI (Workflow Agent): "이런 순서대로 그려라"라는 미리 정해진 레시피만 따릅니다. 하지만 레시피에 없는 새로운 요청이 오면 뻔한 답만 내놓거나 실패합니다. (유연성이 없음)
  • 도구 조종사 AI (Workflow-guided): "이 도구 써, 저 도구 써"라고 직접 지시를 내립니다. 하지만 AI 스스로 "왜 이 도구를 써야 하지?"를 깊이 생각하지 못해, 창의적인 이해도가 낮습니다.

비전크리에이터는 이 모든 단점을 해결한 **'완벽한 예술가'**입니다. 단순히 그림만 그리는 게 아니라, **기획 (Thinking), 설계 (Planning), 그리고 실행 (Creation)**까지 스스로 해냅니다.


2. 비전크리에이터의 4 가지 핵심 능력 (UTPC)

이 모델은 네 가지 능력을 하나로 통합했습니다. 마치 한 명의 천재 감독이 다음 네 가지 역할을 모두 수행하는 것과 같습니다.

  1. 이해 (Understanding): 사용자의 말 ("노란색 배경에 웃는 강아지") 을 정확히 파악하고, 디자인 규칙을 이해합니다.
  2. 생각 (Thinking): "강아지가 웃으려면 귀를 어떻게 해야 할까?", "노란색 배경과 어울리는 옷은 뭐지?"라고 깊이 고민합니다.
  3. 계획 (Planning): "먼저 강아지 그림을 그리고, 배경을 칠하고, 마지막에 웃는 표정을 추가하자"처럼 단계별 작전을 세웁니다.
  4. 창조 (Creation): 실제로 그림과 영상을 만들어냅니다.

3. 어떻게 이렇게 똑똑해졌을까? (3 가지 비법)

이 AI 가 이렇게 뛰어날 수 있었던 이유는 세 가지 특별한 훈련 방법 때문입니다.

① '메타인지'를 가진 조교 (VisionAgent) 가 만든 데이터

AI 를 가르치기 위해 필요한 '명품 데이터'가 없었습니다. 그래서 연구팀은 **'메타인지 (자기 생각에 대한 생각)'**를 가진 조교 AI 를 만들었습니다. 이 조교는 "이 그림을 그리려면 어떤 순서가 필요할까?"를 스스로 생각하며 **4,000 개의 고품질 작업 과정 (데이터)**을 만들었습니다.

  • 비유: 요리 학교에서 단순히 레시피만 주는 게 아니라, "왜 이 재료를 먼저 넣지?"라고 생각하며 요리하는 명장들의 과정을 녹화해서 AI 에게 보여준 것입니다.

② 점진적인 전문화 훈련 (PST)

처음부터 전문적인 그림만 그리게 하면, AI 는 "안녕하세요" 같은 기본적인 대화도 잊어버릴 수 있습니다 (망각).

  • 방법: 먼저 일반적인 지식을 쌓게 한 뒤, 점차 예술가로서의 전문성을 키워가는 두 단계 훈련을 했습니다.
  • 비유: 어린아이에게 먼저 '세상 모든 것'을 가르친 뒤, '미술'에 특화시켜 기본기는 잃지 않으면서 최고의 화가로 만든 것입니다.

③ 가상 현실에서의 훈련 (Virtual Reinforcement Learning)

실제 그림을 그리려면 고가의 컴퓨터와 시간이 많이 듭니다. 그래서 연구팀은 **가상 실험실 (VisGenEnv)**을 만들었습니다.

  • 방법: AI 가 이 가상 실험실에서 수천 번의 그림을 그리고, 실패하면 다시 시도하며 스스로 배우게 했습니다.
  • 비유: 실제 비행기를 타고 훈련하면 연료비가 천문학적이지만, 비행 시뮬레이터에서 수천 번 추락하고 다시 이륙하며 조종사가 되는 것과 같습니다. 이 훈련을 통해 AI 는 실제 세상에서도 잘 작동합니다.

4. 결과가 어땠나요? (시험 결과)

연구팀은 VisGenBench라는 새로운 시험지를 만들어 이 AI 를 테스트했습니다.

  • 결과: 이 모델은 **매우 작은 크기 (8B, 32B)**임에도 불구하고, GPT-5 나 Gemini 같은 거대하고 비싼 상용 AI 들보다 더 좋은 점수를 받았습니다.
  • 특징: 특히 일관성 (강아지의 얼굴이 영상 내내 똑같은지) 과 성공률 (요청대로 그림이 잘 나왔는지) 에서 압도적인 성능을 보였습니다.

5. 한 줄 요약

비전크리에이터는 단순히 그림을 그리는 도구가 아니라, **스스로 생각하고 계획을 세워 복잡한 영상과 그림을 만들어내는 '자율 예술가 AI'**입니다.

이 기술은 앞으로 광고 제작, 애니메이션, 게임 개발 등 창의적인 작업을 할 때 인간을 돕는 강력한 파트너가 될 것입니다. 마치 스스로 아이디어를 내고, 시나리오를 짜고, 실제로 영화를 찍어내는 천재 감독 AI가 우리 곁에 온 셈입니다.