VisionCreator: A Native Visual-Generation Agentic Model with Understanding, Thinking, Planning and Creation

Each language version is independently generated for its own context, not a direct translation.

1. 왜 이 AI 가 필요한가요? (기존의 문제점)

지금까지의 AI 들은 크게 세 가지 종류였는데, 각각 약점이 있었습니다.

일반적인 AI (UMM): "사과를 그려줘"라고 하면 사과를 잘 그립니다. 하지만 "사과가 있는 농장 풍경을 그리고, 그걸로 30 초짜리 광고 영상을 만들어줘"라고 하면, 어떻게 시작해야 할지 몰라 당황합니다. (창의적인 기획 능력이 부족함)
작업 지시형 AI (Workflow Agent): "이런 순서대로 그려라"라는 미리 정해진 레시피만 따릅니다. 하지만 레시피에 없는 새로운 요청이 오면 뻔한 답만 내놓거나 실패합니다. (유연성이 없음)
도구 조종사 AI (Workflow-guided): "이 도구 써, 저 도구 써"라고 직접 지시를 내립니다. 하지만 AI 스스로 "왜 이 도구를 써야 하지?"를 깊이 생각하지 못해, 창의적인 이해도가 낮습니다.

비전크리에이터는 이 모든 단점을 해결한 **'완벽한 예술가'**입니다. 단순히 그림만 그리는 게 아니라, **기획 (Thinking), 설계 (Planning), 그리고 실행 (Creation)**까지 스스로 해냅니다.

2. 비전크리에이터의 4 가지 핵심 능력 (UTPC)

이 모델은 네 가지 능력을 하나로 통합했습니다. 마치 한 명의 천재 감독이 다음 네 가지 역할을 모두 수행하는 것과 같습니다.

이해 (Understanding): 사용자의 말 ("노란색 배경에 웃는 강아지") 을 정확히 파악하고, 디자인 규칙을 이해합니다.
생각 (Thinking): "강아지가 웃으려면 귀를 어떻게 해야 할까?", "노란색 배경과 어울리는 옷은 뭐지?"라고 깊이 고민합니다.
계획 (Planning): "먼저 강아지 그림을 그리고, 배경을 칠하고, 마지막에 웃는 표정을 추가하자"처럼 단계별 작전을 세웁니다.
창조 (Creation): 실제로 그림과 영상을 만들어냅니다.

3. 어떻게 이렇게 똑똑해졌을까? (3 가지 비법)

이 AI 가 이렇게 뛰어날 수 있었던 이유는 세 가지 특별한 훈련 방법 때문입니다.

① '메타인지'를 가진 조교 (VisionAgent) 가 만든 데이터

AI 를 가르치기 위해 필요한 '명품 데이터'가 없었습니다. 그래서 연구팀은 **'메타인지 (자기 생각에 대한 생각)'**를 가진 조교 AI 를 만들었습니다. 이 조교는 "이 그림을 그리려면 어떤 순서가 필요할까?"를 스스로 생각하며 **4,000 개의 고품질 작업 과정 (데이터)**을 만들었습니다.

비유: 요리 학교에서 단순히 레시피만 주는 게 아니라, "왜 이 재료를 먼저 넣지?"라고 생각하며 요리하는 명장들의 과정을 녹화해서 AI 에게 보여준 것입니다.

② 점진적인 전문화 훈련 (PST)

처음부터 전문적인 그림만 그리게 하면, AI 는 "안녕하세요" 같은 기본적인 대화도 잊어버릴 수 있습니다 (망각).

방법: 먼저 일반적인 지식을 쌓게 한 뒤, 점차 예술가로서의 전문성을 키워가는 두 단계 훈련을 했습니다.
비유: 어린아이에게 먼저 '세상 모든 것'을 가르친 뒤, '미술'에 특화시켜 기본기는 잃지 않으면서 최고의 화가로 만든 것입니다.

③ 가상 현실에서의 훈련 (Virtual Reinforcement Learning)

실제 그림을 그리려면 고가의 컴퓨터와 시간이 많이 듭니다. 그래서 연구팀은 **가상 실험실 (VisGenEnv)**을 만들었습니다.

방법: AI 가 이 가상 실험실에서 수천 번의 그림을 그리고, 실패하면 다시 시도하며 스스로 배우게 했습니다.
비유: 실제 비행기를 타고 훈련하면 연료비가 천문학적이지만, 비행 시뮬레이터에서 수천 번 추락하고 다시 이륙하며 조종사가 되는 것과 같습니다. 이 훈련을 통해 AI 는 실제 세상에서도 잘 작동합니다.

4. 결과가 어땠나요? (시험 결과)

연구팀은 VisGenBench라는 새로운 시험지를 만들어 이 AI 를 테스트했습니다.

결과: 이 모델은 **매우 작은 크기 (8B, 32B)**임에도 불구하고, GPT-5 나 Gemini 같은 거대하고 비싼 상용 AI 들보다 더 좋은 점수를 받았습니다.
특징: 특히 일관성 (강아지의 얼굴이 영상 내내 똑같은지) 과 성공률 (요청대로 그림이 잘 나왔는지) 에서 압도적인 성능을 보였습니다.

5. 한 줄 요약

비전크리에이터는 단순히 그림을 그리는 도구가 아니라, **스스로 생각하고 계획을 세워 복잡한 영상과 그림을 만들어내는 '자율 예술가 AI'**입니다.

이 기술은 앞으로 광고 제작, 애니메이션, 게임 개발 등 창의적인 작업을 할 때 인간을 돕는 강력한 파트너가 될 것입니다. 마치 스스로 아이디어를 내고, 시나리오를 짜고, 실제로 영화를 찍어내는 천재 감독 AI가 우리 곁에 온 셈입니다.

Each language version is independently generated for its own context, not a direct translation.

1. 문제 정의 (Problem Statement)

기존의 시각적 콘텐츠 생성 (Visual Content Creation) 분야는 다음과 같은 한계점을 가지고 있었습니다:

범용 멀티모달 모델 (UMM) 의 부족: 대규모 사전 학습을 통해 시각적 이해는 뛰어나지만, 자율적인 창의적 계획 (Creative Planning) 에 필요한 도메인 특화 지식이 부족하며, 복잡한 작업을 프롬프트 엔지니어링 없이 분해하는 데 어려움을 겪습니다.
워크플로우 기반 에이전트의 경직성: 영화 생성이나 스토리 제작 등 특정 도메인에 최적화된 에이전트는 정의된 파이프라인에 의존하여 다양한 창의적 작업이나 예상치 못한 실행 결과에 적응하지 못합니다.
워크플로우 가이드 에이전트의 한계: 외부 도구를 프롬프트로 조율하는 방식은 창의적 이해 깊이가 부족하고, 명시적으로 프로그래밍된 조정 로직으로 인해 적응성이 떨어지며, 생성 작업 성능을 위해 엔드 - 투 - 엔드 (End-to-End) 로 공동 최적화하기 어렵습니다.
데이터 및 학습의 병목: 시각적 콘텐츠 생성 에이전트 훈련을 위한 고품질 데이터셋 (도구 호출을 통한 생성 궤적) 이 부재하며, 실제 도구를 이용한 강화 학습 (RL) 은 비용이 너무 많이 들고 불안정합니다.

2. 제안 방법론 (Methodology)

저자들은 VisionCreator라는 네이티브 시각 생성 에이전트 모델을 제안하며, **이해 (Understanding), 사고 (Thinking), 계획 (Planning), 생성 (Creation)**의 4 가지 능력을 통합된 엔드 - 투 - 엔드 학습 프레임워크로 결합합니다.

가. 데이터 구축: VisGenData-4k

메타인지 기반 VisionAgent: GPT-5, Veo3 등 상용 모델을 활용하여 20k 개의 쿼리에서 16k 개의 궤적을 생성한 후, 자동 필터링 (LtrReward, VLM-Grader) 과 인간 전문가 검수를 거쳐 4k 개의 고품질 궤적으로 구성된 VisGenData-4k를 구축했습니다.
UTPC 구조: 데이터는 작업 이해, 창의적 제약 조건에 대한 사고, 다단계 실행 궤적 계획, 시각적 콘텐츠 생성이라는 명시적인 구조를 따릅니다.
통계: 평균 15 단계, 64% 는 20 단계 이상인 복잡한 궤적과 21 가지 다양한 작업 유형 (스토리보드, 마케팅 영상 등) 을 포함합니다.

나. 학습 프레임워크: PST 및 VRL

점진적 전문화 훈련 (Progressive Specialization Training, PST):
- 1 단계 (일반 기반 학습): 대규모 일반 추론 데이터와 시각 생성 데이터의 혼합으로 일반적 추론 능력을 유지하면서 시각 에이전트 도메인에 대한 초기 정렬을 수행합니다.
- 2 단계 (표적 전문화): 시각 생성 데이터의 비중을 높여 전문성을 강화하되, 일반 데이터의 노출을 통해 '재앙적 망각 (Catastrophic Forgetting)'을 방지합니다.
- 효과: RL 학습을 위한 초기 정책 (Policy) 을 0.64 에서 0.87 로 향상시켜 RL 수렴 속도를 약 50% 단축합니다.
가상 강화 학습 (Virtual Reinforcement Learning, VRL):
- VisGenEnv: 36 가지 시각 생성 도구를 고충실도로 시뮬레이션하는 가상 환경을 구축합니다. 실제 API 호출 없이 랜덤 미디어 데이터베이스에서 속성만 일치하는 파일을 반환하여 수천 개의 GPU 비용을 절감합니다.
- LtrReward (Long Trajectory Reasoning Reward): 계획의 정확성 (Plan Reward) 과 실행의 세밀한 구조적 유효성 (Fine-grained Reward) 을 결합한 보상 함수를 설계합니다. 특히 **계획 주도 보상 (Plan-Driven Reward)**을 도입하여, 유효한 계획 없이는 높은 보상을 받지 못하게 하여 인과적 의존성을 강화합니다.
- 이론적 근거: 시뮬레이션과 현실 간의 전이 오차 (Sim-to-Real Gap) 를 도구 능력 ( $C_{tool}$ ), 계획 충분성 ( $\Phi_{plan}$ ), PST 사전 지식 ( $\pi_{pst}$ ) 등의 변수로 수학적으로 증명하여, 가상 환경 학습이 실제 성능 향상으로 이어질 수 있음을 보장합니다.

3. 주요 기여 (Key Contributions)

VisionCreator 모델: UTPC 능력을 통합한 최초의 네이티브 시각 생성 에이전트 모델 (8B/32B 파라미터).
VisGenData-4k: 메타인지 기반 VisionAgent 를 통해 구축된 고품질 UTPC 구조의 대규모 학습 데이터셋.
PST 및 VRL 학습 전략: 점진적 전문화 훈련과 가상 환경 기반 강화 학습을 결합하여 복잡한 생성 궤적을 안정적이고 효율적으로 학습하는 방법론.
VisGenBench: 1,200 개의 테스트 샘플 (이미지 400, 비디오 800) 로 구성된 종합 벤치마크. 10 가지 평가 차원과 35 개 이상의 실제 시나리오를 포함하여 다단계 시각 생성 능력을 표준화하여 평가합니다.

4. 실험 결과 (Results)

VisGenBench를 통한 평가 결과, VisionCreator 는 파라미터 수가 훨씬 큰 폐쇄형 상용 모델들을 능가하는 성능을 입증했습니다.

VLM 평가 (자동화):
- VisionCreator-8B는 성공률 (Success Rate) 0.925 를 기록하여 GPT-5 (0.863) 를 상회하고 Gemini2.5-Pro (0.933) 에 근접했습니다.
- 객체 일관성 (Object Consistency) 과 장면 일관성 (Scene Consistency) 에서 모든 비교 모델 중 최고 점수를 기록했습니다.
인간 평가 (Human Evaluation):
- VisionCreator-32B는 전체 점수 (Overall Score) 3.42 로 GPT-5 (3.19) 와 Gemini2.5-Pro (3.01) 를 압도했습니다.
- 이미지 생성 (99% 성공률) 과 비디오 생성 (96% 성공률) 모두에서 높은 성공률과 인간 평가 점수를 동시에 달성했습니다.
Ablation Study:
- PST 없이 단일 단계 SFT 를 수행할 경우 성능이 급격히 저하됨을 확인 (0.007).
- 가상 강화 학습 (VRL) 을 적용한 모델 (RL4) 은 SFT 기반 모델 대비 전체 점수를 49% 향상시켰습니다.

5. 의의 및 결론 (Significance)

패러다임 전환: 사전 정의된 워크플로우나 외부 도구 조율에 의존하던 기존 접근법을 넘어, 이해 - 사고 - 계획 - 생성을 내재화한 네이티브 에이전트 아키텍처의 가능성을 입증했습니다.
효율성: 고비용의 실제 도구 호출 없이 가상 환경 (VisGenEnv) 과 이론적으로 검증된 보상 함수를 통해 복잡한 장기 계획 (Long-horizon) 작업을 학습할 수 있는 방법을 제시했습니다.
미래 연구의 기초: 시각 생성 에이전트 시스템과 자율적 창의적 콘텐츠 생성 분야의 표준 벤치마크 (VisGenBench) 와 데이터셋 (VisGenData-4k) 을 공개하여 향후 연구의 토대를 마련했습니다.

이 논문은 대규모 언어 모델 기반 에이전트가 단순한 도구를 조율하는 것을 넘어, 복잡한 창의적 작업을 스스로 계획하고 실행할 수 있는 진정한 '생성 에이전트'로 진화할 수 있음을 보여주는 중요한 이정표입니다.