VisionCreator: A Native Visual-Generation Agentic Model with Understanding, Thinking, Planning and Creation

Each language version is independently generated for its own context, not a direct translation.

この論文は、**「VisionCreator（ビジョン・クリエイター）」**という、新しいタイプの AI について紹介しています。

一言で言うと、**「ただ絵を描くだけでなく、企画から完成まで、まるで人間のクリエイターのように『考え、計画し、実行する』ことができる AI」**です。

難しい専門用語を避け、日常の例えを使ってわかりやすく解説しますね。

🎨 1. これまでの AI と何が違うの？（3 つのタイプ）

これまでの「絵や動画を作る AI」には、大きく分けて 3 つのタイプがありました。

万能な天才（一般モデル）：
- 例え： 何でも知っている「博学な教授」。
- 特徴： 知識は豊富ですが、「じゃあ、この企画を実現するために、まず何をどうすればいい？」という**具体的な手順（プラン）**を自分で立てるのは苦手です。指示を細かく書かないと動けません。
特定の職人（ワークフロー特化型）：
- 例え： 「寿司職人」や「パン屋」。
- 特徴： 決まった手順（レシピ）なら完璧に作れます。でも、**「新しい種類の料理」を頼まれたら、レシピがないので作れません。**柔軟性がありません。
指示役のマネージャー（外部ツール連携型）：
- 例え： 道具を渡すだけの「アシスタント」。
- 特徴： 人間が「まずこれを使って、次にあれを使って」と指示を出すと動きます。でも、「なぜその手順なのか」という深い理解や、失敗した時の臨機応変な対応が苦手です。

🚀 2. VisionCreator のすごいところ：UTPC 構造

VisionCreator は、これら 3 つの弱点をすべて克服した**「本物のクリエイター」を目指しています。その能力は「UTPC」**という 4 つのステップで構成されています。

U (Understanding) 理解： 依頼者の「こんな雰囲気のポスターが欲しい」という意図を深く読み取ります。
T (Thinking) 思考： 「じゃあ、まず背景を描いて、次に文字を入れて、最後に色を調整しよう」と頭の中でシミュレーションします。
P (Planning) 計画： 複雑な作業を「ステップ 1, 2, 3...」と具体的な手順書に落とし込みます。
C (Creation) 作成： 実際の絵や動画を作り上げます。

🌟 比喩：
これまでの AI が「絵筆を握るだけ」だったのに対し、VisionCreator は**「監督兼脚本家兼撮影監督」**として、企画から撮影、編集までを一人で完結させることができます。

🛠️ 3. どうやって这么すごい AI を作ったの？（3 つの工夫）

この AI を作るには、3 つの大きな壁を乗り越える必要がありました。

① 壁：「良いデータの不足」

問題： AI に教えるための「素晴らしいクリエイターの思考プロセス（データ）」が足りませんでした。
解決策： **「メタ認知（メタ思考）ができる AI」**を使って、人間が「どう考えれば良いか」をシミュレーションし、**4,000 件もの高品質な「創作の道筋（データ）」**を自動で作りました。
- 例え： 料理のレシピ本がなかったから、料理の名人が「どうやって考えながら料理しているか」を 4,000 回シミュレーションして、最高のレシピ集を作った感じです。

② 壁：「いきなり本番は難しい」

問題： いきなり本物の絵を描く AI に「計画を立てて」と言っても、失敗ばかりで学習が進みません。
解決策： **「段階的な専門化トレーニング（PST）」と「仮想シミュレーター」**を使いました。
- PST： まず「一般的な知恵」を身につけさせ、その後「クリエイティブな仕事」に特化させる。
- 仮想シミュレーター： 本物の絵を描くのは高価で時間がかかります。そこで、**「絵を描く AI の動きを完璧に模倣した仮想の練習場」**を作りました。ここで何千回も失敗して練習させ、本番では失敗しないようにしました。
- 例え： 飛行機のパイロット訓練のように、まずは「フライトシミュレーター」で何千回も練習してから、本物の飛行機（本物の AI）を操縦させる感じです。

③ 壁：「評価の難しさ」

問題： 「この絵は良いか？」を AI が自動で判断するのは難しい。
解決策： **「計画の正しさを評価する報酬」**を導入しました。
- 単に「絵が綺麗」かどうかだけでなく、「手順が論理的か？」「必要な道具を正しく使ったか？」を評価します。
- 例え： 料理の味だけでなく、「下準備が適切だったか？火加減は適切だったか？」というプロセス全体を評価して、上手な料理人を育てる感じです。

🏆 4. 結果：どんなにすごい？

彼らは**「VisGenBench」**という新しいテストを作りました。これは、複雑な指示（例：「3 つのキャラクターが登場する、ストーリーのある 1 分間のアニメを作れ」）をこなす力を測るテストです。

結果：
- 小さなモデル（8B や 32B）なのに、巨大な有料モデル（GPT-5 や Gemini 2.5-Pro）よりも高いスコアを出しました。
- 特に「計画通りに実行できたか（成功率）」や「キャラクターの顔が途中で変わらなかったか（一貫性）」において、圧倒的な強さを見せました。

💡 まとめ

この論文が伝えているのは、**「AI に『絵を描く技術』だけでなく、『考える力』と『計画する力』を内蔵させれば、人間のように複雑なクリエイティブな仕事もできるようになる」**ということです。

VisionCreator は、単なる「絵描き AI」ではなく、**「あなたのアイデアを、頭の中でシミュレーションし、完璧な手順で形にする、頼れるクリエイティブ・パートナー」**なのです。

これからの AI は、ただの「道具」から、「一緒に考えてくれる仲間」へと進化していく第一歩と言えるでしょう。

Each language version is independently generated for its own context, not a direct translation.

）、実行可能なタスクシーケンスの構築（）、ツール呼び出し（）、目標達成の検証（`）の 4 つの段階を経て、UTPC 構造を持つ軌跡を生成。

データ選別: 2 万のクエリから 1 万 6 千の軌跡を生成し、自動評価と人間の専門家による厳格な審査を経て、4,000 件の高品質な軌跡（VisGenData-4k）を抽出しました。平均 15 ステップ、64% が 20 ステップ超の複雑なタスクを含みます。

2.2 トレーニング手法: 段階的専門化トレーニング (PST) と仮想強化学習 (VRL)

モデルの学習は 2 段階で行われます。

Progressive Specialization Training (PST):
- 目的: 汎用的な推論能力を維持しつつ、視覚生成の専門性を獲得すること。
- 手法: 2 段階のカリキュラム学習。
  - Stage 1: 汎用データと視覚データの混合で基盤を構築。
  - Stage 2: 視覚データの比率を高め、専門性を深化させる。
- 効果: 単一段階の SFT では発生する「一般能力の忘却（Catastrophic Forgetting）」を防ぎ、RL 学習の初期報酬を 0.64 から 0.87 へ向上させ、収束を約 50% 高速化しました。
Virtual Reinforcement Learning (VRL) with LtrReward:
- 環境: VisGenEnvという高忠実度の仮想環境を構築。36 種類の視覚生成ツールをシミュレートし、実際の GPU 使用を伴わずに数千の GPU 資源を節約しながら学習可能にしました。
- 報酬設計 (LtrReward):
  - Plan Reward ( $R_{plan}$ ): 計画の論理的整合性、実行可能性、専門家のベストプラクティスへの適合度を評価。
  - Fine-grained Reward ( $R_{fine}$ ): 構造的な正しさ（フォーマット、ツール呼び出し成功）と結果の達成度を評価。
  - Plan-Driven Reward: 計画と実行を掛け合わせることで、計画が正しく実行された場合にのみ高い報酬を得られるように設計。
- 理論的保証: シミュレーションから実世界への転移（Sim-to-Real Transfer）の誤差を理論的に解析し、ツール能力 ( $C_{tool}$ ) と計画の十分性 ( $\Phi_{plan}$ ) が転移損失を抑制することを証明しました。

3. 評価ベンチマーク: VisGenBench

多段階の視覚生成タスクを評価するための包括的なベンチマークを提案しました。

構成: 1,200 件のテストサンプル（画像生成 400 件、動画生成 800 件）。
評価軸: 10 の評価次元（創造的マッチング、オブジェクト/シーン/スタイルの一貫性など）と 35 以上の実世界シナリオを網羅。
評価方法: 客観的指標（成功率、基本属性）と、Gemini2.5-Pro を用いた主観的評価（VLM-Grader）および人間による評価を組み合わせ、人間との評価の整合性を確保しました。

4. 実験結果 (Results)

VisGenBench における評価結果は、VisionCreator の卓越した性能を示しています。

VLM 評価による結果:
- VisionCreator-8Bは、GPT-5 や Gemini2.5-Pro といった大規模なクローズドソースモデルと同等、あるいはそれ以上の性能を発揮しました。
- 特に**成功率 (Success Rate)**は 0.925（GPT-5 は 0.863）を記録し、タスク完了の信頼性が高いことを示しました。
- **一貫性 (Consistency)**においても、オブジェクトやシーンの維持において他モデルを上回るスコアを達成しました。
人間評価による結果:
- VisionCreator-32Bは、総合スコアで 3.42（GPT-5: 3.19, Gemini2.5-Pro: 3.01）を記録し、すべてのモデルの中で最高性能を示しました。
- 画像成功率 99%、動画成功率 96% という高い成功率に加え、人間評価者からも高品質な出力として評価されました。
アブレーション研究:
- PST の有効性：PST を用いない場合、性能が著しく低下することが確認されました。
- VRL の効果：VRL を導入したモデルは、SFT 単独のモデルよりも大幅に性能が向上しました。
- 報酬設計：計画と実行を結びつけた報酬設計（Plan-Driven Reward）が、成功率と総合スコアの向上に寄与しました。

5. 意義と結論 (Significance)

この研究は、視覚生成エージェントの分野において以下の点で重要な意義を持っています。

ネイティブ・エージェント・アーキテクチャの確立: 外部ツールやワークフローに依存せず、モデル内部で「理解・思考・計画・生成」を統合的に学習するネイティブなアプローチの有効性を実証しました。
効率的な学習パラダイム: 高コストな実環境 RL を回避しつつ、PST と VRL を組み合わせることで、複雑な創造的タスクを安定的かつ効率的に学習できる手法を確立しました。
高品質なデータとベンチマークの提供: メタ認知に基づくデータ生成手法（VisGenData-4k）と、多段階タスク評価のための標準ベンチマーク（VisGenBench）は、今後の研究の基盤となります。
パラメータ効率の良さ: 8B/32B モデルが、はるかに大規模な商用モデルを凌駕する性能を示したことは、適切なアーキテクチャとトレーニング手法が、パラメータ数以上の価値を生み出す可能性を示唆しています。

総じて、VisionCreator は、自律的な創造的コンテンツ生成を実現するための強力な基盤を提供し、将来的な視覚生成エージェントシステムの発展に寄与すると期待されます。

VisionCreator: A Native Visual-Generation Agentic Model with Understanding, Thinking, Planning and Creation

🎨 1. これまでの AI と何が違うの？（3 つのタイプ）

🚀 2. VisionCreator のすごいところ：UTPC 構造

🛠️ 3. どうやって这么すごい AI を作ったの？（3 つの工夫）

① 壁：「良いデータの不足」

② 壁：「いきなり本番は難しい」

③ 壁：「評価の難しさ」

🏆 4. 結果：どんなにすごい？

💡 まとめ

2.2 トレーニング手法: 段階的専門化トレーニング (PST) と仮想強化学習 (VRL)

3. 評価ベンチマーク: VisGenBench

4. 実験結果 (Results)

5. 意義と結論 (Significance)

関連論文

Model2Kernel: Model-Aware Symbolic Execution For Safe CUDA Kernels

Algorithmic Barriers to Detecting and Repairing Structural Overspecification in Adaptive Data-Structure Selection

Zero-Cost NDV Estimation from Columnar File Metadata

Persistence-based topological optimization: a survey

Multi-LLM Query Optimization