VisionCreator: A Native Visual-Generation Agentic Model with Understanding, Thinking, Planning and Creation

本文提出了名为 VisionCreator 的原生视觉生成智能体模型,通过构建高质量数据、采用渐进式专业化训练与虚拟强化学习策略,并建立综合基准测试,实现了理解、思考、规划与创作(UTPC)能力的端到端统一,在多项评估中展现出超越更大规模闭源模型的卓越性能。

Jinxiang Lai, Zexin Lu, Jiajun He, Rongwei Quan, Wenzhe Zhao, Qinyu Yang, Qi Chen, Qin Lin, Chuyue Li, Tao Gao, Yuhao Shan, Shuai Shao, Song Guo, Qinglin Lu

发布于 2026-03-04
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一个名为 VisionCreator 的 AI 新模型。为了让你轻松理解,我们可以把它想象成从“只会画画的学徒”进化成了“全能的艺术总监”。

🎨 核心概念:从“画笔”到“导演”

以前的 AI 绘画工具(比如 Midjourney 或 DALL-E 3),就像是一个只会听指令画图的超级画师

  • 它的局限:如果你说“画一只猫在喝咖啡”,它能画出来。但如果你说“我要做一个关于猫咪开咖啡店的广告,要有分镜、有海报、还要有视频”,它可能会晕头转向,因为它不知道如何把一个大任务拆解成一步步的小任务,也不知道该用什么工具。

VisionCreator 则不同,它不仅仅是一个画师,它是一位拥有“理解、思考、规划、创作”四重能力的艺术总监

  • 理解 (Understanding):它懂你的潜台词,知道“高端大气”是什么意思。
  • 思考 (Thinking):它会像人一样在脑子里过一遍:“做这个视频需要先写脚本,再画分镜,最后生成视频。”
  • 规划 (Planning):它会自动制定一个详细的“施工图纸”,决定先调用哪个工具,后调用哪个工具。
  • 创作 (Creation):它亲自指挥各种工具(比如画图 AI、写视频 AI、剪辑软件)把作品做出来。

🚧 他们遇到了什么大难题?

在造出这个“艺术总监”之前,研究人员遇到了三个大拦路虎:

  1. 没教材 (数据瓶颈)

    • 比喻:你想教一个学生做复杂的蛋糕,但市面上没有“从买面粉到烤好蛋糕”的详细步骤记录,只有零散的“怎么打鸡蛋”的教程。
    • 现状:以前没有高质量的“多步骤创作”数据,AI 学不会怎么规划。
  2. 任务太复杂 (任务难度)

    • 比喻:以前的 AI 只能做“填空题”(画个苹果),现在要求它做“解奥数题”(做一个包含 20 多个步骤的动画短片)。
    • 现状:通用 AI 太泛,不懂专业;专用 AI 太死板,换个任务就不会了。
  3. 学费太贵 (训练困难)

    • 比喻:让 AI 在现实世界里试错,就像让一个新手厨师在真实的厨房里,每次炒菜都要买新的食材,还要付昂贵的电费。试错 100 次,钱就烧光了。
    • 现状:用真实的 AI 工具(如生成视频)训练,成本极高且不稳定。

🛠️ 他们的解决方案:三大法宝

为了解决这些问题,腾讯混元团队拿出了三件“神器”:

1. 造了一本“超级教材” (VisGenData-4k)

  • 怎么做:他们设计了一个叫 VisionAgent 的“超级助教”,利用现有的最强 AI(如 GPT-5 等)来模拟人类专家,自动生成成千上万条“从想法到成品”的完整创作路径。
  • 比喻:就像请了 100 位顶级大厨,让他们把做一道大菜的全过程(切菜、调味、火候、摆盘)都录下来,整理成一本《米其林级烹饪秘籍》。
  • 结果:得到了 4000 条高质量的“创作轨迹”,让 VisionCreator 能照着学。

2. 独特的“两阶段教学法” (PST + VRL)

这是训练的核心,分两步走:

  • 第一阶段:打基础 + 学专长 (PST)
    • 比喻:先让 AI 读万卷书(学习通用逻辑),再让它去厨房实习(学习视觉创作)。如果只实习不读书,它忘了怎么思考;如果只读书不实习,它不会做菜。他们通过特殊的“渐进式”训练,让 AI 既保留了聪明的大脑,又学会了专业的技能。
  • 第二阶段:在“虚拟厨房”里疯狂试错 (VRL)
    • 比喻:为了不让 AI 在真实世界里烧钱,他们建了一个高仿真的虚拟厨房 (VisGenEnv)。在这个虚拟世界里,AI 可以无限次地尝试“炒菜”,失败了也没关系,系统会立刻告诉它“火候大了”或“盐放少了”。
    • 黑科技:他们设计了一套虚拟奖励机制。AI 只要规划得好、步骤对,就能在虚拟世界里拿高分。论文还从数学上证明了:在这个虚拟世界里练得越好,到了现实世界里表现也会越好。

3. 建立了一个“奥斯卡考场” (VisGenBench)

  • 比喻:以前没有统一的考试来衡量 AI 做复杂任务的能力。他们建立了一个包含 1200 个考题的题库(400 个图片任务,800 个视频任务),涵盖了广告、故事、动画等 35 种场景。
  • 结果:在这个考场上,VisionCreator 的表现甚至超过了那些参数大得多的闭源商业模型(如 GPT-5 和 Gemini 2.5 Pro),而且它只有 8B 或 32B 的参数(相当于更轻量、更便宜)。

🌟 总结:这意味着什么?

这篇论文的核心思想是:AI 不再只是被动地执行命令,而是开始学会像人类专家一样“主动思考”和“规划流程”。

  • 以前:你给 AI 一个指令,它给一张图。
  • 现在:你给 AI 一个想法(比如“帮我做一个春节促销视频”),它会自己分析需求、写脚本、画分镜、生成素材、剪辑合成,最后把成品交给你。

这就好比从雇佣一个画工,变成了雇佣了一个全能的创意工作室。这不仅让 AI 能处理更复杂的任务,还大大降低了人类在创意工作中的门槛,让每个人都能轻松拥有“导演”的能力。