A Text-Native Interface for Generative Video Authoring

本文介绍了名为 Doki 的文本原生生成式视频创作界面,它通过让用户在单一文档中直接编写文本来定义素材、构建场景和编辑视频,从而将视频创作过程与自然的写作习惯对齐,并通过部署研究验证了其降低专业门槛、提升可访问性的潜力。

Xingyu Bruce Liu, Mira Dontcheva, Dingzeyu Li

发布于 Wed, 11 Ma
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一个名为 Doki 的全新工具,它彻底改变了我们制作视频的方式。

想象一下,以前制作视频就像是在指挥一支庞大的交响乐团,你需要同时拿着乐谱(剧本)、指挥棒(剪辑软件)、乐器(素材库)和录音设备,还要在几十个不同的窗口之间来回切换,稍微一个音符错了,整个流程可能就要重来。

Doki 则像是一本会魔法的日记本。你只需要像写故事书一样写文字,它就能自动把文字变成视频。

以下是用通俗语言和比喻对这篇论文核心内容的解读:

1. 核心理念:把视频变成“文章”

传统的视频剪辑软件(如 Premiere)界面复杂,像是一个布满按钮和轨道的飞机驾驶舱,新手很难上手。
Doki 则完全不同,它把视频制作变成了写文章

  • 以前:你需要把剧本、图片、声音、时间轴分开管理,就像要把做菜的食材、菜谱、锅碗瓢盆分开放在不同的房间里,做饭时还得跑来跑去。
  • 现在(Doki):所有东西都在同一张纸上。你写的每一段文字,不仅是在讲故事,也是在给 AI 下达指令。文字是“剧本”,也是“施工图纸”。

2. 它是如何工作的?(三个魔法咒语)

Doki 通过三种简单的“魔法符号”来管理视频内容,就像在写小说时做笔记一样:

  • @ 提到(Mentions)= 角色与道具
    • 就像你在写小说时定义主角。你写一次 @柯基犬,并描述它“穿着西装,戴着墨镜”。
    • 魔法效果:以后你在文章的任何地方提到 @柯基犬,AI 都会知道指的是同一个柯基,不会今天长这样,明天长那样。这解决了视频里角色“变脸”的难题。
  • # 标签(Hashtags)= 风格与氛围
    • 就像给照片加滤镜。你定义一个 #赛博朋克风格#黄昏暖光
    • 魔法效果:只要打上这个标签,整个视频或特定场景都会自动变成这种风格,保证视觉统一。
  • / 斜杠菜单 = 召唤 AI 助手
    • 就像在聊天软件里输入 / 呼出菜单。你可以输入 /新镜头 来生成一段新画面,或者 /添加音乐 来插入声音。

3. 两种创作模式:你是“导演”还是“编剧”?

论文中展示了两种使用 Doki 的方式,就像两种不同的创作流派:

  • 模式 A:像写书一样(Alice 模式)
    • 你从零开始,先定义好角色和场景,然后像写小说一样,一段一段地写故事。每写一段,AI 就生成对应的画面。你完全掌控节奏,像一位作家兼导演
  • 模式 B:像给 AI 下指令(Bob 模式)
    • 你只给 AI 一个模糊的想法,比如“讲一个柯基去机场的故事”。AI 的“侧边栏助手”会自动帮你把故事大纲、角色设定甚至分镜头都写出来。你只需要像制片人一样,审阅并修改 AI 生成的草稿。

4. 为什么它很厉害?(用户测试的反馈)

研究人员找了 10 个人(从专业电影人到完全的新手)试用了一周,结果非常惊人:

  • 小白也能变大师:以前不会画画、不会剪辑的人,现在也能在 15 分钟内做出一个 1 分钟的视频故事。就像用文字就能变出电影
  • 效率极高:以前需要几天甚至几周的工作,现在可能只需要几小时。
  • 更有“导演感”:虽然大部分工作由 AI 完成,但用户觉得自己才是创作者。因为他们通过修改文字(剧本)来控制了一切,就像导演通过修改剧本来控制电影一样,而不是被 AI 随机生成的结果牵着走。
  • 故事更连贯:因为使用了“定义”功能,故事里的角色和场景从头到尾保持一致,不会出现“主角突然换衣服”这种低级错误。

5. 它有什么小缺点?(目前的局限)

虽然很神奇,但它也不是完美的:

  • 无法精确控制每一帧:如果你想要非常具体的画面构图(比如“让狗在画面左下角,尾巴必须翘起来”),目前的 AI 可能还是会“猜”错,需要反复尝试。
  • 声音同步有点难:虽然可以加音乐,但让音乐和画面动作完美卡点(比如鼓点正好打在动作上),目前还需要一些技巧。
  • 长视频的挑战:目前生成的视频片段较短,像是一个个精美的“短视频集”,要拼成一部 90 分钟的电影还需要人工后期拼接。

总结

Doki 就像是一个“文字驱动的魔法电影工厂”。

它告诉我们,未来的视频创作可能不再需要复杂的剪辑软件界面,而是回归到人类最擅长的技能——讲故事。你只需要会写字,就能指挥 AI 为你拍电影。这不仅仅是工具的升级,更是创作门槛的彻底消失,让每个人都能成为自己故事的导演。