COMIC: Agentic Sketch Comedy Generation

该论文提出了一种名为"COMIC"的全自动 AI 系统,通过模拟真实制作团队的智能体协作机制,并结合基于 YouTube 喜剧视频语料库训练的 LLM 批评家进行迭代优化,成功生成了质量接近专业水准的短喜剧视频。

Susung Hong, Brian Curless, Ira Kemelmacher-Shlizerman, Steve Seitz

发布于 Thu, 12 Ma
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一个名为 COMIC 的超级有趣的 AI 系统。简单来说,它的目标不是写代码或解数学题,而是全自动地制作像《周六夜现场》(SNL)那样的搞笑小品视频

想象一下,如果你给这个系统几个演员的照片、声音和一段简单的剧情描述(比如“一个警察在实验室找丢失的仪器”),COMIC 就能自动写出剧本、分配角色、生成视频,最后让你捧腹大笑。

为了让你更容易理解,我们可以把 COMIC 想象成一个**“拥有超级大脑的虚拟喜剧工厂”**。以下是它的工作原理,用几个生动的比喻来解释:

1. 核心难题:AI 为什么很难“搞笑”?

以前的 AI 写笑话,就像是一个只会背“冷笑话大全”的机器人,讲出来的梗要么很老套,要么让人尴尬得脚趾扣地。

  • 难点:幽默是非常主观的。你觉得好笑,别人可能觉得无聊。而且,搞笑需要很多种风格:有的靠夸张的肢体动作(像卓别林),有的靠冷面幽默(像死鱼眼),有的靠荒诞无厘头。
  • COMIC 的解法:它不试图找一个“标准答案”,而是模仿人类喜剧工作室的运作模式——通过“内卷”和“竞争”来进化

2. 工厂里的“员工”:多智能体协作

COMIC 不是一个单一的 AI,而是一群扮演不同角色的 AI 特工组成的团队:

  • 编剧(Writer):负责想点子、写剧本。
  • 导演(Director):负责把剧本变成具体的画面,决定镜头怎么拍。
  • 配音(Voice):给角色配上声音。
  • 毒舌评论家(Critic):这是最关键的!它们不是普通的 AI,而是专门研究人类喜欢什么笑点的“评委”

3. 核心机制:三个神奇的“魔法”

魔法一:岛屿大乱斗(Island Evolution)

想象一下,COMIC 把编剧们分成了几个互不相通的“岛屿”。

  • 普通做法:所有编剧在一个大房间里开会,最后选出一个最好的。
  • COMIC 的做法:每个岛屿由一群风格不同的“评论家”把守。
    • 岛屿 A 的评论家喜欢“冷幽默”。
    • 岛屿 B 的评论家喜欢“无厘头”。
    • 岛屿 C 的评论家喜欢“讽刺”。
  • 过程:编剧们在各自的岛屿上写剧本,然后进行“擂台赛”。输掉的剧本会被评论家批评,然后修改,再和赢了的剧本比拼。
  • 结果:就像生物进化一样,剧本在不断的“优胜劣汰”中变得越来越好笑,而且风格多样,不会千篇一律。

魔法二:懂观众的“毒舌评委”

怎么知道哪个剧本好笑?以前的 AI 只能瞎猜。

  • COMIC 的做法:它先“偷师”了 YouTube 上成千上万个真实的小品视频。它分析了哪些视频点赞多、观看量大,然后训练出一批**“懂行”的 AI 评委**。
  • 比喻:这就像是从几千个真实的观众中,提炼出了几个“最懂幽默的评论家”。当 AI 生成新剧本时,这些评委就会说:“这个不好笑,观众不会笑,重写!”或者“这个梗很好,但节奏不对,改一下!”
  • 关键:这些评委不是死板的,它们会根据不同的喜剧风格(比如像《周六夜现场》还是像《Key & Peele》)调整评判标准。

魔法三:视频生成的“精修车间”

有了好剧本,怎么拍成视频?现在的 AI 视频生成通常只能做几秒的片段,而且人物容易变脸。

  • COMIC 的做法:它像拍电影一样,把剧本拆成一个个镜头(Shot)。
  • 过程
    1. 导演先画分镜(Storyboard)。
    2. 生成器生成第一版视频。
    3. 视频评委挑刺:“这个角色的衣服颜色不对”、“背景里的咖啡机太假了”、“表情不够滑稽”。
    4. 修正:AI 根据批评重新生成,直到满意为止。
  • 淘汰赛:对于同一个镜头,AI 会生成好几个版本,然后让评委选出最好的那个。最后,整部视频也会经过一轮“大决赛”,选出最精彩的那个版本。

4. 成果如何?

论文里展示了几个例子,比如:

  • 一个警察问学生为什么实验室设备不见了,学生说“为了放个烤面包机”。
  • 一个角色为了装酷,把身体里的零件拆下来换成了实验室仪器。
  • 一个角色看着 AI 拍自己,说“我在看我自己被拍”。

人类测试结果显示

  • COMIC 生成的视频,在“好笑程度”、“剧情连贯性”和“观众想继续看”的评分上,远远超过了其他现有的 AI 视频生成工具(比如 Sora 或 Veo 的早期版本)。
  • 甚至,它的幽默感已经接近人类专业编剧的水平(虽然还没完全超越,但已经非常接近了)。

总结

COMIC 就像是一个不知疲倦的“喜剧天才工厂”
它不依赖单一的指令,而是通过**“分组竞争 + 毒舌评委 + 反复打磨”**的方式,让 AI 学会了如何像人类一样思考幽默。它证明了,只要给 AI 正确的“竞争环境”和“反馈机制”,它们也能创造出让人捧腹大笑的艺术作品,而不仅仅是冷冰冰的代码或图片。

这不仅是视频生成的进步,更是 AI 在创造性、开放性问题(没有标准答案的问题)上的一次巨大飞跃。