UniVBench: Towards Unified Evaluation for Video Foundation Models

本文提出了专为评估视频基础模型而设计的 UniVBench 基准,通过引入包含 200 个高质量多镜头视频及 UniV-Eval 统一智能评估系统,首次实现了对视频理解、生成、编辑及新提出的重建任务这四大核心能力的综合、公平且可扩展的评估。

Jianhui Wei, Xiaotian Zhang, Yichen Li, Yuan Wang, Yan Zhang, Ziyi Chen, Zhihang Tang, Wei Xu, Zuozhu Liu

发布于 2026-03-09
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一个名为 UniVBench 的新工具,它的出现是为了解决当前人工智能(AI)视频模型领域的一个大麻烦:大家各说各话,缺乏统一的“考卷”

为了让你轻松理解,我们可以把现在的 AI 视频模型比作刚毕业的电影学院学生,而 UniVBench 就是一套全新的、全面的“全能导演资格考试”

以下是这篇论文的通俗解读:

1. 现在的困境:偏科生和“碎片化”的考试

以前的 AI 视频模型,就像是在学校里只修了一门课的学生:

  • 有的只擅长“看懂”(理解视频):能告诉你视频里发生了什么,但让它自己拍视频,它就抓瞎。
  • 有的只擅长“瞎拍”(生成视频):能根据文字生成很美的画面,但让它解释画面里的逻辑,它就胡言乱语。
  • 有的只擅长“修图”(编辑视频):能换衣服、换背景,但让它从头拍一部片子,它又不会。

更糟糕的是,以前的“考试”(评测基准)也是碎片化的:

  • 考“理解”的试卷:用的是网上下载的版权视频,题目是“描述这个视频”,没法考它能不能“拍”视频。
  • 考“生成”的试卷:只考“根据文字拍视频”,不管它拍得有没有逻辑,也不管能不能剪辑。
  • 题目太简单:以前的视频大多只有几秒,像短视频一样,考不出真正的电影感(比如复杂的镜头切换、光影变化)。

结果就是:我们不知道哪个模型是真正的“全能导演”,因为没人能同时用一套标准去考它“看懂、拍片、剪辑”这三项能力。

2. UniVBench 是什么?一套“好莱坞级”的全能考卷

UniVBench 就是为了解决这个问题而生的。它不仅仅是一个数据集,更像是一个精心设计的“电影拍摄现场”

  • 200 个“剧本”和“样片”
    研究人员找了 15 位真正的影视专家,人工编写了 200 个高质量的视频脚本。这些视频不是随便抓取的,而是完全原创、没有版权纠纷的。

    • 特点:它们像真正的电影一样,有多镜头切换(不是单一画面),有复杂的光影、色彩、运镜(推拉摇移)、人物动作和背景故事。
    • 比喻:以前的考试是让你“看一张照片写一句话”,现在的考试是给你“一个完整的电影剧本,让你去拍、去改、去解说”。
  • 四大核心能力测试
    UniVBench 把考试分成了四个部分,就像考导演的四个维度:

    1. 阅读理解 (Video Understanding):给你视频,让你写解说词(能不能看懂?)。
    2. 无中生有 (Video Generation):给你文字,让你拍视频(能不能创作?)。
    3. 移花接木 (Video Editing):给你原视频和修改指令(比如“把主角的衣服换成红色的”),让你修改(能不能精准控制?)。
    4. 新发明:视频重构 (Video Reconstruction):这是最狠的一招。
      • 流程:先让 AI 看视频并写出解说词(理解),然后让它只根据自己写出的解说词,重新把视频拍一遍(生成)。
      • 目的:如果 AI 理解错了,或者写词写得烂,它重拍的视频就会和原片大相径庭。这能直接测出 AI 的“理解”和“生成”是不是真正打通了。

3. UniV-Eval:一位“毒舌”且专业的 AI 影评人

有了考卷,还得有阅卷老师。以前的评分标准很乱:有的看单词重合度(像语文考试),有的看像素相似度(像数学考试),大家没法横向比较。

UniVBench 配备了一个叫 UniV-Eval智能代理评分系统

  • 它是怎么工作的?
    它不像以前的机器那样只给一个冷冰冰的分数(比如 85 分)。它更像一位懂电影的专业影评人

    • 拆解镜头:它会把视频切成一个个小镜头(Shot),逐个分析。
    • 多维打分:它会从 8 个大维度(风格、主体、动作、背景、运镜、灯光、色彩、空间关系)和 21 个小细节去挑刺。
    • 给出建议:它不仅告诉你“这题错了”,还会告诉你“错在哪”(比如:主角的衣服颜色不对,或者镜头运动不流畅),甚至给出修改建议。
  • 比喻:以前的评分是“总分 60 分,不及格”;现在的评分是“你的主角动作像机器人(动作维度扣分),但光影很美(灯光维度满分),建议加强动作连贯性训练”。

4. 实验结果:大家都还在“偏科”

作者用这套新标准去测了市面上最火的几个 AI 模型,结果很扎心:

  • 没有“六边形战士”:目前没有任何一个模型能同时在理解、生成、编辑和重构上都拿高分。
  • 偏科严重
    • 擅长“理解”的模型(如 Gemini),让它去“拍视频”就一塌糊涂。
    • 擅长“拍视频”的模型(如 Seedance),让它去“写解说”就逻辑混乱。
    • 最难的点:所有模型在“动作(Action)”这个维度上都表现最差。这说明让 AI 理解并生成复杂的、连续的动作(比如一个人走路、转身、挥手),目前还是巨大的挑战。

总结

UniVBench 就像是为 AI 视频模型建立的一套**“高考”制度**。
它不再让 AI 只考“单科”,而是要求它成为真正的**“全能导演”**。通过这套标准,研究人员能更清楚地看到 AI 哪里强、哪里弱(比如动作生成还是弱项),从而指导未来的技术改进。

一句话概括:以前我们是用“尺子”量“体重”,用“秤”量“身高”,乱套了;现在 UniVBench 给 AI 发了一套“全能体检表”,逼着它们从“偏科生”进化成真正的“电影大师”。