UniM: A Unified Any-to-Any Interleaved Multimodal Benchmark

本文提出了首个统一任意到任意交错多模态基准 UniM,包含 31K 个覆盖 7 种模态的高质量实例及评估套件,并引入具备可追溯推理能力的 UniMA 基线模型,旨在推动多模态大模型在复杂交错输入输出场景下的理解与生成能力发展。

Yanlin Li, Minghui Guo, Kaiwen Zhang, Shize Zhang, Yiran Zhao, Haodong Li, Congyue Zhou, Weijie Zheng, Yushen Yan, Shengqiong Wu, Wei Ji, Lei Cui, Furu Wei, Hao Fei, Mong-Li Lee, Wynne Hsu

发布于 2026-03-06
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一个名为 UNIM 的全新“考试”,以及一个名为 UNIMA 的“学霸”模型。为了让你轻松理解,我们可以把多模态人工智能(能看、能听、能写、能画图、能写代码的 AI)想象成一位全能型超级助理

1. 背景:以前的助理 vs. 现在的挑战

以前的 AI(旧时代):
想象一下,以前的 AI 助理就像是一个只会“看图说话”或者“看图写话”的初级文员。你给它一张照片,它能描述照片;给它一段文字,它能回答。但它们只能处理单一简单配对的任务(比如:一张图 + 一段话)。

现实世界的需求(新时代):
但在真实世界里,人类的工作从来不是这么简单的。

  • 场景举例: 你让助理帮你规划一次旅行。
    • 你给它看一段视频(景点介绍)。
    • 给它听一段音频(当地导游的讲解)。
    • 给它一张手绘草图(你想去的路线)。
    • 给它一份PDF 文档(酒店条款)。
    • 甚至给它一段代码(用来计算预算的脚本)。
    • 你的要求: 请帮我生成一份视频教程,配上音频解说,中间穿插图片3D 模型,还要用代码自动计算费用。

这种**“任意输入、任意输出、且内容像三明治一样层层交错”的能力,就是论文所说的“任意到任意交错多模态学习” (Any-to-Any Interleaved)**。以前的 AI 根本搞不定这种复杂的“大杂烩”。

2. UNIM:第一份“全能型”考试卷

为了解决这个问题,作者们(来自新加坡国立大学等机构)制作了 UNIM 数据集。

  • 它是什么? 它是世界上第一份专门用来测试 AI 能否处理这种“复杂交错任务”的超级考卷
  • 考卷规模: 里面有 31,000 多道高质量题目。
  • 覆盖范围:
    • 7 种感官: 文本、图片、音频、视频、文档、代码、3D 模型(就像让 AI 同时用眼睛、耳朵、手、脑去工作)。
    • 30 个领域: 从自然科学、社会科学到日常生活(做饭、旅游、编程等)。
  • 难度分级: 题目分简单、中等、困难三个等级。
    • 简单题: 看图说话。
    • 困难题: 给你一段视频和音频,让你分析其中的逻辑,然后生成一个包含 3D 模型、代码和解说音频的复杂报告。

比喻: 以前的考试只考“看图写话”(语文),现在的 UNIM 考的是“全能才艺大比拼”,要求你一边听交响乐,一边看 3D 图纸,一边写代码,最后还要拍个视频讲解,而且这些内容要像讲故事一样自然穿插在一起。

3. 新的评分标准:不只是“对”或“错”

以前的 AI 考试,只要答案对就行。但在这种复杂任务里,光“对”不够,还得“像样”。UNIM 引入了三把**“新尺子”**来给 AI 打分:

  1. 语义正确性 & 生成质量 (Semantic Correctness & Generation Quality):
    • 比喻: 就像做菜。不仅味道要对(语义正确),摆盘也要好看,食材要新鲜(生成质量)。如果 AI 生成的图片模糊、代码报错,或者音频刺耳,分数就会很低。
  2. 回复结构完整性 (Response Structure Integrity):
    • 比喻: 就像乐高积木。如果你要求搭一个“红蓝相间的城堡”,AI 必须严格交出“红 + 蓝”的积木,不能少一块,也不能多塞进去一个黄色的。如果它漏掉了要求的图片,或者多给了个视频,结构分就没了。
  3. 交错连贯性 (Interleaved Coherence):
    • 比喻: 就像拍电影。文字、图片、声音必须像电影镜头一样流畅切换,不能突兀。如果文字在讲“下雨”,突然插一张“大晴天”的图,或者声音和画面不搭调,连贯性分就低。

4. UNIMA:为了考试而生的“学霸”

为了测试这套新标准,作者还开发了一个叫 UNIMA 的 AI 模型作为“基准线”(Baseline)。

  • 它是怎么工作的?
    普通的 AI 是“直觉式”的,看到输入直接猜输出。UNIMA 则像是一个严谨的侦探,它有一个**“可追溯的证据推理模块”**:

    1. 接收情报: 先把视频、音频、3D 模型都“翻译”成文字描述(就像把不同语言的情报统一成中文)。
    2. 制定计划: 像写剧本一样,先规划好:哪里放图片,哪里放代码,哪里需要调用计算器。
    3. 自我审查: 在输出前,它会自己检查:“我是不是漏了步骤?逻辑通顺吗?”如果有错,就回头修改(Backtracking)。
    4. 最终执行: 确认无误后,再调用各种工具生成最终的视频、图片、代码等。
  • 成绩如何?
    在 UNIM 这场“超级考试”中,现有的顶尖 AI(如 AnyGPT, NExT-GPT 等)表现得很吃力,很多题目甚至不及格(分数很低)。而 UNIMA 虽然也不是满分,但它的表现远远超过了其他模型,证明了这种“先规划、再执行、自我纠错”的思路是解决复杂多模态任务的关键。

5. 总结:这意味着什么?

这篇论文告诉我们:

  • 现状: 现在的 AI 虽然很聪明,但在处理现实世界中那种**“乱七八糟、多种媒介混在一起”**的复杂任务时,还非常笨拙。
  • 突破: UNIM 提供了第一个标准的“试金石”,让我们能真正衡量 AI 的“全能”程度。
  • 未来: UNIMA 证明了,让 AI 学会**“像人一样思考”**(先规划、找证据、自我检查),而不是单纯地“猜答案”,是通往真正通用人工智能(AGI)的必经之路。

一句话总结:
UNIM 是给 AI 出的一道**“高难度综合应用题”,而 UNIMA 则是第一个学会“先列提纲、再分步执行、最后自我检查”优等生**,它告诉我们未来的 AI 助理将不再只是简单的问答机器,而是能真正处理复杂现实任务的全能管家