SocialOmni: Benchmarking Audio-Visual Social Interactivity in Omni Models

该论文提出了 SocialOmni 基准,旨在通过评估说话人识别、中断时机控制及自然中断生成等维度,填补现有全模态大模型在动态社交互动能力评估方面的空白,并揭示了感知准确性与社交互动生成能力之间的显著脱节。

Tianyu Xie, Jinfa Huang, Yuexiao Ma, Rongfang Luo, Yan Yang, Wang Chen, Yuhui Zeng, Ruize Fang, Yixuan Zou, Xiawu Zheng, Jiebo Luo, Rongrong Ji

发布于 2026-03-18
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一个名为 SocialOmni 的新工具,它的目的是给现在的“全能 AI"(能同时听、看、说的 AI)做一次社交情商大考

为了让你更容易理解,我们可以把现在的 AI 想象成一群刚入职的“超级实习生”

1. 现状:只会做题,不会聊天

以前的 AI 考试(Benchmark),就像是在考**“阅读理解”**。

  • 考题是这样的:给你看一段视频,问“视频里那个人说了什么?”或者“视频里发生了什么?”
  • 结果:这些 AI 实习生都能答对,因为它们很擅长“做题”和“找答案”。
  • 问题:但在真实的聊天中,光知道答案是不够的。如果你在别人说话时突然插嘴,或者在别人还没说完时就急着回答,哪怕你答得再对,也会让人觉得没礼貌、很尴尬

目前的 AI 就像是一个**“只会背书的学霸”,它知道所有知识,但完全不懂“社交礼仪”“聊天节奏”**。

2. 新工具:SocialOmni(社交全能挑战)

为了解决这个问题,作者们设计了一个全新的考试,叫 SocialOmni。它不再考“你知不知道”,而是考**“你会不会聊”**。

这个考试主要考三个核心能力,我们可以用**“参加一场激烈的多人辩论赛”**来打比方:

第一关:Who(谁在说话?)—— 听音辨人

  • 场景:辩论赛上,大家七嘴八舌。
  • 考题:在某一秒,到底是谁在说话?是左边那个戴眼镜的,还是右边那个穿红衣服的?
  • 难点:有时候视频里画面在动(比如镜头切到了别人),但声音还是刚才那个人的。AI 必须能分清“谁在动”和“谁在说话”,不能只看画面就瞎猜。
  • 比喻:就像你在嘈杂的聚会上,必须能听出是谁在喊你的名字,而不是看到谁在动就以为是谁在说话。

第二关:When(何时插嘴?)—— 把握时机

  • 场景:轮到你发言了,但你必须在最合适的瞬间开口。
  • 考题
    • 太早了:别人话还没说完,你就打断(这叫“抢话”)。
    • 太晚了:别人早就说完停顿了半天,你才慢吞吞开口(这叫“接不上茬”)。
    • 刚刚好:在对方话音刚落、气口刚停的那一瞬间,自然接话。
  • 比喻:就像打乒乓球,对方球刚过网,你就要挥拍。早了是“抢跑”,晚了球就落地了。AI 需要学会这种微妙的“节奏感”。

第三关:How(怎么接话?)—— 得体回应

  • 场景:你终于开口了,你说什么?
  • 考题:你的回答不仅要内容对,还要语气对、情绪对
    • 如果对方在哭诉,你不能说“别哭了,我们要理性分析”。
    • 如果对方在开玩笑,你不能一本正经地讲道理。
  • 比喻:就像在社交场合,别人递给你一杯水,你不能回一句“谢谢,水的化学式是 H2O",而要说“谢谢,正好我渴了”。AI 需要学会**“看人下菜碟”**,根据当下的气氛说话。

3. 考试结果:学霸们的“社恐”真相

作者找来了 12 个目前最厉害的 AI(包括 GPT-4o, Gemini, Qwen 等)来参加这场考试。结果让人大跌眼镜:

  • 偏科严重:有的 AI 在“听音辨人”(Who)上拿满分,但在“何时插嘴”(When)上却总是抢话;有的 AI 很会接话(How),却经常认错人。
  • 脱节现象:最惊人的发现是,“听得懂”和“会聊天”完全是两码事
    • 有些 AI 能精准地识别出谁在说话(感知能力满分),但一旦让它开口,它要么抢话,要么说出的话冷冰冰、不合时宜。
    • 这就好比一个**“听力满分但情商为零的机器人”**。

4. 为什么要搞这个考试?

作者认为,如果只考“做题”,我们就会一直造出那些**“只会背书、不懂人情世故”**的 AI。

  • 在真实的生活中,**“什么时候说话”“怎么说”“说什么”**更重要。
  • 如果 AI 总是打断你,或者在你悲伤时讲笑话,哪怕它知识再渊博,你也不会愿意和它聊天。

总结

SocialOmni 就像给 AI 们发了一张**“社交情商测试卷”。它告诉我们要想造出真正像人一样的 AI,不能只让它们背更多的书(提升感知能力),还要教它们如何看眼色、如何把握说话的时机、如何有温度地回应**。

只有通过了这场考试,AI 才能真正从“冷冰冰的百科全书”变成“懂你的聊天伙伴”。

您所在领域的论文太多了?

获取与您研究关键词匹配的最新论文每日摘要——附技术摘要,使用您的语言。

试用 Digest →