Exploring Vision-Language Models for Open-Vocabulary Zero-Shot Action Segmentation

本文提出了一种利用视觉语言模型实现的免训练开放词汇零样本时序动作分割(OVTAS)框架,通过帧 - 动作嵌入相似度匹配与相似度矩阵时序分割策略,在无需任务特定监督的情况下实现了强性能,并系统评估了 14 种不同模型在该任务上的适用性。

Asim Unmesh, Kaki Ramesh, Mayank Patel, Rahul Jain, Karthik Ramani

发布于 2026-02-26
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一种名为 OVTAS 的新方法,旨在解决计算机视觉中一个非常棘手的问题:如何在不经过专门训练的情况下,让 AI 看懂视频里正在发生的各种动作,并且能识别它从未见过的动作。

为了让你更容易理解,我们可以把这项技术想象成**“一个拥有百科全书的超级翻译官”**。

1. 以前的困境:死记硬背的学生

想象一下,以前的视频分析 AI 就像一个死记硬背的学生

  • 局限性:老师(研究人员)只教了它 10 种动作,比如“切菜”、“炒菜”、“洗碗”。
  • 问题:如果视频里出现了“煎牛排”或者“给机器人上油”,这个学生就懵了,因为它没学过。它只能瞎猜,或者干脆说“我不知道”。
  • 现实痛点:现实生活中的动作成千上万,而且同一种活动(比如做早餐)可以拆分成几十种不同的步骤。让 AI 学会所有动作,就像让学生背下全世界的字典,这几乎是不可能的,而且成本极高。

2. 新方案:OVTAS(拥有百科全书的翻译官)

这篇论文提出的 OVTAS 方法,换了一种思路。它不再让 AI 去“死记硬背”动作,而是利用视觉 - 语言大模型(VLM),就像给 AI 配备了一本**“视觉与语言的超级百科全书”**。

  • 核心能力:这个“翻译官”已经读过很多书(在海量图文数据上预训练过),它知道“倒咖啡”是什么意思,哪怕它从未在视频里见过“倒咖啡”这个具体动作。只要告诉它“倒咖啡”这个词,它就能在视频里找到对应的画面。
  • 零样本(Zero-Shot):意思是“零次学习”。不需要给它看任何带标签的视频,它就能直接上手干活。
  • 开放词汇(Open-Vocabulary):你可以给它任何动作名称(比如“给仙人掌浇水”),它都能尝试去识别,不受限于固定的列表。

3. 它是如何工作的?(两步走策略)

虽然这个“翻译官”很聪明,但它有一个毛病:它看视频是一帧一帧(一秒钟一秒钟)独立看的,缺乏连贯性。
比如,它可能在这一帧觉得你在“倒水”,下一帧又觉得你在“拿杯子”,再下一帧又变回“倒水”。这就像一个人说话前言不搭后语,逻辑混乱。

为了解决这个问题,OVTAS 设计了一个**“两步走”**的流程:

第一步:FAES(“连连看”匹配)

  • 比喻:想象你在玩“连连看”。
  • 操作:AI 把视频的每一帧画面,和它脑子里的“动作词汇表”(比如:倒水、拿杯、搅拌)进行相似度匹配
  • 结果:它会画出一张巨大的“相似度地图”。比如,第 10 秒的画面和“倒水”这个词最像,第 11 秒也和“倒水”很像。但这只是初步的、零散的猜测。

第二步:SMTS(“时间线整理师”)

  • 比喻:这时候,我们需要一位**“时间线整理师”**(基于最优传输算法)。
  • 操作:这位整理师拿着第一步画好的“相似度地图”,开始修路。它的任务是:让动作在时间上变得连贯和合理。
    • 它知道“倒水”通常是一个持续的过程,不会在 0.1 秒内反复切换。
    • 它会把那些零散的、跳来跳去的猜测,平滑地连接成一段段完整的动作。
    • 它还会确保动作的顺序符合逻辑(虽然它不知道具体顺序,但它知道动作不能太破碎)。
  • 结果:原本混乱的猜测,变成了一条清晰的时间轴:[0-5 秒:拿杯子] -> [5-10 秒:倒水] -> [10-15 秒:搅拌]

4. 这项研究发现了什么?

作者测试了 14 种不同的“大模型”(就像测试了 14 种不同背景的翻译官),发现了一些有趣的规律:

  1. 并不是越大越好:通常我们认为模型参数越大(越聪明)效果越好。但在这个任务里,有些中等大小的模型(如 SigLIP 系列)反而比那些“巨无霸”模型表现更好。这可能是因为大模型太“博学”了,反而在具体的动作细节上不够专注,或者需要更精细的提示词。
  2. 视频越长越难:视频越长,动作越复杂,AI 越容易“迷路”或搞混顺序。就像读一本太厚的书,后面容易忘记前面的情节。
  3. 动作越碎越难:如果视频里全是快速切换的短动作(比如切菜,每一刀都很短),AI 就很难看清。这就像让一个慢吞吞的人去数闪电,根本反应不过来。

5. 总结与意义

OVTAS 就像是一个不需要培训、自带百科全书的“视频剪辑师”。

  • 以前:我们要教 AI 认识 100 个动作,就得花 100 个小时给它看视频、打标签。
  • 现在:我们只需要告诉 AI 动作的名字(比如“修自行车”),它就能利用已有的知识,自动把视频切分成“拿扳手”、“拧螺丝”、“上油”等步骤。

这对我们意味着什么?
这意味着未来我们可以更灵活地让 AI 理解人类活动,无论是手术机器人(识别从未见过的手术步骤)、家庭监控(识别各种奇怪的异常行为),还是体育分析(分析各种新兴运动),都不再受限于预先设定的死板规则。

作者还非常慷慨地公开了所有代码和提取好的数据,就像把“翻译官”的笔记和工具包免费发给了所有人,让大家都能在此基础上继续研究,让 AI 变得更懂人类。

在收件箱中获取类似论文

根据您的兴趣定制的每日或每周摘要。Gist或技术摘要,使用您的语言。

试用 Digest →