Seeing the Forest and the Trees: Query-Aware Tokenizer for Long-Video Multimodal Language Models

本文提出了轻量级查询感知令牌选择器 QTSplus,通过动态筛选与文本查询最相关的视觉令牌并保留时间信息,在显著降低长视频多模态大模型计算开销的同时,实现了高精度的长视频理解与细粒度定位。

Siyou Li, Huanan Wu, Juexi Shao, Yinghao Ma, Yujian Gan, Yihao Luo, Yuwei Wang, Dong Nie, Lu Wang, Wenqing Wu, Le Zhang, Massimo Poesio, Juntao Yu

发布于 2026-02-26
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一个名为 QTSplus 的新工具,它的核心任务是帮助人工智能(AI)更高效地“看懂”很长的视频。

我们可以把这项技术想象成一位超级聪明的“视频剪辑师”兼“图书管理员”

1. 现在的痛点:AI 看视频太“累”了

想象一下,如果你让 AI 看一部 2 小时的电影,现在的 AI 就像是一个强迫症观众

  • 传统做法:AI 会把电影里的每一帧画面(比如每秒 30 帧,2 小时就是 21 万多帧)都当成“重要信息”存进脑子里。
  • 后果:这就像让你把整部电影的每一秒都背下来,然后还要回答“主角在第几分钟喝了咖啡?”这种细节问题。这不仅内存爆炸(记不住),而且速度极慢(反应迟钝),甚至因为信息太多,AI 反而找不到重点,就像“只见树木,不见森林”。

2. QTSplus 的解决方案:聪明的“按需剪辑”

QTSplus 就像是一个懂你的“智能剪辑师”。它不再把整部电影塞给 AI,而是根据你问的问题,只把最相关的片段挑出来。

核心机制:三步走策略

第一步:听问题,定策略(Query-Aware)

  • 场景
    • 如果你问:“电影里那个穿红衣服的人最后去哪了?”(这是一个具体的问题)。
    • 如果你问:“请总结一下这部电影讲了什么?”(这是一个宏观的问题)。
  • QTSplus 的做法:它会先“听”懂你的问题。
    • 如果是具体问题,它会像侦探一样,只挑选那几秒钟里穿红衣服的画面,其他无关画面直接忽略。
    • 如果是总结问题,它会挑选几个关键的高潮片段,保留大概的脉络。
    • 比喻:就像你去图书馆查资料,如果是查“某本书的第 50 页”,图书管理员只给你那页纸;如果是查“这本书讲了什么”,管理员会给你整本书的目录和精彩章节摘要,而不是把整本书的每一个字都复印给你。

第二步:动态决定“留多少”(Adaptive Budget)

  • 以前的方法不管问什么,都固定只留 10% 的画面(比如固定留 100 张图)。这很死板。
  • QTSplus 会动态计算
    • 如果问题很简单(比如“有猫吗?”),它可能只留 5% 的画面。
    • 如果问题很复杂(比如“分析主角的心理变化”),它会自动增加保留的画面比例,比如留 20%。
    • 比喻:这就像点菜。如果你只是想吃个快餐(简单问题),厨师只给你做一道菜;如果你要办宴会(复杂问题),厨师会准备一桌大餐。它不会在吃快餐时浪费资源,也不会办宴会时让你饿肚子。

第三步:重新整理时间线(Re-encoding)

  • 挑出来的画面可能时间跨度很大(比如第 1 分钟和第 50 分钟的画面)。如果直接给 AI 看,AI 可能会搞混时间顺序。
  • QTSplus 会给这些选出来的画面重新打上“时间标签”,并简单整理一下,确保 AI 知道“先发生了什么,后发生了什么”。
  • 比喻:就像把散落在不同抽屉里的照片,按照时间顺序重新贴好标签,放进一个相册里,让 AI 能顺畅地看故事。

3. 效果如何?(省了多少?)

  • 压缩率:QTSplus 能把视频的信息量压缩掉 89%!也就是说,原本需要看 100 张图才能回答的问题,现在只需要看 11 张最关键的图。
  • 速度:因为处理的数据少了,AI 回答问题的速度快了 28%
  • 准确度:最神奇的是,虽然看的东西少了,但回答的准确度并没有下降,甚至在某些需要精准定位时间的问题上(比如“红灯什么时候变绿”),表现比原来的 AI 还要好!

4. 总结

QTSplus 就像给 AI 装上了一副**“智能眼镜”**。

  • 以前,AI 看视频是“走马观花”或者“死记硬背”,又累又慢。
  • 现在,有了 QTSplus,AI 变成了**“有的放矢”**。它能根据你问的问题,瞬间在几小时的视频里找到那几秒钟的关键画面,只关注重点,忽略噪音。

这项技术让 AI 处理长视频(比如几小时的监控录像、长篇纪录片)变得既快又准,而且不需要超级昂贵的电脑硬件,普通的显卡也能跑得动。这对于未来的智能监控、视频搜索和辅助医疗等领域来说,是一个巨大的进步。

在收件箱中获取类似论文

根据您的兴趣定制的每日或每周摘要。Gist或技术摘要,使用您的语言。

试用 Digest →