ForestPrune: High-ratio Visual Token Compression for Video Multimodal Large Language Models via Spatial-Temporal Forest Modeling

本文提出了一种名为 ForestPrune 的免训练视频多模态大模型视觉 Token 压缩方法,通过构建时空森林模型对 Token 进行语义、空间和时间约束下的全局重要性评估,在显著降低计算与内存开销(如减少 90% 的 Token)的同时,实现了高压缩比下的高精度视频理解性能。

Shaobo Ju, Baiyang Song, Tao Chen, Jiapeng Zhang, Qiong Wu, Chao Chang, HuaiXi Wang, Yiyi Zhou, Rongrong Ji

发布于 2026-03-25
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一种名为 ForestPrune(森林修剪) 的新方法,旨在解决视频多模态大模型(MLLM)“太笨重、太慢”的问题。

为了让你轻松理解,我们可以把视频大模型想象成一个正在看视频并写观后感的“超级大脑”

1. 核心痛点:大脑“消化不良”

  • 现状:现在的视频大模型在看视频时,会把每一帧画面都切成成千上万个微小的“视觉碎片”(Token)。
  • 问题:视频是连续的,比如一个人说话,连续 10 帧画面里,他的脸、背景几乎没变。但模型却把这 10 帧里重复的碎片都当成新信息处理。
    • 比喻:这就像你让一个学生看一部 1 小时的电影,但他每看 1 秒钟,就要把那一秒的画面里所有的像素点都抄写一遍。结果就是,他抄了 3600 页笔记,但其中 90% 都是重复抄写的“背景”和“没动的脸”。这导致计算量巨大、内存爆满、速度极慢
  • 旧方法的不足:以前的方法(如 G-Prune)就像是一个只盯着单帧画面的“近视眼”剪辑师。他每一帧都挑出重要的部分保留,但他不知道上一帧和这一帧是重复的。结果就是,虽然单帧精简了,但跨帧的重复信息依然大量存在,一旦压缩比例太高(比如只留 10% 的信息),模型就“瞎”了,看不懂视频内容。

2. 创新方案:ForestPrune(森林修剪)

作者提出了一种**“时空森林建模”的方法,把视频里的信息碎片重新组织成“森林”**。

核心比喻:从“散沙”到“森林”

想象视频里的每一个视觉碎片都是一棵小树的叶子或树枝。

  • 传统方法:把每一帧的树都单独修剪,不管它们是不是同一棵树。
  • ForestPrune:它发现,视频是连续的,很多碎片其实是同一棵大树在不同时间点的样子。于是,它把这些碎片连起来,形成**“时空森林”**。

它是如何工作的?(三步走)

  1. 建森林(连接碎片)

    • 它不看单帧,而是看整个视频流。
    • 它根据语义(是不是同一个东西?)、空间(位置是不是差不多?)和时间(是不是紧接着发生的?)三个标准,把相似的碎片连在一起。
    • 比喻:就像把电影里“主角说话”这一连串动作,识别为同一棵大树(树根是主角,树枝是不同时间的动作)。
  2. 分等级(识别树干与树叶)

    • 在森林里,有些部分是树根和主干(比如主角的脸、关键动作),有些是末端的树叶(比如背景里随风飘动的树叶,或者重复的静止画面)。
    • 比喻:树根和主干是核心,剪了树就死了;树叶是冗余的,剪了树依然活着。
  3. 精准修剪(去粗取精)

    • 它优先剪掉末端的树叶(冗余信息),保留树根和主干(关键信息)。
    • 如果必须剪得更多,它才会去剪树枝,但绝不会先剪树根。
    • 结果:即使把 90% 的碎片剪掉,留下的依然是那棵“大树”的骨架,模型依然能看懂视频在讲什么。

3. 实际效果:既快又准

论文通过实验证明,ForestPrune 就像给大模型装上了一个**“智能广角镜头”**:

  • 高压缩比下依然神勇
    • 在 LLaVA-OneVision 模型上,即使砍掉 90% 的视觉碎片,模型的准确率依然能保持在 95.8%
    • 比喻:以前把书里的 90% 字删掉,故事就看不懂了;现在用 ForestPrune,删掉 90% 的废话,故事依然精彩。
  • 速度飞快
    • 相比其他方法,它的处理时间大幅减少(例如在 LLaVA-Video 上,修剪时间减少了 81.4%)。
    • 比喻:别人还在抄写整本书,ForestPrune 直接提取了目录和核心章节,瞬间读完。
  • 甚至能“以少胜多”
    • 因为它省下了计算资源,模型反而可以看更多的帧数(比如从看 64 帧增加到看 512 帧),从而在保持总计算量不变的情况下,看得更清楚、更连贯,成绩甚至超过了目前最顶尖的模型。

总结

ForestPrune 的核心思想就是:不要孤立地看每一帧,要把视频看作一个连续生长的“森林”。

通过识别哪些是“树干”(关键信息),哪些是“落叶”(重复冗余),它能在不牺牲理解能力的前提下,把视频数据量压缩到极致。这让未来的视频 AI 不仅能“看得懂”,还能“看得快”、“看得久”,真正变得实用起来。

您所在领域的论文太多了?

获取与您研究关键词匹配的最新论文每日摘要——附技术摘要,使用您的语言。

试用 Digest →