WorldCache: Accelerating World Models for Free via Heterogeneous Token Caching

该论文提出了 WorldCache 框架,通过引入基于曲率的异构令牌预测和混沌优先自适应跳过机制,有效解决了扩散世界模型中因多模态耦合与非均匀时序动态导致的加速难题,在保持 98% rollout 质量的同时实现了高达 3.7 倍的端到端推理加速。

Weilun Feng, Guoxin Fan, Haotong Qin, Chuanguang Yang, Mingqiang Wu, Yuqi Li, Xiangqi Li, Zhulin An, Libo Huang, Dingrui Wang, Longlong Liao, Michele Magno, Yongjun Xu

发布于 2026-03-09
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这是一篇关于如何让 AI“世界模型”跑得更快、更聪明的论文。为了让你轻松理解,我们可以把这篇论文的核心思想想象成**“如何驾驶一辆自动驾驶汽车穿越复杂地形”**。

🌍 背景:什么是“世界模型”?

想象一下,现在的 AI(比如能生成视频的模型)就像是一个只会画画的画家。你给它一张图,它能画出下一张。

而**“世界模型”(World Model)则像是一个拥有想象力的导演**。它不仅能画画,还能在脑海里“模拟”未来:如果你往左走,场景会怎么变?如果你推倒一个杯子,它怎么滚?它试图理解物理规律、光影变化和物体运动,从而生成连贯的、仿佛真实世界的视频。

痛点: 这个“导演”太累了!为了生成每一帧画面,它需要反复进行成千上万次的“去噪”计算(就像画家要反复修改草图才能定稿)。这导致生成速度极慢,根本没法用于实时的游戏或交互。

🚀 解决方案:WorldCache(世界缓存)

为了解决这个问题,研究人员提出了 WorldCache。它的核心思想很简单:“别每次都重新算,能偷懒就偷懒,但关键地方不能省。”

这就好比开车:

  • 普通缓存(旧方法): 就像司机不管路况,每隔 10 秒就停下来看一眼路,或者每隔 10 秒就猛踩刹车重新确认方向。这要么太慢,要么在急转弯时容易出车祸(画面崩坏)。
  • WorldCache(新方法): 就像一位经验丰富的老司机。他知道哪些路段是笔直的(可以闭眼开),哪些路段是直道但稍微有点弯(可以稍微预判),哪些路段是急转弯或悬崖(必须睁大眼睛,甚至减速慢行)。

🔑 核心黑科技:两个聪明的策略

WorldCache 之所以能“免费”加速(不需要重新训练模型),是因为它发现了世界模型里的两个秘密:

1. 令牌(Token)的“性格”各不相同(异质性)

在 AI 眼里,画面是由无数个小方块(Token)组成的。

  • 旧方法: 认为所有小方块都一样,要么全都不算(偷懒),要么全都算(累死)。
  • WorldCache 的洞察:
    • 稳定派(Stable): 比如天空、墙壁背景。它们变化很慢,像散步的老人
      • 策略: 直接复用。上次看到的什么样,这次就什么样,不用算。
    • 线性派(Linear): 比如匀速行驶的汽车。它们变化有规律,像跑步的人
      • 策略: 线性外推。根据刚才的速度,猜一下下一秒在哪。
    • 混乱派(Chaotic): 比如碰撞的瞬间、水流溅起、物体边缘。它们变化剧烈且不可预测,像受惊乱窜的猴子
      • 策略: 阻尼预测。不能瞎猜,要用一种特殊的“缓冲算法”慢慢调整,防止猜错太远。

比喻: 以前是“一刀切”,现在 WorldCache 给每个小方块发了不同的“通行证”。背景可以“免检”,运动物体“快速通道”,而混乱的碰撞点必须“重点安检”。

2. 只有“捣乱分子”决定生死(非均匀动态)

这是最精彩的部分。

  • 旧方法: 看“平均”变化。如果大部分画面很稳,只有一个小角落在剧烈变化,平均值可能显示“很稳”,于是系统继续偷懒,结果那个小角落就“崩”了,导致整个视频穿模或变形。
  • WorldCache 的洞察: 只要有一小部分“捣乱分子”(高曲率 Token)开始失控,整个模拟就会失败。
  • 策略: 混乱优先(Chaotic-prioritized)。系统不再看平均值,而是专门盯着那些“最不安分”的 Token。只要它们开始“漂移”(Drift),系统就立刻停止偷懒,重新全速计算。

比喻: 就像在人群中找小偷。旧方法是看“人群平均移动速度”,如果大家都走得慢,就以为没小偷。WorldCache 则是专门盯着那个跑得最快、最鬼鬼祟祟的人。只要他一动,立刻报警(重新计算),而不管其他人走得有多慢。

📊 效果如何?

论文在两个顶尖的 AI 模型(HunyuanVoyager 和 Aether)上做了测试:

  1. 速度起飞: 生成速度提升了 2.6 倍 到 3.7 倍
    • 例子: 以前生成一段视频要 1000 多秒,现在只要 200 多秒。
  2. 质量无损: 画面质量几乎和没加速时一样(保留了 98% 的细节)。
    • 例子: 视频里的物体边缘依然清晰,没有模糊或变形,深度感(3D 效果)也保留得很好。
  3. 无需训练: 这是一个“即插即用”的插件,不需要重新训练庞大的 AI 模型,直接就能用。

💡 总结

WorldCache 就像给 AI 世界模型装上了一套**“智能路况感知系统”**。

它不再盲目地重复计算,而是学会了**“抓大放小”**:

  • 平淡无奇的地方,大胆跳过
  • 有规律的地方,聪明预测
  • 突发状况,立刻重算

这让 AI 能够以前所未有的速度,构建出逼真、连贯的虚拟世界,让未来的交互式游戏、自动驾驶模拟和虚拟现实变得更加流畅和真实。