Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一个名为 TempoFit 的新方法，它的目标是让机器人变得更“聪明”、更有“记性”，而且不需要重新训练它们。

为了让你更容易理解，我们可以把现在的机器人（基于 VLA 模型）想象成一个只有“金鱼记忆”的超级大厨。

1. 现在的困境：金鱼大厨的烦恼

想象一下，你雇佣了一位世界顶级的大厨（预训练好的 VLA 模型），他看菜谱（语言指令）和看食材（视觉画面）的能力极强。

问题在于：这位大厨有个怪毛病，他只记得眼前这一秒发生的事情。
场景：你要他做一道复杂的菜，比如“先把土豆切好，然后去拿锅，最后把土豆倒进去”。
- 当他切完土豆，转身去拿锅时，他瞬间忘了刚才切好的土豆还在案板上。
- 如果此时有人挡住了视线（遮挡），或者土豆看起来和旁边的苹果很像（状态混淆），他就会糊涂，可能会重复切土豆，或者把苹果倒进锅里。
现有的笨办法：
- 方法 A（堆帧）：给大厨看过去 10 秒的视频录像。但这就像让他一边切菜一边看 10 个屏幕，不仅累得慢（延迟高），而且大部分画面都是重复的（比如手还在切菜），反而干扰了他做决定。
- 方法 B（重新训练）：教他学会记笔记。但这需要花大量时间重新培训，而且一旦换了新菜谱或新厨房，可能就不灵了。

2. TempoFit 的解决方案：给大厨配个“隐形记事本”

TempoFit 的核心思想是：既然大厨的大脑（模型内部）里本来就有处理信息的“草稿纸”，我们为什么不直接利用这些草稿纸来记笔记呢？

它不需要重新训练大厨，也不需要让他看更多的视频，而是做了一个**“即插即用”的升级包**。

核心比喻：三层楼的图书馆

想象大厨的大脑是一座三层楼的图书馆：

底层：只认识字（识别物体）。
顶层：只负责写最终指令（决定下一步动作）。
中间层：这里存放着最精华的“理解”和“上下文”。

TempoFit 做了什么？

只抄中间层的笔记（Layer-Wise Memory）：
它不抄底层的字，也不抄顶层的指令，而是专门在中间层的“草稿纸”上，把刚才发生的关键信息（Key/Value 状态）存下来。这就像在大厨的口袋里放了一个智能记事本，只记录最重要的剧情。
自动检索（K-to-K Retrieval）：
当大厨需要做下一个动作时，TempoFit 会拿着“现在的线索”去记事本里翻找：“刚才那个切土豆的动作，是不是和现在的状态有关？”
- 它不是盲目地翻，而是像查字典一样，通过“关键词匹配”找到最相关的历史记忆。
去旧存新（FGTB 时间偏见）：
如果记事本里记了太多陈年旧账（比如 10 分钟前切土豆的事），可能会干扰现在的决策。
TempoFit 加了一个**“时间滤镜”：越久远的记忆，字迹越淡（权重越低）；越近的记忆，字迹越清晰。这样大厨就能“以现在为主，兼顾过去”**，不会活在过去里。
无痕注入（Norm-Preserving Residual Loading）：
这是最关键的一步。它把找到的历史记忆，轻轻加到大厨现在的思考中，就像往咖啡里加了一勺糖，完全改变了味道（增加了时间维度），但没改变咖啡杯的大小（不增加计算量），也没换掉咖啡豆（不修改模型参数）。

3. 效果如何？

更稳：在需要长时间连续操作的测试中（比如把一堆东西按顺序放好），机器人的成功率提高了 4% 左右。听起来不多？在机器人领域，这已经是巨大的飞跃，意味着它不再容易“断片”或重复动作。
更快：因为它不需要看额外的视频，也不需要重新训练，所以机器人的反应速度几乎没有变慢，依然能实时控制。
通用：这套“记事本”可以贴在各种不同的大厨（不同的预训练模型）身上，直接生效。

总结

TempoFit 就像是给一个只有“金鱼记忆”的超级机器人，免费安装了一个“时间回溯眼镜”。

它不需要机器人重新上学，也不需要它背更多的书，而是巧妙地利用它大脑里原本就有的“工作记忆”，让它能记住刚才发生了什么，从而在复杂的长任务中不再迷路。这就好比给一个天才但健忘的助手，配了一个会自动整理重点的秘书，让他能完美地完成复杂的连续任务。

Each language version is independently generated for its own context, not a direct translation.

TempoFit 技术总结：面向长视野视觉 - 语言 - 动作（VLA）操作的即插即用层级时序 KV 记忆

1. 研究背景与问题 (Problem)

核心痛点：
尽管预训练的视觉 - 语言 - 动作（VLA）模型在单步操作任务中表现优异，但其在**长视野（Long-Horizon）**非马尔可夫环境下的推理能力存在显著缺陷。

无记忆性（Memoryless）： 大多数主流 VLA 模型采用“单帧决策”范式，仅编码当前观测和指令，缺乏对历史状态的显式记忆。
现实挑战： 在存在遮挡、状态混叠（State Aliasing，即不同状态视觉相似）或动作后视觉变化细微的场景中，模型容易陷入重复操作、漏步或跨阶段不连续等失败模式。

现有方案的局限性：

帧堆叠（Frame Stacking）： 将多帧历史图像作为输入。
- 缺点： 显著增加视觉 Token 数量和计算量，导致推理延迟高；且引入大量近重复像素，造成冗余并掩盖关键动态信息。
学习额外的时序接口（Learned Temporal Interfaces）： 引入检索与融合模块。
- 缺点： 通常需要重新训练或微调（Fine-tuning），破坏了原始单帧推理图；在冻结预训练权重的情况下，骨干网络无法正确解读新引入的状态表示，难以实现“即插即用”。

目标： 寻找一种无需重新训练、不扩展输入上下文长度、不引入可训练模块的时序增强方案，以升级现有的强预训练 VLA 模型。

2. 方法论 (Methodology)

TempoFit 是一种**训练免费（Training-free）**的时序 retrofit（改造）模块，其核心思想是利用预训练模型内部已有的注意力状态（Prefix K/V）作为模型原生的、内容可寻址的运行时记忆。

核心组件与流程：

层级 FIFO KV 缓存 (Layer-Wise FIFO KV Cache)：
- 存储位置： 仅在选定的**中间层（Intermediate Layers）**缓存前缀注意力键值（K/V）。
- 原理： 利用 Transformer 中间层捕捉丰富且可迁移的特征，避免深层任务特定表示的干扰。
- 机制： 维护一个先进先出（FIFO）缓冲区，仅存储前缀时间步的 K/V（不包含动作后缀 Token），不增加输入序列长度。
K-to-K 检索 (K-to-K Retrieval)：
- 检索方式： 利用当前时间步的前缀键（Current Keys）作为查询，在历史键空间中进行地址空间匹配（Address-Space Matching）。
- 优势： 直接复用预训练 Transformer 原有的注意力度量机制，无需学习新的查询投影或门控，确保与冻结权重的几何结构兼容。
帧间隙时序偏置 (Frame-Gap Temporal Bias, FGTB)：
- 问题： 简单的检索可能过度关注陈旧的历史线索，导致“历史 - 当前”干扰。
- 解决方案： 引入一种固定的、可解释的近期性偏置。在检索 logits 上添加线性衰减偏置： $Bias = -\beta \cdot |t - \tau|$ 。
- 作用： 类似于 NLP 中的位置偏置，强制决策以当前观测为主导，抑制过时历史的影响，且无需学习参数。
范数保持残差加载 (Norm-Preserving Residual Loading)：
- 注入机制： 将检索到的历史上下文（ $K_{ctx}, V_{ctx}$ ）通过残差方式注入到当前步的 K/V 中： $\tilde{K} = K + K_{ctx}$ 。
- 关键创新： 为了防止在冻结权重下因加法更新导致的分布偏移（Distribution Shift），采用范数保持重缩放，将融合后的张量投影回原始 Token 的 $\ell_2$ 范数。
- 效果： 在不改变 Token 化、张量形状和掩码的前提下，使冻结的骨干网络能够感知历史，同时保持推理稳定性。

3. 主要贡献 (Key Contributions)

TempoFit 框架： 提出了一种无需训练、无需修改模型参数或输入长度的时序 retrofit 方案，显著提升了预训练 VLA 策略的时序一致性和长视野操作能力。
原生检索与注入算子： 设计了基于层级的 KV 原生检索机制，结合FGTB（帧间隙时序偏置），在冻结权重下有效抑制陈旧上下文干扰，减少历史与当前的冲突。
广泛的实验验证： 在 LIBERO-LONG、CALVIN 基准测试及真实机器人（Realman RM-65B）上进行了验证，证明了该方法在保持高推理效率的同时，显著提升了长视野任务的成功率。

4. 实验结果 (Results)

基准测试表现：

LIBERO-LONG：
- 在强预训练骨干 $\pi_0.5$ 上，平均成功率从 92.6% 提升至 96.6% (+4.0%)。
- 在 QwenGR00T 上，从 90.8% 提升至 94.4% (+3.6%)。
- 表现优于需要训练的时序模型（如 MemoryVLA, HiF-VLA），且无需额外训练。
CALVIN：
- 在 D-D（同域）和 ABC-D（跨域）设置下，均提升了长视野连续任务的成功执行长度（例如 D-D 从 3.78 提升至 3.84）。
- 增益主要集中在任务序列的后半部分，证明其有效解决了长视野下的状态消歧问题。

效率与扩展性：

推理延迟： 相比多帧堆叠（Frame Stacking），TempoFit 的延迟增加极小。
- 例如，在 8 帧历史下，多帧堆叠延迟增加 2.48 倍，而 TempoFit 仅增加 1.04 倍。
显存占用： 峰值显存几乎无增长（约 1.03 倍），远优于多帧堆叠的 7.19 倍。

真实世界机器人实验：

在 Realman RM-65B 机器人上执行三个长视野任务（如放置蔬菜、清理桌面、整理碗具）。
相比基线 $\pi_0.5$ ，TempoFit 在完整序列任务上的成功率平均提升了 9.5%，有效解决了因状态混叠（如两个相同的绿碗）导致的任务停滞或重复执行问题。

消融实验结论：

层选择： 仅在中间层启用记忆效果最佳；全层启用会导致性能大幅下降（74.2%）。
检索策略： K-to-K 检索优于 Q-to-K 检索。
注入策略： 范数保持的残差加载至关重要，直接拼接（Concatenation）会导致性能崩溃（0.8%）。
FGTB： 引入 FGTB 是性能提升的关键，能有效抑制陈旧历史干扰。

5. 意义与价值 (Significance)

解锁预训练模型潜力： 证明了无需重新训练，仅通过利用模型内部状态即可显著提升 VLA 在复杂、非马尔可夫环境下的表现。
即插即用（Plug-and-Play）： 该方法不改变模型架构、权重或输入格式，可直接应用于现有的强预训练 VLA 模型，极大地降低了部署门槛。
高效性： 解决了长视野任务中“记忆”与“效率”的权衡难题，在几乎不增加推理延迟和显存的情况下实现了时序信息的注入。
通用性： 适用于不同的骨干网络（如 $\pi_0.5$ , QwenGR00T）和不同的机器人平台，展示了强大的泛化能力。

总结： TempoFit 通过一种巧妙的“状态级记忆”机制，将原本无记忆的 VLA 模型升级为具备长视野感知能力的智能体，为具身智能在真实复杂环境中的长程任务执行提供了高效、低成本的解决方案。

TempoFit: Plug-and-Play Layer-Wise Temporal KV Memory for Long-Horizon Vision-Language-Action Manipulation