FOZO: Forward-Only Zeroth-Order Prompt Optimization for Test-Time Adaptation

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一种名为 FOZO 的新方法，旨在解决人工智能（AI）模型在现实生活中“水土不服”的问题。

为了让你更容易理解，我们可以把 AI 模型想象成一位刚毕业的优秀厨师，而这篇论文讲述的是如何让他在不重新进学校读书（不修改核心配方）的情况下，快速适应新餐厅的口味。

1. 背景：厨师遇到了麻烦

训练好的模型（厨师）： 这位厨师在“标准厨房”（训练数据）里练得很好，能做出完美的菜。
现实问题（分布偏移）： 现在他要去“新餐厅”（测试环境）工作了。这里的食材变了（比如从新鲜蔬菜变成了冷冻蔬菜，或者客人喜欢更咸的口味），这就是数据分布偏移。
传统方法的困境：
- 方法 A（反向传播/Backpropagation）： 就像让厨师重新进学校，把以前学的菜谱全部推翻，重新背一遍。这需要大量的时间、精力和记忆（计算资源），而且很多小餐馆（低配置设备）根本请不起这么多老师，或者不允许厨师乱改核心配方。
- 方法 B（无梯度/Forward-Only）： 之前的尝试是只让厨师尝一尝新菜，然后凭感觉微调。但之前的方法要么太慢（像盲人摸象），要么效果不好。

2. FOZO 的核心创意：只向前看，用“零阶”智慧

FOZO 提出了一种**“只向前看”（Forward-Only）**的策略。

不修改配方（不更新模型权重）： 厨师的“核心菜谱”（模型参数）是锁死的，不能改。
只改“摆盘”和“调料”（提示词 Prompt）： 我们只允许厨师在端菜前，往盘子里加一点点特殊的“装饰”或“调料”（这就是提示词/Prompt）。这些装饰是可以随时调整的。
零阶优化（Zeroth-Order）： 这是最关键的一点。
- 传统优化需要知道“如果我把盐加多 1 克，味道会变好多少”（这需要计算梯度，就像需要知道味道的导数）。
- FOZO 的零阶优化不需要知道导数。它的方法是：“试错法”。
- 比喻： 厨师不知道具体该加多少盐，但他可以试两次：
  1. 第一次：多加一点点盐（ $P + \epsilon$ ），尝尝味道。
  2. 第二次：少加一点点盐（ $P - \epsilon$ ），尝尝味道。
  3. 比较两次结果，如果“多加”的那次更好，那就往那个方向调整。
- 这种方法不需要复杂的数学推导（反向传播），只需要做两次“尝味”（前向传播），非常省内存，适合在老旧的电脑或手机芯片上运行。

3. 两大创新点：如何避免“试错”走弯路？

虽然“试错法”很省资源，但如果乱试，可能会在错误的方向上越走越远。FOZO 有两个聪明的策略：

A. 动态扰动（Dynamic Perturbation）：像“探险家”一样

问题： 刚开始适应新环境时，情况很混乱（数据分布变了），如果步子太小，可能永远找不到好吃的方向；如果步子太大，又容易把菜做咸了。
FOZO 的解法： 给厨师一个**“动态的探索步长”**。
- 初期（探索期）： 步子迈大一点（ $\epsilon$ 大），大胆尝试各种口味，快速找到新餐厅的偏好，避免被困在“不好吃”的局部最优解里。
- 后期（收敛期）： 一旦找到了大概方向，步子就慢慢变小（ $\epsilon$ 衰减），精细调整，确保味道完美。
- 比喻： 就像在迷雾中找路，刚开始要大步流星到处探路，找到路标后，就小心翼翼地沿着路走。

B. 深浅层对齐（Deep-Shallow Aligning）：不仅看结果，还要看过程

问题： 仅仅看最后的菜好不好吃（预测熵最小化）可能不够，因为厨师可能在“作弊”（比如只猜最常见的菜）。
FOZO 的解法： 我们不仅看最后的菜，还要检查厨师在**切菜（浅层特征）和炒菜（深层特征）**时的状态。
- 我们要求厨师在“切菜”和“炒菜”时的状态，要尽量接近他在“标准厨房”时的状态。
- 比喻： 就像检查一个学生，不仅看他的考试成绩（预测结果），还要看他的解题步骤（中间特征）。如果步骤都乱了，成绩再好也可能是蒙的。FOZO 确保厨师的“解题思路”依然稳健。

4. 成果：又快又好，还能在“旧手机”上跑

论文在多个测试（如 ImageNet-C，模拟各种恶劣天气下的图片识别）中证明了 FOZO 的强大：

性能最强： 在只进行26 次“尝味”（前向传播）的情况下，FOZO 的准确率（59.52%）超过了之前最好的方法（FOA 是 58.13%，ZOA 是 58.56%）。
速度最快： 它达到同样准确率所需的时间，比竞争对手少了约 34%。
资源最省： 它不需要修改模型的核心参数，只需要调整很少的“提示词”，内存占用极低。
抗造： 即使在量化模型（把高精度的 32 位浮点数压缩成低精度的 8 位整数，就像把高清电影压缩成低清视频）上，FOZO 依然表现优异。这意味着它非常适合在手机、嵌入式设备等算力有限的地方使用。

总结

FOZO 就像是一位聪明的“试菜员”。它不需要重新培训厨师（不反向传播），而是通过**“大胆尝试、精细调整”（动态扰动）和“关注过程与结果”（深浅层对齐）的策略，让 AI 模型在面对陌生环境时，能快速、低成本、高精度**地自我适应。

这对于让 AI 真正走进我们的日常生活（比如在手机、汽车、工厂设备上实时运行）具有非常重要的意义。

Each language version is independently generated for its own context, not a direct translation.

以下是关于论文 FOZO: Forward-Only Zeroth-Order Prompt Optimization for Test-Time Adaptation 的详细技术总结：

1. 研究背景与问题 (Problem)

测试时适应 (Test-Time Adaptation, TTA) 旨在利用无标签的测试数据动态调整预训练模型，以应对训练集与测试集之间的数据分布偏移（Distribution Shifts）。然而，现有的 TTA 方法在实际部署中面临两大瓶颈：

基于反向传播的方法 (Backpropagation-based): 如 TENT、EATA 等，虽然性能优异，但需要大量的计算资源和显存来执行反向传播，且会修改模型权重，难以在资源受限的边缘设备（如低功耗 FPGA）或黑盒模型（权重不可变/量化模型）上部署。
现有的前向传播方法 (Forward-Only): 如 FOA (基于进化算法 CMA-ES) 和 ZOA (基于零阶优化)，虽然避免了反向传播，但仍存在局限性：
- FOA: 使用 CMA-ES 优化提示词（Prompts），在高维参数空间下收敛缓慢，且计算效率低。
- ZOA: 直接修改模型内部组件（如归一化层参数），在模型参数不可变或量化的场景下适用性受限。
- 通用挑战: 在分布偏移的数据流中，零阶梯度估计往往不准确，导致优化不稳定或陷入局部最优。

2. 核心方法论 (Methodology)

作者提出了 FOZO (Forward-Only Zeroth-Order Optimization)，一种新颖的、无需反向传播的 TTA 范式。其核心思想是利用零阶梯度估计来优化可学习的视觉提示词 (Visual Prompts)，仅通过前向传播完成适应。

2.1 零阶提示优化 (Zeroth-Order Prompt Optimization)

机制: 不更新模型权重，而是插入可学习的提示向量 $P$ 到 ViT 的输入层。
梯度估计: 采用 SPSA (Simultaneous Perturbation Stochastic Approximation) 技术。通过向提示词添加正负扰动 ( $P \pm \epsilon_t Z$ )，执行两次前向传播，计算损失函数的差值来估计梯度方向，完全避免了反向传播。
效率: 仅需前向传播，显著降低了显存占用和计算开销。

2.2 动态扰动策略 (Dynamic Perturbation Scheme)

针对 TTA 数据流中分布偏移导致梯度估计不可靠的问题，FOZO 引入了动态调整扰动尺度 $\epsilon_t$ 的机制：

原理: 在优化初期或检测到分布剧烈变化（损失波动大）时，使用较大的 $\epsilon_t$ 以增强探索能力 (Exploration)，帮助模型跳出局部最优；随着优化稳定， $\epsilon_t$ 按指数衰减，以增强开发能力 (Exploitation) 确保精确收敛。
更新规则: 基于历史平均损失与当前损失的比较，动态重置或衰减扰动步长。

2.3 无监督损失函数 (Unsupervised Loss Function)

为了在无标签环境下指导优化，设计了包含两部分的损失函数：

深浅层特征统计对齐 (Deep-Shallow Feature Alignment): 计算模型浅层和深层 [CLS] token 激活值的均值和方差，并与源域统计量对齐，以缓解特征分布偏移。
熵最小化 (Entropy Minimization): 最小化预测概率的熵，鼓励模型对测试样本做出高置信度的预测。

3. 理论贡献 (Theoretical Contributions)

收敛性证明: 基于 $\ell$ -平滑性假设和局部 $r$ -有效秩 (Local $r$ -effective rank) 假设，作者从理论上证明了 FOZO 的收敛性。
关键发现: 证明了 FOZO 的收敛速率取决于损失函数的有效秩 $r$ ，而不是模型参数的总维度 $d$ 。这意味着即使在高维参数空间中，只要损失景观具有低有效秩结构，零阶优化依然高效。
动态扰动分析: 理论分析了动态扰动策略在平衡探索与收敛误差中的作用，证明了其能有效减少偏差项。

4. 实验结果 (Results)

作者在 ImageNet-C (持续适应)、ImageNet-R 和 ImageNet-Sketch 等多个基准上进行了广泛实验：

性能表现:
- 在 ImageNet-C (Level 5, 5k 图像) 上，FOZO 达到了 59.52% 的 Top-1 准确率，超越了 SOTA 前向传播方法 FOA (58.13%) 和 ZOA (58.56%)。
- 在同等前向传播次数下，FOZO 的收敛速度显著快于 FOA 和 ZOA（达到 65% 准确率所需时间仅为它们的 66%）。
- 在量化模型 (INT8) 上，FOZO 同样表现出最强的适应性 (58.00%)，优于其他前向传播方法。
资源效率:
- 显存: 仅占用约 831 MiB，远低于基于反向传播的方法（如 TENT 需 5495 MiB）。
- 参数量: 仅更新约 2304 个参数（提示词），而 ZOA 需更新 26145 个参数。
- 计算: 无需反向传播，适合边缘设备部署。

5. 主要贡献总结 (Key Contributions)

提出 FOZO 范式: 首个结合零阶优化与提示微调的高效前向传播 TTA 方法，无需反向传播即可实现高性能适应。
解决优化难题: 提出动态扰动策略，有效解决了分布偏移数据流中零阶梯度估计不准确和收敛慢的问题。
理论保障: 在 TTA 数据流假设下，理论证明了该方法基于有效秩的收敛性，为高维零阶优化提供了理论依据。
广泛适用性: 验证了该方法在量化模型和持续适应 (Continual Adaptation) 场景下的有效性，证明了其在资源受限和动态环境中的鲁棒性。

6. 意义与影响 (Significance)

FOZO 为测试时适应提供了一种极具实用价值的解决方案。它打破了高性能 TTA 必须依赖昂贵反向传播的局限，使得在边缘计算设备、黑盒模型以及量化部署场景下的高效自适应成为可能。其“前向传播 + 零阶优化 + 动态扰动”的组合策略，为未来在资源受限环境下的模型鲁棒性研究提供了新的方向。

代码开源: https://github.com/eVI-group-SCU/FOZO