FOZO: Forward-Only Zeroth-Order Prompt Optimization for Test-Time Adaptation

本文提出了名为 FOZO 的新型前向零阶提示优化方法,通过结合中间特征统计与预测熵的优化目标及动态衰减扰动策略,在无需反向传播的情况下实现了资源受限场景下高效且稳定的测试时适应,并在多项基准测试中超越了现有的梯度基及前向优化方法。

Xingyu Wang, Tao Wang

发布于 2026-03-06
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一种名为 FOZO 的新方法,旨在解决人工智能(AI)模型在现实生活中“水土不服”的问题。

为了让你更容易理解,我们可以把 AI 模型想象成一位刚毕业的优秀厨师,而这篇论文讲述的是如何让他在不重新进学校读书(不修改核心配方)的情况下,快速适应新餐厅的口味

1. 背景:厨师遇到了麻烦

  • 训练好的模型(厨师): 这位厨师在“标准厨房”(训练数据)里练得很好,能做出完美的菜。
  • 现实问题(分布偏移): 现在他要去“新餐厅”(测试环境)工作了。这里的食材变了(比如从新鲜蔬菜变成了冷冻蔬菜,或者客人喜欢更咸的口味),这就是数据分布偏移
  • 传统方法的困境:
    • 方法 A(反向传播/Backpropagation): 就像让厨师重新进学校,把以前学的菜谱全部推翻,重新背一遍。这需要大量的时间、精力和记忆(计算资源),而且很多小餐馆(低配置设备)根本请不起这么多老师,或者不允许厨师乱改核心配方。
    • 方法 B(无梯度/Forward-Only): 之前的尝试是只让厨师尝一尝新菜,然后凭感觉微调。但之前的方法要么太慢(像盲人摸象),要么效果不好。

2. FOZO 的核心创意:只向前看,用“零阶”智慧

FOZO 提出了一种**“只向前看”(Forward-Only)**的策略。

  • 不修改配方(不更新模型权重): 厨师的“核心菜谱”(模型参数)是锁死的,不能改。
  • 只改“摆盘”和“调料”(提示词 Prompt): 我们只允许厨师在端菜前,往盘子里加一点点特殊的“装饰”或“调料”(这就是提示词/Prompt)。这些装饰是可以随时调整的。
  • 零阶优化(Zeroth-Order): 这是最关键的一点。
    • 传统优化需要知道“如果我把盐加多 1 克,味道会变好多少”(这需要计算梯度,就像需要知道味道的导数)。
    • FOZO 的零阶优化不需要知道导数。它的方法是:“试错法”
    • 比喻: 厨师不知道具体该加多少盐,但他可以试两次:
      1. 第一次:多加一点点盐(P+ϵP + \epsilon),尝尝味道。
      2. 第二次:少加一点点盐(PϵP - \epsilon),尝尝味道。
      3. 比较两次结果,如果“多加”的那次更好,那就往那个方向调整。
    • 这种方法不需要复杂的数学推导(反向传播),只需要做两次“尝味”(前向传播),非常省内存,适合在老旧的电脑或手机芯片上运行。

3. 两大创新点:如何避免“试错”走弯路?

虽然“试错法”很省资源,但如果乱试,可能会在错误的方向上越走越远。FOZO 有两个聪明的策略:

A. 动态扰动(Dynamic Perturbation):像“探险家”一样

  • 问题: 刚开始适应新环境时,情况很混乱(数据分布变了),如果步子太小,可能永远找不到好吃的方向;如果步子太大,又容易把菜做咸了。
  • FOZO 的解法: 给厨师一个**“动态的探索步长”**。
    • 初期(探索期): 步子迈大一点(ϵ\epsilon 大),大胆尝试各种口味,快速找到新餐厅的偏好,避免被困在“不好吃”的局部最优解里。
    • 后期(收敛期): 一旦找到了大概方向,步子就慢慢变小(ϵ\epsilon 衰减),精细调整,确保味道完美。
    • 比喻: 就像在迷雾中找路,刚开始要大步流星到处探路,找到路标后,就小心翼翼地沿着路走。

B. 深浅层对齐(Deep-Shallow Aligning):不仅看结果,还要看过程

  • 问题: 仅仅看最后的菜好不好吃(预测熵最小化)可能不够,因为厨师可能在“作弊”(比如只猜最常见的菜)。
  • FOZO 的解法: 我们不仅看最后的菜,还要检查厨师在**切菜(浅层特征)炒菜(深层特征)**时的状态。
    • 我们要求厨师在“切菜”和“炒菜”时的状态,要尽量接近他在“标准厨房”时的状态。
    • 比喻: 就像检查一个学生,不仅看他的考试成绩(预测结果),还要看他的解题步骤(中间特征)。如果步骤都乱了,成绩再好也可能是蒙的。FOZO 确保厨师的“解题思路”依然稳健。

4. 成果:又快又好,还能在“旧手机”上跑

论文在多个测试(如 ImageNet-C,模拟各种恶劣天气下的图片识别)中证明了 FOZO 的强大:

  1. 性能最强: 在只进行26 次“尝味”(前向传播)的情况下,FOZO 的准确率(59.52%)超过了之前最好的方法(FOA 是 58.13%,ZOA 是 58.56%)。
  2. 速度最快: 它达到同样准确率所需的时间,比竞争对手少了约 34%。
  3. 资源最省: 它不需要修改模型的核心参数,只需要调整很少的“提示词”,内存占用极低。
  4. 抗造: 即使在量化模型(把高精度的 32 位浮点数压缩成低精度的 8 位整数,就像把高清电影压缩成低清视频)上,FOZO 依然表现优异。这意味着它非常适合在手机、嵌入式设备等算力有限的地方使用。

总结

FOZO 就像是一位聪明的“试菜员”。它不需要重新培训厨师(不反向传播),而是通过**“大胆尝试、精细调整”(动态扰动)和“关注过程与结果”(深浅层对齐)的策略,让 AI 模型在面对陌生环境时,能快速、低成本、高精度**地自我适应。

这对于让 AI 真正走进我们的日常生活(比如在手机、汽车、工厂设备上实时运行)具有非常重要的意义。