原作者： Xinyang Liu, Xuanyu Liang, Shiqi Ding, Boyang Li, Zhiqiang Que, Jiayang Li, Guosheng Hu

发布于 2026-06-03✓ Author reviewed ⓘ

📖 1 分钟阅读☕ 轻松阅读

查看于 arXiv ↗PDF ↗

CC BY 4.0

原作者： Xinyang Liu, Xuanyu Liang, Shiqi Ding, Boyang Li, Zhiqiang Que, Jiayang Li, Guosheng Hu

原始论文采用 CC BY 4.0 许可（http://creativecommons.org/licenses/by/4.0/）。 ✨ 这是对下方论文的AI生成解释。它不是由作者撰写的。如需技术准确性，请参阅原始论文。阅读完整免责声明

想象一下，你正在试图教一群工人预测房间内的未来温度。

旧方法（反向传播/Backpropagation）：
几十年来，标准的方法就像一个严格的、自上而下的管理者。管理者查看最终的预测结果，发现错了，然后沿着整个团队一路走回，告诉每一个工人他们是如何导致这个错误的。

问题所在： 这要求管理者记住每个工人在整个过程中所做的所有事情（这需要消耗大量的脑力空间/内存）。而且，在管理者完成整个回溯过程之前，没有人可以修正自己的错误。这既慢又耗费内存，而且在生物学上是不真实的（我们的大脑并不是这样工作的）。

前一个“新”方法（前向-前向算法/Forward-Forward）：
几年前，一种被称为“前向-前向”（FF）的新方法被发明了。它不再使用向后走的管理者，而是使用一种“局部”的方法。每个工人只观察他们的直接邻居。

它是如何运作的： 它非常擅长处理是非题（分类问题）。系统会给工人展示一个“好”的例子（一只真实的猫）和一个“坏”的例子（一只随机的狗）。工人学习到：“我喜欢这只猫，我不喜欢那只狗。”
问题所在： 这种方法在挑选猫或狗时表现完美，但在预测数字（回归问题，例如温度）时却表现得一塌糊涂。你无法轻易地说“这个温度是好的”或“那个温度是坏的”，因为温度是一个连续的刻度。如果目标是 21°C，那么 20°C 是“坏”的吗？那 100°C 呢？旧方法无法处理数字之间的距离，它只能识别什么是“对”或“错”。

新的解决方案：FFR（用于回归的前向-前向算法）
这篇论文引入了 FFR，这是一个终于让这种“局部工人”方法能够处理像温度、速度或价格这类连续数字的新系统。以下是他们实现这一目标的三种巧妙技巧：

1. 用“拔河比赛”代替“好与坏”

FFR 不再仅仅向工人展示一个“好”例子和一个“坏”例子，而是将工人分为不同的团队。

类比： 假设目标温度是 20°C。工人被分为若干组：A 组负责 10–15°C，B 组负责 15–20°C，C 组负责 20–25°C，以此类推。
技巧： 系统不仅仅说“B 组是对的”。它会说：“B 组是获胜者，但 A 组和 C 组是紧随其后的亚军，而 Z 组（100°C）则是彻头彻尾的失败者。”
为什么有效： 这教会了工人不仅要判断哪个小组是对的，还要判断他们离正确答案有多近。它理解 19°C 比 10°C 更接近 20°C。这用“谁最接近？”的竞争取代了旧有的“好与坏”游戏。

2. “分层阶梯”（从粗略到精细）

论文构建了一个特殊的阶梯结构，工人们在向上攀爬的过程中会变得越来越精确。

类比：
- 底层阶梯（浅层）： 这些工人像是草图绘制者。他们只是决定温度是“冷”、“暖”还是“热”。他们做一个宏观且粗略的猜测。
- 顶层阶梯（深层）： 这些工人像是精细艺术家。他们接收来自下方的“暖”的猜测，并将其精炼为“20.5°C”。
协作方式： 系统并不会丢弃这些粗略的猜测。它会保留所有信息。在最顶端，一位“总教练”（最终层）会观察来自底部的粗略猜测和来自顶部的精细猜测，将它们混合在一起，做出最终预测。这确保了系统不会因为早期的错误猜测而陷入僵局。

3. “免费的午餐”（不确定性）

通常情况下，为了知道计算机对答案的信心程度，你需要运行一千次模拟并观察答案的变化情况。这非常耗时。

FFR 的技巧： 因为系统在阶梯的每个层级都有工人（从粗略到精细），它可以直接询问所有人：“你们怎么看？”
结果： 如果“粗略”层级的工人和“精细”层级的工人意见一致，系统就会非常有信心。如果他们在互相争论，系统就会知道：“嘿，我对这个不太确定。”
益处： 系统可以瞬间给出预测值和置信度分数，无需任何额外工作。这是一个“免费的午餐”。

他们证明了什么？

作者在现实世界的问题上测试了该方法，例如：

预测智能家居的能源消耗。
预测工厂中机床何时会发生故障。
预测室内位置（无需 GPS）。
从可穿戴设备预测健康指标。
判断图像质量。

实验结果：

准确度： FFR 达到了传统、沉重的“反向传播”方法准确度的 98.6%。
内存： 在中等深度下，它仅使用了 27% 的内存；在极深层级下，仅使用了 8%。（想象一下，无论你往背包里放多少本书，你的背包体积始终保持不变，而旧方法的背包会变得无限重）。
速度： 它的每步训练速度快了约 28%，因为它不需要等待“向后行走”的过程。

总结：
FFR 将一种此前仅适用于简单“是非”决策的方法，升级到了可以处理复杂数字预测的高度。它通过将学习过程转变为一场“谁最接近？”的竞争，构建了一个从粗略到精细的工人阶梯，并实现了免费获取置信度分数。它证明了我们可以构建出智能、高效的 AI，而无需依赖统治该领域数十年的那种沉重、耗费内存的“向后行走”机制。

技术摘要：FFR (用于回归的 Forward-Forward 算法)

1. 问题陈述

由 Hinton 等人提出的 Forward-Forward (FF) 算法通过纯粹的局部、逐层优化（利用正向和负向数据两次前向传递），为反向传播 (BP) 提供了一种具有生物合理性且内存高效的替代方案。然而，FF 本质上是为分类任务设计的，依赖于“真实”（正向）与“伪造”（负向）样本的对比对。将 FF 扩展到现实世界回归任务面临两个根本挑战：

缺乏天然负样本： 在连续的目标空间中，不存在天然定义的“负”样本。与分类任务不同（其中随机的错误标签即可满足需求），连续值（例如 $y+0.1$ 与 $y+100$ ）无法被简单地归类为同等程度的错误，这使得对比对的构建变得模糊不清。
量级与顺序盲目性： 标准 FF 的“良好度”函数 ( $g = \|h\|^2$ ) 测量激活强度以进行二元判别，但它不携带关于目标量级或序数顺序的信息。这使得它不适用于需要监督实值预测、且要求相对距离具有意义的任务。

现有的弥补这一差距的尝试非常有限：一些方法将回归转化为容差带上的二元分类（保留了高额开销且精度有限），另一些则用方向导数替换良好度函数（以牺牲精度来换取硬件的可实现性）。目前尚无研究能在多样化的现实回归数据集上展现出与 BP 相当的竞争性能。

2. 方法论：FFR 框架

作者提出了 FFR (Forward-Forward for Regression) 框架，通过三项核心创新将 FF 扩展到回归领域：

2.1 序数竞争良好度函数

FFR 不直接使用均方误差 (MSE) 回归或对比对，而是将每个隐藏层视为一个序数分类器。

离散化： 将连续目标范围 $[y_{min}, y_{max}]$ 在第 $\ell$ 层划分为 $K_\ell$ 个有序区间（bins）。
竞争组： 将层内的神经元划分为不相交的组 $\{G_{\ell,1}, \dots, G_{\ell,K_\ell}\}$ ，其中每个组对应一个特定的区间。
序数监督： FFR 不使用硬性的 one-hot 标签，而是采用距离感知软标签。在真实目标 $y$ 处中心化一个高斯波峰，并将其投影到区间中点上。这创建了一个目标分布 $q_{\ell,k}$ ，其中靠近目标的区间比远离目标的区间获得更高的概率质量。
良好度计算： 一个组的“良好度”是其神经元平均激活平方。该值被归一化为概率分布 $p_{\ell,k}$ 。层损失是软标签 $q$ 与良好度分布 $p$ 之间的交叉熵。这在保留局部竞争的同时，编码了目标的序数结构。

2.2 分层阶梯架构

为了防止“表示坍缩”（即所有层学习到完全相同的粗糙特征）并实现细粒度回归：

分层粒度： 区间数量 $K_\ell$ 随层数倍增 ( $K_\ell = 2^{d_0 + \ell - 1}$ )。浅层学习粗略的序数判别（宽区间），而深层则将其细化为细粒度的划分。
组内归一化： 为了防止组间激活泄漏，归一化是在每个组内部而非整个层内进行的。
阶梯聚合： 所有中间层的良好度值（标量）被拼接并输入到一个终端线性回归头中。这允许层间协作，而无需通过中间层反向传播梯度，从而保留了 FF 的局部更新特性。

2.3 带有不确定性估计的分层预测

FFR 利用阶梯架构的多尺度特性，提供稳健的预测和不确定性估计，且这种估计是“免费”获得的：

集成预测： 每个中间层 $\ell$ 根据其在区间中点上的 softmax 分布产生一个连续预测 $\mu_\ell$ 。最终预测 $\hat{y}$ 是所有层输出与终端回归头的加权集成。
免费的不确定性： 预测不确定性通过各层预测相对于集成均值的加权离散度来计算。这提供了一种置信度指标，而无需进行蒙特卡洛 Dropout 或贝叶斯近似。

3. 核心贡献

首个现实世界 FF 回归框架： FFR 是第一个成功将 Forward-Forward 学习扩展到现实回归任务的框架，在包括智能家居 IoT、工业传感、室内定位、可穿戴健康和图像质量评估在内的多个领域展示了竞争力的性能。
三大技术创新：
- 一个序数竞争良好度函数，用层内竞争及距离感知的序数监督取代了对比对。
- 一个分层阶梯架构，使序数粒度随深度增加而扩展，并聚合多尺度特征。
- 一个分层预测机制，可在单次前向传递中实现稳健估计和不确定性量化。
效率与性能： 在五个现实基准测试中，FFR 平均达到了 BP-UR 等效模型的 98.6% 准确率。至关重要的是，在深度为 8 时，它将峰值训练内存降低至 BP 的 27%；在深度为 32 时，降低至 8%，同时将单次迭代训练时间维持在 BP 的约 72%。

4. 实验结果

作者在以下任务中评估了 FFR：

合成基准： Sin-Cos, Exp-Trig-Poly 以及多目标变体 (MT-A, MT-B)。
现实数据集： 家电能耗 (Appliances Energy)、机床磨损 (Machine Tool Wear)、UJIIndoorLoc、BIDMC (可穿戴健康) 和 KonIQ-10k (图像质量)。

主要发现：

准确率： FFR 的表现优于所有无 BP 竞争对手（包括 FF-MSE, FF-CLF, FF-CAR, FF-Zero, PEPITA, 和 F3）。在多个现实数据集（UJIIndoorLoc, BIDMC, Appliances）上，FFR 甚至超过了标准的 BP 基准，这表明层次化集成提供了补充信号。
内存缩放： 不同于 BP 的内存使用量随深度线性增长（由于存储激活值），FFR 的内存使用量随深度增加保持近乎恒定，因为中间激活在局部更新后即被丢弃。
不确定性： 可视化结果显示，预测不确定性带会针对困难或异常样本正确地变宽，验证了这种“免费午餐”式不确定性估计的实用性。

5. 重要性与主张

本文声称，FFR 证明了精心设计的局部学习可以以极低的训练成本媲美全局优化 (BP)。通过解决 FF 的对比性质与回归连续目标空间之间的根本不匹配，FFR 使得在资源受限的硬件（如 IoT 传感器、边缘控制器、机器人）上部署具有生物合理性且内存高效的学习成为可能，而在这些设备上由于内存和更新锁定限制，BP 是无法实现的。

作者承认了局限性，指出目前的实现使用的是标准浮点精度，尚未在低比特加速器或模拟/物理计算硬件上进行验证，这些将作为未来的研究方向。

FFR: Forward-Forward Learning for Regression