Activation Functions, Statistics and Learning of Higher-Order Interactions in… — 通俗解释

想象一下，你正在尝试教计算机识别数据中的复杂模式，比如在人群中辨认出一张特定的脸，或者理解一首歌的情绪。为此，计算机使用一个由多层简单单元构成的“大脑”。其中一种流行的“大脑”类型被称为受限玻尔兹曼机（RBM）。

将 RBM 想象成一座两层楼的建筑：

一楼（可见单元）： 数据居住在这里（图片、声音、数字）。
二楼（隐藏单元）： “思考”在这里发生。这些单元观察一楼，试图找出连接数据点的隐藏规则。

这篇论文提出的核心问题是：二楼单元的“个性”如何影响计算机所学到的内容？

用技术术语来说，这种“个性”被称为激活函数。它是一个规则，决定了一个单元对接收到的信息做出反应的强烈程度。作者测试了四种不同的“个性”：

线性： 一种温和的、直线的反应。
阶跃： 一个开/关开关（就像电灯开关）。
ReLU： 一种“整流”开关，忽略负输入，但允许正输入通过。
指数型： 一旦接收到少量输入，反应强度就会急剧爆发的单元。

核心发现：简单关系与复杂关系

论文揭示，这种“个性”的选择会改变计算机能够轻松理解的关系类型。

“简单”的个性（线性、阶跃、ReLU）：
想象这些单元就像只关心成对关系的人。如果你有一群朋友，一个“阶跃”或"ReLU"单元非常擅长注意到“爱丽丝和鲍勃总是一起出现”。它善于发现简单的、两人之间的连接。然而，它难以理解复杂的群体动态，例如“只有当戴夫也在场时，爱丽丝、鲍勃和查理才会聚在一起”。这些复杂的、多人参与的规则（称为高阶交互）往往会消失，或者在计算机的记忆中变得非常微弱。

“爆发式”的个性（指数型）：
现在，想象一个对输入反应剧烈的单元。作者发现，如果使用这种指数型函数，计算机在理解那些复杂的群体动态方面会变得更强。它能够轻松学会“爱丽丝、鲍勃和查理”之间存在着一种特殊的纽带，这种纽带若缺少他们所有人同时在场就不复存在。

“简单之海”与“复杂之岛”

作者使用了一个巧妙的海洋类比来解释他们的发现：

简单模型之海： 对于大多数激活函数（如 ReLU 或阶跃），计算机的“自然状态”是一片充满简单、衰减关系的海洋。如果你向计算机投掷一组随机的权重（随机连接），它几乎总是会学会简单的成对关系。复杂的规则就像这片海洋中罕见的岛屿；它们如此难以寻觅，以至于计算机很少能偶然发现它们。
复杂之岛： 然而，使用指数型函数时，景观发生了变化。存在一个特定的参数“区域”（一种设置计算机初始参数的特定方式），计算机在其中自然地漂浮在复杂、非衰减关系的海洋中。在这个区域里，复杂的群体规则与简单的成对关系一样普遍。

训练计算机时会发生什么？

研究人员随后模拟了在这些不同类型的计算机上训练它们，以观察会发生什么情况。

学习简单数据： 当他们用包含简单规则（仅成对关系）的数据训练计算机时，所有类型的激活函数都表现良好。它们都有效地学会了简单的规则。
学习复杂数据： 当他们用包含复杂、多人参与规则的数据训练计算机时：
- 线性、阶跃和 ReLU： 计算机未能学会复杂的规则。相反，它试图强行将简单的解释套用在复杂数据上。它本质上对群体动态“放弃了”，只学习了各个部分，而忽略了整体图景。
- 指数型： 计算机成功了。因为其自然状态允许复杂规则的存在，它能够学习并重现数据中错综复杂的群体动态。

“简单性偏差”

论文得出结论，神经网络具有一种内置的“简单性偏差”。它们自然地倾向于首先学习简单的、低层级的连接。这通常是一件好事，但也意味着它们难以处理本质上复杂的数据。

关键要点在于，通过选择指数型激活函数，你可以打破这种偏差。你可以调整计算机，使其天然地倾向于学习复杂的、高阶的模式，而其他类型的网络则会忽略这些模式或无法对其进行表征。

简而言之： 如果你希望你的 AI 理解简单的成对关系，几乎任何“个性”都有效。但如果你希望它理解复杂的群体动态，你就需要赋予它“指数型”个性，这将使计算机天然具备洞察整体图景的能力，而不仅仅是看到各个碎片。

技术摘要：受限玻尔兹曼机中激活函数、统计特性与高阶相互作用的习得

问题陈述
尽管神经网络因其能够通过结合大量参数和非线性激活函数来识别隐藏模式而广受认可，但隐藏单元激活函数的形式对网络性能和表征能力的具体影响，在理论上仍未得到充分探索。尽管经验证据表明，与 Sigmoid 单元相比，ReLU 等非线性函数能改善收敛性和性能，但目前缺乏对不同激活函数如何影响受限玻尔兹曼机（RBM）所能表征的统计规律的系统性理论评估。具体而言，激活函数的选择如何影响 RBM 学习和表征具有强高阶相互作用（即超越成对相互作用的相互作用）的数据结构的能力，尚不明确。

方法论
作者利用了受限玻尔兹曼机（RBM）与相互作用二值变量模型之间的对偶性。通过对隐藏单元进行边缘化，RBM 可以被精确映射为一个可见单元直接与任意阶数 $s$ 的项相互作用的模型。相互作用项 $I_{i_1, \dots, i_s}$ 被解析地表示为隐藏层非线性函数以及连接隐藏单元与可见单元的权重的函数。

本研究分为两个主要分析阶段：

精确统计分析：针对线性和指数（泊松）激活函数，作者推导了当权重从正态分布中抽取时，所诱导的相互作用项的期望值和相关性（矩）的精确解析表达式。
小波动展开：针对阶跃（Sigmoid）和ReLU激活函数，由于精确解更为复杂，作者采用了围绕平均权重 $w_0$ 的相互作用项的二阶展开。该近似使得能够计算这些非线性函数的期望值和方差。

这些解析预测在针对特定真实分布（包括相互作用强度随阶数衰减的模型和相互作用强度不随阶数衰减的模型）的训练过程的数值模拟中得到了验证。

主要贡献与结果

相互作用空间的表征：本文解析地表征了四种激活函数（线性、阶跃、ReLU 和指数）的可表征模型空间。
- 线性 RBM：仅产生非零的成对相互作用（场和成对项）；所有高阶相互作用均为零。
- 指数 RBM：展现出丰富的相互作用结构，其中高阶项非零。关键在于，如果参数 $\gamma_1 > 1$ （该条件由权重的均值和方差决定），相互作用项的期望值可随相互作用阶数 $s$ 呈指数增长。
- 阶跃和 ReLU RBM：虽然它们产生高阶相互作用，但分析表明，低阶相互作用通常占主导地位，且相互作用的幅度通常随阶数衰减。
波动分析：研究确定了相互作用项的波动超过其期望值的机制。对于指数激活函数，存在一个参数区域，其中高阶相互作用的波动大于低阶相互作用的波动，这一现象在线性、阶跃或 ReLU 情况下并未观察到。
学习动力学与“衰减”与“非衰减”模型：
- 作者将衰减模型定义为相互作用幅度随阶数减小的模型，将非衰减模型定义为相互作用幅度不随阶数减小的模型。
- 一般发现：在弱耦合机制下，在各种数据上训练的 RBM 倾向于收敛到衰减相互作用模型，无论激活函数如何。这表明存在一种“简单性偏差”，即学习过程倾向于低阶特征。
- 指数例外：在特定参数机制下（大平均权重 $w_0$ 或大权重方差），具有指数激活函数的 RBM 会进入非衰减机制。在此机制下，系综中包含显著比例的模型，其中高阶相互作用与低阶相互作用相当或更大。
- 训练性能：当在具有强非衰减（例如纯三体）相互作用的真实数据上进行训练时：
  - 具有阶跃、ReLU 或线性激活的 RBM 无法重构非衰减结构，实际上是将数据作为衰减模型进行学习（用低阶项近似高阶项）。
  - 具有指数激活的 RBM 能够成功重构非衰减相互作用结构，并在参数处于解析确定的非衰减机制范围内时，实现显著更低的 Kullback-Leibler (KL) 散度。

意义与主张
本文主张，激活函数的选择是决定 RBM“表征偏差”的关键设计参数。

理论洞察：该工作提供了一个理论框架，表明快速增加的非线性函数（特别是指数函数）可以促进具有大高阶相互作用项的数据结构的表征和学习。这是通过将 RBM 的统计系综从衰减机制转移到非衰减机制来实现的。
简单性偏差：结果表明，神经网络中观察到的“简单性偏差”（即倾向于首先学习低阶特征）可能不仅源于学习算法（如随机梯度下降），也源于激活函数引入的固有表征偏差。大多数标准激活函数（ReLU、阶跃）固有地倾向于低阶相互作用。
实际意义：对于涉及具有复杂高阶相关性的数据的任务，指数激活函数在理论上的优势优于标准非线性函数，前提是模型参数被调整到非衰减相互作用稳定的特定机制中。

作者总结道，尽管他们的分析依赖于随机系综和特定的真实分布，但它为理解激活函数如何塑造 RBM 的表征景观提供了原则性基础，可能有助于设计能够捕捉高阶统计规律的任务架构。

Activation Functions, Statistics and Learning of Higher-Order Interactions in Restricted Boltzmann Machines

核心发现：简单关系与复杂关系

“简单之海”与“复杂之岛”

训练计算机时会发生什么？

“简单性偏差”

技术摘要：受限玻尔兹曼机中激活函数、统计特性与高阶相互作用的习得

类似论文