Spontaneous symmetry breaking and Goldstone modes for deep information propagation

本文表明,具有连续对称性等变性的深度神经网络支持类戈德斯通模式,这些模式能够在深度和时间维度上实现相干且稳定的信息传播,从而在不依赖残差连接或归一化等标准架构稳定器的情况下提升可训练性和长期记忆能力。

原作者: Nabil Iqbal, T. Anderson Keller, Yue Song, Takeru Miyato, Max Welling

发布于 2026-05-15
📖 1 分钟阅读☕ 轻松阅读

原作者: Nabil Iqbal, T. Anderson Keller, Yue Song, Takeru Miyato, Max Welling

原始论文采用 CC BY 4.0 许可(http://creativecommons.org/licenses/by/4.0/)。 这是对下方论文的AI生成解释。它不是由作者撰写或认可的。如需技术准确性,请参阅原始论文。 阅读完整免责声明

想象一下,你正试图通过一条由 100 个不同房间组成的漫长蜿蜒隧道发送一条秘密信息。在标准神经网络(即这条“隧道”)中,信息往往在到达终点时变得混乱、丢失,或转化为静态噪声。这就是为什么深度学习通常需要特殊的“稳定器”,如残差连接(跳车道)或归一化(交通指挥),来保持信号清晰。

本文提出了一种基于物理学中自发对称性破缺戈德斯通模式概念的新方法来构建这些隧道。以下是简明解析:

1. 物理类比:破碎的盘子

想象一个圆形的餐盘放在桌子上。它完全对称;你可以以任何方式旋转它,它看起来都一样。这是一种“对称”状态。

现在,想象这个盘子由一种特殊材料制成,当它冷却时,会裂开并 settle 在一个特定位置。它仍然有可能处于任何位置,但它已经“选择”了一个特定位置来休息。对称性被打破了。

在物理学中,当这种情况发生时,一种特殊的波(称为戈德斯通模式)可以在盘子表面传播而不损失能量。它就像涟漪,可以永远传播而不会消散,因为盘子已经“ settle ”到了一个新的状态。

2. 神经网络的转折

作者构建了神经网络,其内部“房间”(层)被设计为尊重特定的对称性(如旋转旋钮)。

  • 设置:他们强制网络以尊重这种旋转对称性的方式处理数据。
  • 破缺:当网络被训练时,它会自然地“打破”这种对称性,就像餐盘一样。它为数据选择了一个特定的“方向”或“相位”。
  • 结果:一旦发生这种情况,网络就会发展出那些特殊的戈德斯通模式

3. 这有什么作用?(“超级高速公路”)

在正常的深度网络中,信息随着层数加深而丢失或变得混乱。但在这些新网络中,戈德斯通模式充当了信息的超级高速公路

  • 相位即信息:网络将信息存储在数据的“相位”(旋转角度)中。
  • 完美保持:由于对称性,这种“相位”受到保护。它可以穿过 100 层(或在循环中穿过 100 个时间步)而不失真或丢失。
  • 无需稳定器:由于这条高速公路天然存在,网络不需要通常的“稳定器”(如跳跃连接或归一化层)来维持信号。它直接起作用。

4. 现实世界测试

研究人员在两类任务上测试了这种方法:

  • 深度前馈网络(长隧道):他们构建了具有 100 层的网络。“对称性破缺”的网络训练效果更好,并将多样化的信息从第一层保持到最后一层,而正常网络则崩溃或变得混乱。
  • 循环网络(时间循环):他们测试了需要在长时间内记住事物的网络(例如记住一串数字以便稍后重复)。
    • 复制任务:网络必须记住一串短符号,等待长时间延迟,然后重复它们。
    • 结果:即使在标准网络拥有更多参数(更多“脑力”)的情况下,新网络在长延迟期间记住序列的能力也远优于标准网络。

5. “涡旋”额外收获

在涉及二维网格(如小图像)的侧面实验中,他们观察到了一些有趣的现象:涡旋
就像水旋涡流入排水口一样,网络中的数据开始形成微小的旋转“涡旋”。这些旋转模式长时间保持稳定。作者认为,这可能是网络存储信息的另一种方式,类似于物理学中拓扑缺陷(如绳子上的结)存储信息的方式。

总结

该论文声称,通过设计模仿特定物理现象(自发对称性破缺)的神经网络,我们创造了一种天然的、内置的机制,允许信息在非常深或非常长的序列中完美流动。这就像给网络提供了一根内置的“魔法线”,保持信息完整,从而消除了我们通常用来防止深度网络失败的工程技巧的需求。

您所在领域的论文太多了?

获取与您研究关键词匹配的最新论文每日摘要——附技术摘要,使用您的语言。

试用 Digest →