KANs need curvature: penalties for compositional smoothness

以下是用通俗语言和日常类比对该论文的解读。

问题：“锯齿状”的解决方案

想象一下，你正在教一个机器人画一条平滑流畅的曲线，比如正弦波。你给机器人一套特殊的工具，叫做KANs（柯尔莫哥洛夫 - 阿诺德网络）。这些工具非常棒，因为与像黑盒一样工作的标准人工智能不同，KANs 让你能确切地看到它们是如何作画的。每一笔“笔触”（激活函数）都是可见且可理解的。

然而，论文发现了一个故障。当这些机器人试图完美拟合数据时，它们往往会变得“抖动”。它们画出的线不像平滑的曲线，而像锯齿状的山脉或乱涂的 scribble。虽然它完美地拟合了数据点，但看起来完全不像你预期的平滑曲线。

作者将这种现象称为**“高曲率振荡”**。用大白话讲：机器人想太多了，在它的画作中添加了不必要的抖动和弯折。

旧方案：“懒惰”的惩罚

以前，科学家试图通过一种标准的“惩罚”来阻止这种抖动。这就像老师告诉机器人：“不要用太多的墨水。”

问题所在： 这种惩罚只检查使用了多少墨水（幅度），而不检查墨水是如何使用的。
结果： 机器人可以用极少的墨水画出一条平滑的线，也可以用极少的墨水画出一条疯狂、锯齿状的乱涂。旧的惩罚无法区分这两者。这就像一位老师只数文章中的单词数量，却不读句子以判断它们是否有意义。机器人继续画出锯齿状的线条，因为惩罚并没有“看到”那些锯齿。

新方案：“平滑度”惩罚

作者发明了一种新的、更聪明的惩罚。这种新惩罚不再仅仅计算墨水量，而是测量线条的**“弯曲能量”**。

类比： 想象你在弯曲一把灵活的尺子。如果你把它轻轻弯成一个平滑的弧形，所需的力气很小。如果你试图把它扭曲成尖锐的之字形，就需要花费很大的力气和能量。
解决方案： 新惩罚根据机器人弯曲线条所需的能量来收取“费用”。如果机器人试图画锯齿状的之字形，费用就巨大；如果它画出平滑的曲线，费用就很低。
结果： 机器人学会了，为了保持“费用”低廉，它必须画出平滑的线条。论文表明，使用这种新惩罚后，机器人仍然可以极其准确地画出图像，但线条现在变得平滑、清晰，看起来就像它们试图模仿的真实函数。

为何重要：“连锁反应”

有人可能会问：“如果我们只是平滑了单独的笔触，整幅图会保持平滑吗？”

担忧： 在深度网络中，一层的输出会成为下一层的输入。这就像连锁反应。如果第一层有点摇晃，下一层可能会将这种摇晃放大成巨大的混乱。
发现： 作者从数学上证明，如果你平滑了单独的边缘（笔触），你就自动为整幅图能变得多混乱设定了一个“上限”。通过控制小部分，你也就控制了整体。
额外收获： 他们还发现了一种通过加权惩罚来进一步提升效果的方法。有些笔触对最终图像比其他笔触更重要。通过额外关注这些“重要”的笔触，机器人学得更快、更准确。

重大胜利：稳定性与简洁性

在此之前，如果机器人变得过于复杂（过参数化），它就会变得不稳定并崩溃。为了解决这个问题，科学家不得不使用一个复杂的多步骤训练过程：从一个简单的网格开始，进行训练，然后切换到复杂的网格，重新开始。这就像建好一座房子，然后把它拆掉，再建一座更大的。

有了这种新的“平滑度惩罚”，机器人从一开始就能处理复杂的高分辨率网格。它保持稳定，无需复杂的多步骤过程。

总结

问题： 本应可解释的人工智能模型（KANs）经常画出锯齿状、杂乱的线条，难以理解。
旧方法： 试图通过限制线条的“大小”来阻止这种情况，但这行不通。
新方法： 引入了一种针对“弯曲”或“抖动”收费的惩罚。这迫使人工智能画出平滑、整洁的线条。
结果： 人工智能的准确性保持不变，但结果变得平滑、稳定，且更易于人类解读。它将一个“黑盒”变成了一个清晰、可读的草图。

技术摘要：KAN 需要曲率：用于组合平滑性的惩罚

问题陈述
Kolmogorov–Arnold 网络（KANs）通过在边上用可学习的单变量激活函数替代固定的非线性，为传统神经网络提供了一种极具吸引力的替代方案，有望同时实现高精度和可解释性。然而，一个关键的缺陷限制了它们在科学机器学习中的实际效用：拟合良好的 KAN 经常在其激活函数中产生“病态的高曲率振荡”。尽管这些模型能准确拟合数据，但由此产生的“类折痕”振荡使得学习到的函数难以阅读和解释。作者认为，KAN 中使用的标准正则化惩罚（特别是 Liu 等人提出的幅值和熵惩罚）在结构上无法阻止这种现象。这些标准惩罚仅依赖于激活的平均幅值，不包含任何导数信息；因此，如果平均幅值相同，剧烈振荡的函数与平滑函数所受的惩罚是相同的。

方法论
为了解决平滑性缺失的问题，作者提出了一种源自惩罚样条（P-splines）理论的与基无关的曲率惩罚。

边惩罚的推导：
作者将单变量激活函数 $\phi_e$ 的曲率定义为其 $L_2$ 弯曲能量 $\int (\phi_e''(z))^2 dz$ 。通过将 KAN 激活形式（基函数与 B 样条的线性组合，通常基函数为 SiLU）代入，他们推导出了一个直接作用于模型系数的闭式惩罚：
$R(f) = \sum_{e} \left( \|D_2(\beta_e c_e)\|^2 + K_{\text{silu}} \alpha_e^2 \right)$
其中， $D_2$ 是作用于样条系数 $c_e$ 的二阶差分矩阵， $\beta_e$ 缩放样条， $\alpha_e$ 缩放基函数。项 $K_{\text{silu}}$ 是一个由 SiLU 函数二阶导数导出的常数。该惩罚按边应用，且独立于训练数据分布。
组合曲率的理论分析：
认识到边平滑性并不能自动保证完整组合函数的平滑性，作者进行了组合分析。他们利用 KAN 的特定结构（由于单变量边，层 Hessian 矩阵为对角矩阵），通过链式法则推导了完整网络函数的 Hessian 矩阵。
他们证明了定理 1，确立了所提出的边惩罚 $R(f)$ 是真实组合级曲率 $\mathcal{R}(f)$ （定义为输入 Hessian 矩阵的期望平方 Frobenius 范数）的严格上界。该证明依赖于关于路径权重、激活密度和节点间距的三个结构假设，表明最小化边惩罚能有效最小化全局曲率的上界。
加权扩展：
作者进一步提出了一种更丰富的“加权惩罚”，该惩罚结合了由链式法则分解导出的期望路径权重（ $\bar{w}_e$ ）。这种变体根据每条边对全局 Hessian 的期望影响来缩放其惩罚，尽管这重新引入了对训练数据分布的依赖。

主要贡献

现有惩罚的结构局限性： 本文证明了标准 KAN 惩罚无法强制平滑性，因为它缺乏导数信息，使得无法区分幅值相等的平滑函数与振荡函数。
与基无关的曲率惩罚： 作者推导了一种闭式的、基于系数的曲率惩罚，可应用于任何具有平方可积二阶导数的固定基（例如 B 样条）。
理论上界： 通过组合分析，本文证明了边惩罚是完整网络曲率的上界，为使用局部惩罚来控制全局平滑性提供了理论依据。
实证验证： 研究表明，曲率惩罚的 KAN 实现了显著更平滑的激活，同时在函数逼近、Feynman 符号回归基准和过参数化区域中，保持了与未惩罚或标准惩罚模型相当的精度。

结果

函数逼近： 在逼近 $f(x, y) = \sin(x + y^2)$ 和 $f(x, y) = \exp(\sin(\pi x) + y^2)$ 等函数的实验中，曲率惩罚模型生成的激活函数在视觉上与真实分量（例如平滑的正弦曲线和多项式曲线）一致，而未惩罚模型则表现出高频振荡。
Feynman 基准： 在 Feynman 符号回归基准的 14 个方程上，曲率惩罚 KAN 在所有 14 个案例中均实现了最低的总边曲率。在精度（测试 RMSE）方面，它们在 14 个方程中的 9 个上达到或超过了标准 KAN 惩罚，且在所有案例中均优于最佳精度的两倍以内。
过参数化区域中的稳定性： 曲率惩罚显著稳定了过参数化 KAN（高网格大小 $G$ ）的训练。与早期即达到平台期的标准 KAN 惩罚不同，曲率惩罚模型在 3000 个 epoch 内持续改进。此外，该惩罚使得在无需“网格扩展”（一种从低 $G$ 开始的多阶段训练过程）的情况下，能够使用高分辨率网格（ $G=200$ ）进行稳定训练，实现了约 $10^{-3}$ 的测试 RMSE，而未惩罚模型在此情况下则彻底失败。
优化器无关性： 曲率惩罚的益处在使用 Adam 和 L-BFGS 优化器时均被观察到。
加权惩罚： 10 次种子比较显示，与均匀边惩罚相比，加权曲率惩罚（结合路径权重）将平均测试 RMSE 降低了 2.2 倍。

意义与主张
本文主张，曲率惩罚为 KAN 提供了一个“单一、有原则的平滑性杠杆”。其意义体现在三个方面：

可解释性： 通过强制平滑激活，该惩罚使得 KAN 的内部表示变得可读，并与物理定律通常具有平滑性这一科学直觉相一致，从而加强了 KAN 作为科学机器学习工具的地位。
训练稳定性： 它解决了高分辨率 KAN 训练的不稳定性问题，允许进行单阶段、端到端的优化，而无需复杂的多阶段网格扩展协议。这对于将 KAN 集成到更广泛的系统（如神经架构搜索或元学习）中至关重要。
架构优势： 分析强调，KAN Hessian 矩阵的对角结构（单变量边的结果）是一种独特的结构优势，它允许对组合曲率进行可解释的逐边归因，这是标准 MLP 所不具备的特性。

作者总结道，平滑性不仅仅是 KAN 架构的一个附加特征，而是一种固有的可控属性；通过曲率惩罚来管理这一属性，对于实现 KAN 在可解释科学发现中的全部潜力至关重要。