FS-KAN: Permutation Equivariant Kolmogorov-Arnold Networks via Function Sharing

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一种名为 FS-KAN 的新型人工智能模型架构。为了让你轻松理解，我们可以把神经网络想象成一家**“超级工厂”**，而这篇论文就是在讲如何给这家工厂升级，让它变得更聪明、更省料，而且更懂“规矩”。

1. 背景：工厂里的“对称性”难题

想象你有一家生产积木的工厂。

普通工厂（传统神经网络）： 如果客户给你 5 块积木，你会给每块积木分配一个专门的工人（参数）去处理。如果客户给你 10 块积木，你就得雇佣 10 个工人。如果积木的顺序变了（比如把第 1 块和第 5 块互换），普通工厂可能会觉得“哎呀，顺序变了，我得重新算一遍”，甚至算错。
对称性（Permutation Symmetry）： 但在很多现实场景中，积木的顺序其实不重要。比如一袋苹果，先拿红苹果还是先拿青苹果，袋子里的苹果总数和种类是不变的。这种“顺序变了，结果不变”的特性，就叫对称性。
旧方案（参数共享）： 以前的聪明工厂（如 DeepSets 或 CNN）会采用“参数共享”策略：不管积木怎么排，大家都用同一套工具（权重）来处理。这很省料，也能保证顺序变了结果不变。

2. 新主角：KAN 与 FS-KAN

最近，一种叫 KAN (Kolmogorov-Arnold Networks) 的新工厂出现了。

KAN 的特点： 它不像旧工厂那样用固定的“数字工具”（权重），而是用可学习的“函数工具”（像是一条条可以随意弯曲的橡皮筋）。这让 KAN 在数据少的时候特别厉害，而且人类更容易看懂它是怎么思考的（可解释性强）。
问题： 但是，之前的 KAN 工厂不太懂“对称性”的规矩。如果积木顺序变了，它可能会乱套。
本文的突破（FS-KAN）： 作者们把“参数共享”的规矩，升级成了**“函数共享” (Function Sharing)**。
- 比喻： 以前是“大家共用同一把锤子”（参数共享）；现在是“大家共用同一套设计图纸"（函数共享）。
- FS-KAN 强制要求：如果两个积木在对称规则下是“等价”的（比如都是第 1 个位置，或者都是第 2 个位置），那么处理它们的“橡皮筋函数”必须长得一模一样。

3. 核心创新：三大亮点

A. “函数共享”：更聪明的分工

在 FS-KAN 里，如果输入是 100 个数据点，它不会给每个点都画一条全新的曲线。它会根据对称性，把 100 个点分成几组，同一组里的点共用同一条曲线。

比喻： 就像在画一幅对称的画，你只需要画左半边，右半边直接镜像复制。FS-KAN 就是那个自动帮你“镜像复制”并保证逻辑严密的画家。

B. “万能翻译官”：理论上的等价

作者们证明了一个很酷的理论：FS-KAN 和传统的“参数共享”工厂在能力上是完全平等的。

比喻： 就像证明了“用中文写诗”和“用英文写诗”都能表达同样的意境。这意味着，以前所有关于“参数共享”工厂的数学理论（比如它能多聪明、能解决什么问题），现在直接就能套用到 FS-KAN 身上，不用重新发明轮子。

C. “高效版”：省料又省力

标准的 FS-KAN 虽然聪明，但计算量有点大（因为要画很多条曲线）。作者还设计了一个**“高效版 FS-KAN"**。

比喻： 就像把“先给每个人发一张纸条，再汇总”变成了“先汇总所有人的意见，再发一张统一的纸条”。
效果： 在保持“对称性”不变的前提下，大大减少了计算量和内存占用，让它在实际运行中更快。

4. 实验结果：小数据里的“超级英雄”

作者们在几个实际任务中测试了 FS-KAN：

信号分类： 识别噪音中的波形。
点云分类： 识别 3D 物体（比如椅子、飞机）的形状。
推荐系统： 预测用户喜欢什么电影（用户和电影的顺序不重要）。

关键发现：

数据少时，它是王者： 当训练数据非常少（比如只有几百个样本）时，FS-KAN 的表现远远超过了传统的参数共享模型。它就像是一个“举一反三”能力极强的天才，看几个例子就能学会规律。
数据多时，它也不差： 当数据很多时，它的表现和传统模型差不多，但依然保持了 KAN 特有的“可解释性”（你能看到它学到了什么样的曲线规律）。
抗遗忘能力强： 在连续学习新任务时，它不容易忘记旧知识。

5. 总结：这对我们意味着什么？

如果把 AI 模型比作厨师：

传统模型是那种需要大量菜谱（数据）才能做菜的厨师，而且不管食材怎么摆盘，他都得重新切一遍。
FS-KAN 是一位天才厨师。他不仅懂得“食材顺序不重要”的烹饪哲学（对称性），而且只用很少的食材（小数据）就能做出美味佳肴。更棒的是，你能清楚地看到他切菜的手法（可解释性），知道他是怎么做到的。

一句话总结：
这篇论文提出了一种新的 AI 架构 FS-KAN，它通过共享函数而非共享参数，让 AI 模型在处理具有“顺序无关”特性的数据（如集合、图像、社交网络）时，在数据稀缺的情况下表现得更强、更聪明，且更容易被人类理解。这对于医疗、科学发现等数据难得到的领域，是一个巨大的进步。

Each language version is independently generated for its own context, not a direct translation.

这是一篇发表于 ICLR 2026 的会议论文，题为 FS-KAN: 通过函数共享实现置换等变的 Kolmogorov-Arnold 网络 (FS-KAN: Permutation Equivariant Kolmogorov-Arnold Networks via Function Sharing)。

以下是对该论文的详细技术总结：

1. 研究背景与问题 (Problem)

对称性与等变神经网络： 在现代机器学习中，设计尊重数据对称性（Symmetries）的神经网络架构至关重要。对于具有置换对称性（Permutation Symmetries，即输入向量的坐标顺序改变不影响输出结果或仅导致输出相应改变）的数据（如集合、图、多体交互数据等），传统的通用方法是使用参数共享（Parameter-Sharing）方案来构建等变（Equivariant）或不变（Invariant）层。
Kolmogorov-Arnold 网络 (KANs) 的兴起： KANs 是最近提出的一种替代传统多层感知机（MLP）的架构，它用可学习的单变量函数（Learnable Univariate Functions）替代了标量权重。KANs 在可解释性、表达能力和参数效率方面表现出巨大潜力。
现有研究的不足： 虽然已有工作将 KANs 应用于特定的等变场景（如图数据、集合数据），但缺乏一个通用的、原则性的框架，用于将 KANs 应用于任意置换对称群（Arbitrary Permutation Symmetry Groups）的数据。现有的等变 KAN 方法要么局限于特定数据类型，要么在理论基础上不够统一，无法直接推广到更复杂的对称结构（如高阶张量、直积对称等）。

2. 方法论 (Methodology)

论文提出了 FS-KAN (Function Sharing KAN)，这是一个构建具有任意置换对称群等变和不变 KA 层的通用框架。

核心思想：函数共享 (Function Sharing)

传统的等变 MLP 通过共享权重矩阵中的参数来实现等变性（例如， $W_{i,j} = W_{\sigma(i), \sigma(j)}$ ）。FS-KAN 将这一概念推广到 KAN 架构中，通过共享函数而非标量参数来实现等变性。

FS-KA 层的定义：
对于一个 KA 层 $\Phi(x)_q = \sum_{p} \phi_{q,p}(x_p)$ $Φ (x)_{q} = \sum_{p} ϕ_{q, p} (x_{p})$ ，如果对于群 $G$ $G$ 中的任意置换 $\sigma$ $σ$ ，满足 $\phi_{q,p} = \phi_{\sigma(q), \sigma(p)}$ $ϕ_{q, p} = ϕ_{σ (q), σ (p)}$ ，则该层被称为 $G$ $G$ -等变函数共享 KA 层。
- 这意味着处于同一轨道（Orbit）下的函数对 $(q, p)$ 必须使用相同的可学习函数。
不变层 (Invariant Layers)：
对于输出为标量的不变层，要求 $\phi_p = \phi_{\sigma(p)}$ ，即所有输入元素共享相同的函数。
多通道与高阶张量扩展：
框架自然地扩展到了多特征通道（Feature Channels）和高阶张量（如超图、高阶关系数据）。对于直积对称群（如 $G \times H$ ，常见于矩阵数据），FS-KAN 采用了“外部共享”（层间共享）和“内部共享”（子层内共享）相结合的策略。
高效 FS-KA 层 (Efficient FS-KA Layers)：
标准的 FS-KAN 需要对所有输入对独立应用函数，计算和内存开销较大。作者提出了一种高效变体，利用群结构的特性，先对输入进行聚合（如求和池化），然后再应用共享的 KA 子层。
- 例如，在 $S_n$ 等变层中，将计算形式从 $\sum \phi(x_p)$ 优化为 $\phi_1(x_q) + \phi_2(\sum x_p)$ 。
- 这种变体虽然牺牲了部分理论上的通用性（但在实践中通常足够），但显著减少了非线性函数的调用次数，降低了显存占用和训练时间，同时保持了等变性。

理论分析

表达能力等价性： 论文证明了在均匀函数逼近的意义下，FS-KAN 与使用标准参数共享的 MLP 具有相同的表达能力。
- 命题 6 & 7： 任何参数共享的 MLP 都可以被一个 FS-KAN 精确表示（在有限域内），反之，任何 FS-KAN 也可以被参数共享的 MLP 任意精度逼近。
理论推论： 这一等价性意味着所有关于参数共享网络（如 DeepSets, GNNs）的已知表达能力结果（如通用逼近定理、与 Weisfeiler-Lehman 测试的判别力关系）都可以直接迁移到 FS-KAN 上。

3. 主要贡献 (Key Contributions)

FS-KAN 框架： 提出了首个针对任意置换对称群的通用等变/不变 KAN 构建框架，统一并扩展了之前针对特定数据类型的等变 KAN 工作。
理论保证： 建立了 FS-KAN 与参数共享 MLP 之间的表达能力等价性，将成熟的等变神经网络理论（如通用性、判别力）成功迁移到 KAN 领域。
高效变体： 设计了计算和内存更高效的 FS-KA 层，解决了 KAN 在大规模对称数据上应用时的计算瓶颈。
实证验证： 在多个具有不同对称性的任务上（信号分类、点云分类、推荐系统）进行了广泛实验，证明了 FS-KAN 在**低数据量（Low-data regimes）**下的卓越性能。

4. 实验结果 (Results)

实验在信号分类、点云分类（ModelNet40）和半监督评分预测（推荐系统）三个任务上进行：

低数据效率 (Data Efficiency)：
- 在训练数据稀缺的情况下（例如仅使用 60-1200 个样本），FS-KAN 的表现显著优于标准的参数共享 MLP（如 DeepSets）和其他基线模型。
- 在点云分类中，FS-KAN 在样本量少且点云点数少时，准确率明显高于 DeepSets 和 Point Transformer。
- 在推荐系统（矩阵补全）任务中，FS-KAN 在极端稀疏数据下表现出更强的泛化能力。
可解释性 (Interpretability)：
- 实验可视化显示，FS-KAN 学习到的函数在对称元素间是共享的，这使得网络结构更加清晰、紧凑，且符合数据的物理对称性，而标准 KAN 则学习出杂乱无章的独立函数。
持续学习 (Continual Learning)：
- 在点云持续学习实验中，FS-KAN 表现出更强的抗灾难性遗忘（Catastrophic Forgetting）能力，在适应新分布时能更好地保留旧知识。
计算效率权衡：
- 虽然 FS-KAN 的推理和训练速度通常慢于简单的 MLP 基线（由于函数评估的开销），但高效 FS-KAN 变体在保持精度的同时，显著降低了计算成本（例如信号分类任务中训练速度提升了 1.4 倍）。

5. 意义与结论 (Significance)

填补理论空白： 该论文为将 KANs 应用于具有对称性的数据提供了坚实的理论基础和设计原则，解决了之前该领域缺乏通用框架的问题。
低数据场景的优选架构： 实验表明，FS-KAN 是处理小样本、高对称性数据的理想选择。其通过函数共享带来的归纳偏置（Inductive Bias）极大地提升了样本效率。
可解释性与适应性的结合： FS-KAN 不仅继承了 KAN 的可解释性优势（通过可视化学习到的函数），还通过引入对称性约束，使其在物理、化学、社交网络等具有内在对称结构的科学计算和工程应用中具有巨大潜力。
未来方向： 尽管表现优异，FS-KAN 的计算成本仍是主要挑战。未来的工作将集中在开发更快的实现算法，以及进一步探索其泛化能力和优化特性。

总结： FS-KAN 通过将“参数共享”升级为“函数共享”，成功地将 Kolmogorov-Arnold 网络的强大表达能力与等变神经网络的对称性约束相结合，特别是在数据稀缺的对称任务中展现了超越传统 MLP 的优越性能。