Multilevel Training for Kolmogorov Arnold Networks

本文通过建立 KAN 与多通道 MLP 之间的等价关系,提出了一种基于样条基函数均匀细化的多尺度训练框架,利用解析几何插值算子构建嵌套架构,从而在物理信息神经网络等任务中实现了比传统方法高出数个数量级的训练精度与效率。

Ben S. Southworth, Jonas A. Actor, Graham Harper, Eric C. Cyr

发布于 2026-03-06
📖 1 分钟阅读🧠 深度阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文讲述了一个关于如何让神经网络“学”得更快、更聪明的故事。

想象一下,你正在教一个学生(神经网络)去画一幅复杂的画,或者去解一道很难的数学题。

1. 传统的困境:在迷雾中摸索

传统的神经网络(叫 MLP)就像是一个在迷雾中摸索的盲人。它有很多层,每一层都在做简单的加法和非线性变换。虽然它能学会很多东西,但训练过程非常慢,就像在迷宫里乱撞,经常走弯路,收敛(学会)得很慢。

2. 新主角登场:KAN 网络

最近出现了一种叫 KAN (Kolmogorov-Arnold Networks) 的新架构。它不像传统网络那样把“激活函数”(比如 ReLU)藏在黑盒子里,而是把激活函数变成了可学习的曲线(就像用橡皮泥捏出各种形状)。

  • 优点:KAN 更透明,更容易理解,而且特别适合处理那些有“尖角”或不平滑的复杂函数(比如物理定律中的突变)。
  • 缺点:虽然它结构好,但如果训练方法不对,它依然可能像传统网络一样慢,甚至更慢。

3. 核心发现:换个“视角”看问题

作者发现了一个惊人的秘密:KAN 网络其实可以看作是另一种形式的传统网络(多通道 MLP),只是它们用的“语言”(基函数)不同。

  • 比喻:这就好比两个人在描述同一个物体。
    • 一个人用**“平滑的波浪线”**(样条函数/Spline)来描述。
    • 另一个人用**“折线”**(ReLU 函数)来描述。
    • 作者发现,只要做一个简单的数学翻译(基变换),这两种描述就是完全等价的。

但是!重点来了:
虽然它们描述的物体一样,但**“学习”的过程(梯度下降)却完全不同**。

  • 如果你用“折线”语言(ReLU)去学,优化器会极度偏爱平滑的、简单的形状,而忽略那些复杂的、高频的细节(就像只愿意画圆圈,不愿意画锯齿)。
  • 如果你用“波浪线”语言(样条/KAN 原生语言)去学,优化器就能同时关注平滑的大轮廓和尖锐的小细节

4. 终极武器:多级训练法(Multilevel Training)

既然 KAN 有这种特殊的结构,作者就借鉴了物理学中解决难题的**“多级网格法”**(Multigrid),发明了一种新的训练策略。

这个策略就像“先画草图,再画细节”:

  1. 粗网阶段(画草图)
    先用很少的“节点”(比如只有 4 个控制点)训练一个很简单的 KAN 模型。这时候,模型只能画出大概的轮廓(比如一个圆)。因为它很简单,所以学得飞快
  2. 细网阶段(加细节)
    把刚才画好的草图,通过一种几何插值的方法,“复制”到一个更精细的模型上(比如把 4 个点变成 8 个,再变成 16 个)。
    • 关键点:这种复制不是乱复制,而是保证**“粗模型的进步不会白费”**。新模型继承了旧模型画好的轮廓。
  3. 互补优化(各司其职)
    • 粗网上,模型负责解决低频、平滑的大问题(大轮廓)。
    • 细网上,模型负责解决高频、复杂的小问题(细节、尖角)。
    • 因为 KAN 的数学结构(样条函数的局部性),细网模型能迅速捕捉到粗网模型忽略的细节,而不会去重复做粗网已经做好的事。

5. 结果:快得惊人

作者做了很多实验(比如模拟物理方程、函数回归):

  • 传统方法:要么慢,要么精度差。如果用“折线”语言做多级训练,效果几乎为零,因为细网模型还在重复粗网已经学会的东西,无法利用新的细节能力。
  • KAN 多级训练:精度提高了100 倍甚至 1000 倍(几个数量级),而且训练速度极快。

总结

这篇论文的核心思想是:
不要试图用一把锤子(传统训练方法)去敲所有的钉子。
通过理解 KAN 网络独特的数学结构(它像样条曲线一样有局部性),我们设计了一套**“先粗后细、层层递进”**的训练方法。这让神经网络能像人类画家一样,先定大框架,再填细节,从而在解决复杂科学问题(如物理模拟)时,展现出惊人的速度和精度。

一句话概括
给神经网络换了一套更聪明的“画笔”(样条基),并教它学会了“先画大轮廓,再抠小细节”的多级绘画技巧,从而让它在解决难题时快如闪电。