K-Means as a Radial Basis function Network: a Variational and Gradient-based Equivalence

本文通过变分和梯度分析,严格证明了经典 K-Means 算法与具有平滑责任机制的可微径向基函数(RBF)神经网络之间的等价性,并引入 Entmax-1.5 解决低温数值不稳定问题,从而实现了将 K-Means 无缝嵌入深度学习架构以进行端到端联合优化。

Felipe de Jesus Felix Arredondo, Alejandro Ucan-Puc, Carlos Astengo Noguez

发布于 2026-03-06
📖 1 分钟阅读🧠 深度阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文其实是在做一件非常有趣的事情:它把两个原本“性格不合”的数学工具强行“联姻”,让它们不仅能和平共处,还能互相转化。

为了让你轻松理解,我们可以把这篇论文的核心思想想象成**“把一块坚硬的石头(K-Means 算法)融化成水(神经网络),然后再根据需要把它冻回石头”**的过程。

以下是用大白话和比喻对这篇论文的解读:

1. 两个主角:硬汉与软妹子

  • K-Means(硬汉):

    • 它是谁? 这是一个非常经典的聚类算法(把数据分组)。
    • 性格: 它非常“直男”和“果断”。它的工作方式是:看一个数据点,问“离我近还是离他近?”,然后立刻、绝对地把它划归到最近的那一组。
    • 缺点: 因为它太果断(非黑即白),导致它无法被现代深度学习(AI)直接“消化”。深度学习喜欢平滑的、可以微调的曲线,而 K-Means 这种“一刀切”的决策会让梯度(AI 学习的信号)直接断掉,导致 AI 没法通过反向传播来优化它。
    • 比喻: 就像是一个严厉的教官,士兵站错队了,直接踢出去,没有商量余地。
  • RBF 神经网络(软妹子):

    • 它是谁? 一种神经网络,擅长处理距离和相似度。
    • 性格: 它非常“温柔”和“圆滑”。它不会说“你属于 A 组”,而是说“你属于 A 组的可能性是 80%,属于 B 组是 20%"。这种“软性”的归属关系是可以求导的(可以微调)。
    • 缺点: 虽然它很温柔,适合深度学习,但它和 K-Means 那个“硬汉”看起来完全不是一回事,大家一直觉得它们只是有点像,但没证明过它们本质是一样的。

2. 论文的核心发现:它们其实是同一个人!

这篇论文的作者(来自墨西哥蒙特雷理工学院)做了一个大胆的实验和数学证明:K-Means 其实就是 RBF 神经网络在“极度冷静”时的样子。

  • 关键道具:温度参数 (σ\sigma)
    • 想象 RBF 网络是一个正在融化的冰块
    • 高温时(σ\sigma 很大): 冰块是液态的(软妹子)。数据点可以模糊地属于多个组,归属关系是平滑的、可微的。
    • 低温时(σ\sigma 趋近于 0): 冰块开始冻结。随着温度越来越低,液态的归属关系变得越来越“硬”。
    • 绝对零度(σ=0\sigma = 0): 冰块彻底冻成了硬石头。这时候,RBF 网络的行为完全变回了 K-Means 算法!

结论: K-Means 并不是一个独立的、外部的算法,它只是 RBF 神经网络在“温度”降为零时的终极形态

3. 解决了什么大麻烦?(数学上的“伽马收敛”)

以前,人们想把 K-Means 放进深度学习里,就像想把**乐高积木(离散的 K-Means)强行塞进3D 打印的流体(连续的神经网络)**里,怎么都拼不上。

这篇论文证明了:

  1. 数学上等价: 当温度降下来,RBF 的目标函数会完美地“坍缩”成 K-Means 的目标函数。
  2. 动作上等价: 当温度降下来,RBF 网络调整中心点的“梯度下降”步骤,会神奇地变成 K-Means 经典的“取平均值”更新步骤。

比喻: 就像你看着一个人从慢动作游泳(RBF 的平滑更新)逐渐加速,最后变成了百米冲刺(K-Means 的硬更新)。论文证明了,虽然动作看起来不同,但背后的物理定律(数学原理)是完全一致的。

4. 遇到的新问题与“黑科技”解决方案

问题:太冷了会“冻僵”
当温度(σ\sigma)变得非常非常低时,RBF 网络里的计算(Softmax 函数)会出现数值不稳定的问题。

  • 比喻: 就像把水冻成冰,如果冻得太快,冰会裂开,或者计算机算不出那么小的数字(下溢),导致程序崩溃。这时候,原本应该变成“硬汉”的模型,反而因为太“硬”而算不动了。

解决方案:Entmax-1.5(智能温控器)
作者引入了一种叫 Entmax-1.5 的新工具来代替传统的 Softmax。

  • 比喻: 传统的 Softmax 像是一个指数级降温的冰箱,稍微冷一点就冻得死死的,容易坏。而 Entmax-1.5 像是一个智能恒温器,它能让水慢慢结冰,即使到了零度,它也能保持“可微”的平滑过渡,不会突然崩断。
  • 效果: 它保证了即使在极低的温度下,模型也能稳定地收敛到 K-Means 的结果,而且计算更稳定。

5. 这对我们有什么用?(实际应用)

这篇论文不仅仅是理论推导,它打开了**“端到端聚类”**的大门:

  • 以前: 我们想训练一个 AI 做聚类,通常是分两步走:

    1. 先用 K-Means 把数据分个类(这是离散的,没法反向传播)。
    2. 再把分好的类喂给神经网络。
    • 缺点: 两步是割裂的,第一步分错了,第二步很难救回来。
  • 现在(有了这篇论文):
    我们可以把 K-Means 直接嵌入到神经网络内部,作为一个可微的层

    • 比喻: 以前是“先切菜,再炒菜”,切菜和炒菜是两拨人。现在,我们有了**“智能切菜机”,它切菜的时候,锅里的火候(神经网络的参数)也在实时调整。切菜和炒菜可以同时优化**。
    • 好处: 神经网络可以一边学习数据的特征,一边自动调整聚类中心,两者互相促进,最终得到更好的结果。

总结

这篇论文就像是一个**“翻译官”**:
它告诉深度学习界:“别再把 K-Means 当成一个外部的、不可控的黑盒了。只要控制好‘温度’,K-Means 其实就是你们最熟悉的神经网络的一种特殊状态。”

通过引入Entmax-1.5这个“稳定器”,作者成功地把这个“硬汉”算法变成了可以在现代 AI 流水线中自由奔跑的“软体动物”,让聚类特征学习可以手牵手,一起进化。