An Approximation Theory Perspective on Machine Learning

本文综述了机器学习中的函数逼近理论现状,指出了其与当前实践之间的脱节及其对泛化能力的负面影响,并介绍了无需显式学习流形特征即可在未知流形上进行函数逼近的原创研究成果。

Hrushikesh N. Mhaskar, Efstratios Tsoukanis, Ameya D. Jagtap

发布于 2026-03-05
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文就像是一位数学老教授(近似理论)和一位现代科技极客(机器学习)之间的深度对话。他们试图解决一个核心矛盾:为什么现在的 AI(人工智能)在现实中如此强大,但在数学理论上却显得“黑箱”且难以捉摸?

为了让你轻松理解,我们将用几个生动的比喻来拆解这篇论文的核心思想。

1. 核心问题:AI 是在“死记硬背”还是“真正理解”?

想象一下,你教一个孩子认猫。

  • 传统机器学习(目前的做法): 你给他看一万张猫的照片,让他背下来。考试时,如果给他一张稍微有点不一样的猫(比如侧着脸、光线暗),他可能就不认识了。这就像死记硬背
  • 近似理论(数学家的视角): 数学家问:“我们能不能找到一种通用的‘公式’或‘模具’,只要给孩子看几张照片,他就能学会‘猫’的本质形状,从而认出任何一只猫?”

这篇论文指出,目前的 AI 研究太关注“怎么优化公式”(怎么让机器学得更快),却忽略了“这个公式本身够不够好”(数学上的逼近能力)。这就导致我们不知道 AI 到底学到了什么,也不知道它遇到没见过的数据时会不会“翻车”。

2. 维度的诅咒:在迷宫里找路

论文提到了一个著名的概念叫**“维度的诅咒” (Curse of Dimensionality)**。

  • 比喻: 想象你在一个只有 1 米长的走廊里找一颗弹珠,你只需要走几步就能找到。但如果这个走廊变成了 100 维的超空间(想象有 100 个方向可以走),为了找到那颗弹珠,你需要检查的点数会像宇宙中的星星一样多,根本找不完。
  • 现状: 很多 AI 模型在处理高维数据(比如高清图片、基因数据)时,理论上应该很难,但现实中它们却表现很好。
  • 论文的观点: 为什么?因为真实世界的数据并不是均匀分布在整个高维空间里的。它们其实都挤在一个低维的“曲面”(Manifold)上。
    • 比喻: 想象一张揉皱的纸(高维空间),虽然它看起来乱糟糟,但如果你把它展开,它其实只是一个二维的平面(低维流形)。数据就在这个平面上。
    • 传统做法: 以前的方法试图先“把纸展平”(学习流形的结构),这很难且容易出错。
    • 新范式(论文亮点): 我们不需要先展平纸!我们可以直接在这个皱巴巴的纸上用一种特殊的“墨水”(局部核函数)来画画。这种墨水很聪明,它只关注你手边的一小块区域,不管纸怎么皱,它都能画得很准。

3. 浅层网络 vs. 深层网络:积木的堆叠

  • 浅层网络(单层): 就像用一块巨大的乐高板去拼一个复杂的城堡。如果城堡结构复杂,你需要一块巨大的板子,这很难。
  • 深层网络(多层): 就像用很多小积木,一层一层地堆。
    • 比喻: 如果目标函数(比如识别猫)本身就有“层次感”(先识别耳朵,再识别胡须,最后组合成猫),那么深层网络就像是一个流水线工厂,每一层负责一个环节,效率极高。
    • 论文发现: 如果数据本身没有这种层次感,深层网络并没有比浅层网络强多少。深层网络之所以强,是因为它利用了数据的**“组合结构”**。

4. 分类任务的新视角:把“找不同”变成“分信号”

在传统的分类任务中(比如区分猫和狗),我们通常试图画一条线把猫和狗分开。但如果猫和狗混在一起,线就很难画。

  • 论文的新奇观点: 把分类问题看作是**“信号分离”**(Signal Separation)。
    • 比喻: 想象一个嘈杂的派对,有猫叫声和狗叫声混在一起。传统的做法是试图在波形上画线区分。
    • 新做法: 我们不需要知道具体的叫声是什么,我们只需要找到**“猫叫声出现的区域”“狗叫声出现的区域”**。只要把这两个区域分开,剩下的就是分类了。
    • 好处: 这种方法不需要大量的标签(Label)。你只需要在“猫区”问一次“这是猫吗?”,在“狗区”问一次“这是狗吗?”,算法就能自动把整个区域归类。这就像**“主动学习”**,极其高效。

5. 物理驱动的 AI (PINNs):给 AI 戴上“紧箍咒”

现在的 AI 经常乱猜,比如预测天气时,它可能算出“明天太阳从西边出来”。

  • 论文讨论: 物理信息神经网络 (PINNs) 给 AI 戴上了“紧箍咒”(物理定律)。
  • 比喻: 以前是教 AI 看天气预报书(数据驱动);现在是告诉 AI:“不管你怎么猜,必须遵守牛顿定律和热力学定律”。这样,即使数据很少,AI 也不会胡说八道,因为它被物理法则“约束”住了。

6. Transformer 和注意力机制:为什么它们这么火?

大家现在都在用 Transformer(大模型的核心)。

  • 论文的解释: 注意力机制(Attention)本质上就是一种**“球面基函数网络”**。
  • 比喻: 当你读一句话时,注意力机制就像是一个探照灯。它问:“在这个词(查询)面前,哪个词(键)最重要?”然后它把那个词的信息(值)提取出来。
  • 结论: 从数学上看,这种机制和我们在球面上做近似计算的方法是一回事。这意味着,Transformer 的强大不是魔法,而是因为它巧妙地利用了数学上的局部逼近原理。

总结:这篇论文想告诉我们什么?

  1. 别只盯着“优化”看: 现在的 AI 太依赖“试错”和“优化算法”了,我们忽略了数学上“这个模型到底能不能学好”的根本问题。
  2. 数据有结构: 真实数据都在低维流形上,我们不需要先学会“流形”再学习,可以直接用特殊的数学工具(局部核函数)在流形上工作。
  3. 分类即分离: 把分类看作是把不同的“信号源”分开,而不是画线,这样可以大大减少需要的数据量。
  4. 未来方向: 我们需要建立一套新的理论,把“近似理论”和“机器学习”真正结合起来,让 AI 不仅“能算”,而且“懂理”(有理论保证)。

一句话总结:
这篇论文就像是在给 AI 行业做了一次“体检”,指出我们虽然跑得快(工程能力强),但理论基础(近似理论)有点脱节。它提出了一套新的“健身方案”(新范式),教我们如何利用数据的内在结构,用更少的数据、更聪明的数学工具,让 AI 变得更聪明、更可靠。

在收件箱中获取类似论文

根据您的兴趣定制的每日或每周摘要。Gist或技术摘要,使用您的语言。

试用 Digest →