Stationary Kernels and Gaussian Processes on Lie Groups and their Homogeneous Spaces I: the compact case

Each language version is independently generated for its own context, not a direct translation.

这是一篇关于**高斯过程（Gaussian Processes）在非欧几里得空间（Non-Euclidean Spaces）**上如何工作的学术论文。

为了让你轻松理解，我们可以把这篇论文想象成是在解决一个**“如何在弯曲、旋转或复杂的表面上进行精准预测”**的问题。

1. 核心背景：什么是高斯过程？

想象你是一位天气预报员。你手里有一些零散的温度数据点，你想预测整张地图上的温度。

高斯过程就像是一个**“超级智能的橡皮泥”**。它不仅能根据已知点画出平滑的温度曲线，还能告诉你：“在这个地方，我的预测很确定（橡皮泥很硬）；在那个地方，我有点拿不准（橡皮泥很软）”。
在普通的平地上（欧几里得空间），这种预测很成熟。但在地球表面（球体）、旋转的机械臂（李群）或者复杂的几何结构上，传统的“橡皮泥”方法就会失效，因为那里的“距离”和“方向”概念都变了。

2. 核心问题：对称性与“平移不变性”

论文的核心在于**“平稳性”（Stationarity）**。

在平地上：如果你把预测模型向左平移一米，预测结果应该是一样的。这叫“平移不变性”。
在球体或旋转体上：没有“左”或“右”的概念，只有“旋转”。如果你把模型在球面上旋转一下，预测结果应该保持不变。
挑战：以前的方法在球面上直接套用平地的公式，就像试图把一张平面的世界地图强行贴在篮球上，结果要么地图撕裂（数学上无效），要么形状严重变形（预测不准）。

3. 论文做了什么？（两大贡献）

作者们（Azangulov 等人）开发了一套**“几何橡皮泥”**的新配方，专门用于处理这些弯曲、旋转的空间。

贡献一：如何计算“相似度”？（构建核函数）

在机器学习中，我们需要一个公式来告诉模型：“这两个点有多像？”

旧方法：直接测量两点间的直线距离。在球面上，这就像用尺子穿过地球内部量距离，完全不符合表面行走的逻辑。
新方法：作者利用**“群表示论”（Representation Theory）——这听起来很数学，但你可以把它想象成“给空间上的每一个旋转动作分配一个独特的音乐音符”**。
- 他们发现，任何在球面或旋转体上“平稳”的预测，都可以分解成这些“音符”的叠加。
- 这就好比把复杂的交响乐（复杂的预测模型）拆解成简单的单音（特征函数）。只要知道每个音符的音量（系数），就能完美重建整个交响乐。
- 成果：他们给出了计算这些“音符”的具体公式，让计算机能算出在球面、旋转体上的“相似度”。

贡献二：如何生成随机样本？（高效采样）

有了公式，怎么让计算机“画”出符合这些规律的随机曲线呢？

旧方法：要么算得太慢（像用显微镜画整幅画），要么算出来的结果数学上不合法（比如出现负概率）。
新方法：作者发明了一种叫**“广义随机相位傅里叶特征”**的技巧。
- 比喻：想象你要在球面上画出一朵随机分布的云。以前的方法可能需要解极其复杂的微分方程。作者的新方法就像是**“撒豆子”**：
  1. 在球面上随机撒一把豆子（采样点）。
  2. 根据刚才算出的“音符”公式，给每个豆子赋予一个随机的权重。
  3. 把这些带权重的豆子加起来，就得到了一条完美的、符合物理规律的随机曲线。
- 这种方法既快，又保证了数学上的严谨性（永远是正定的，不会出错）。

4. 具体应用了哪些空间？

论文的第一部分（Part I）专注于**“紧致空间”（Compact Spaces），也就是那些有限大小、没有边界**的空间。

球体（Sphere）：比如地球表面、天体物理数据。
旋转群（SO(n)）：比如机器人手臂的关节角度、3D 物体的姿态。
投影空间：比如某些特殊的几何结构。
李群（Lie Groups）：这是一类具有连续对称性的数学结构，是上述空间的统称。

5. 为什么这很重要？（现实意义）

机器人：让机器人更聪明地理解自己在三维空间中的姿态，进行更精准的操控。
医学影像：在复杂的脑结构（也是弯曲的）上分析数据，而不是强行把大脑压扁成平面图。
天文学：在球形的宇宙背景上分析星系分布。
通用性：作者不仅给出了理论，还把这些方法写成了开源代码库（GeometricKernels），让普通工程师也能像搭积木一样，在这些复杂的几何空间上建立预测模型。

总结

这篇论文就像是为**“弯曲世界”设计了一套通用的“预测工具箱”。
它告诉我们：不要试图把平地的规则强行套用在球体或旋转体上。相反，我们要利用这些空间本身的对称性（Symmetry），通过“分解成基础音符”和“随机撒豆子”**的巧妙方法，让高斯过程在这些复杂的几何形状上也能像在水泥地上一样，精准、高效地工作。

一句话概括：作者们把高斯过程从“平地”搬到了“球面”和“旋转体”上，并发明了一套基于数学对称性的新算法，让机器能在这些复杂形状上进行精准的预测和采样。

Each language version is independently generated for its own context, not a direct translation.

这是一篇关于在**李群（Lie Groups）及其齐性空间（Homogeneous Spaces）上构建平稳高斯过程（Stationary Gaussian Processes, GPs）的学术论文。该论文是系列工作的第一部分（Part I），专注于紧致空间（Compact Spaces）**的情况。

以下是对该论文的详细技术总结：

1. 研究背景与问题 (Problem)

背景：高斯过程是机器学习中最重要的时空模型之一，广泛应用于物理科学、工程、地质统计学等领域。在许多实际应用中（如机器人控制、神经科学、物理系统建模），数据往往定义在非欧几里得空间上，特别是具有对称性的空间（如球面、旋转群 $SO(n) $、特殊酉群$ SU(n)$ 等）。
核心挑战：
1. 协方差核的定义：在欧几里得空间中，平稳性意味着平移不变性（ $k(x+c, x'+c) = k(x, x')$ ）。在非欧几里得空间上，如何定义“平稳性”（即对空间对称群作用的不变性）是一个难题。
2. 正定性问题：直接套用欧几里得距离（如测地线距离）构建高斯核（如 $e^{-d(x,x')^2}$ ）通常会导致协方差矩阵不正定，除非空间是欧几里得的。
3. 计算可行性：现有的基于随机偏微分方程（SPDE）或谱分解的方法，往往需要计算拉普拉斯 - 贝尔特拉米算子（Laplace-Beltrami operator）的特征对，这在许多流形上计算极其困难或无法解析求解。
4. 采样与推断：如何在这些复杂空间上高效地采样先验和计算后验分布，缺乏通用的实用工具。

2. 方法论 (Methodology)

作者提出了一套基于**表示论（Representation Theory）**的构造性方法，将抽象的平稳性理论转化为可计算的算法。

2.1 理论框架：基于群作用的平稳性

定义：如果一个高斯过程的协方差核 $k$ 满足 $k(g \triangleright x, g \triangleright x') = k(x, x')$ （对于群 $G$ 的所有作用 $g$ ），则称其为平稳的。
李群上的平稳核：利用彼得 - 韦尔定理（Peter-Weyl Theorem），任何紧李群 $G$ 上的平稳核可以表示为不可约酉表示（Irreducible Unitary Representations）的**特征标（Characters）**的线性组合：
$k(g_1, g_2) = \sum_{\lambda \in \Lambda} a(\lambda) \text{Re} \chi^{(\lambda)}(g_2^{-1} g_1)$
其中 $\chi^{(\lambda)}$ 是表示 $\lambda$ 的特征标， $a(\lambda) \ge 0$ 是缩放系数。
齐性空间上的平稳核：对于齐性空间 $X = G/H$ ，平稳核由球面函数（Spherical Functions）（即矩阵系数在子群 $H$ 上的投影）构成：
$k(g_1 H, g_2 H) = \sum_{\lambda \in \Lambda} \sum_{j,k} a^{(\lambda)}_{jk} \text{Re} \pi^{(\lambda)}_{jk}(g_2^{-1} g_1)$

2.2 计算技术

为了将上述理论转化为实际算法，作者开发了以下关键技术：

特征标与球面函数的计算：
- 利用韦伊特征标公式（Weyl Character Formula），将特征标计算转化为最大环面（Maximal Torus）上多项式的比值。这使得特征标可以解析计算并支持自动微分。
- 对于齐性空间，提出了一种**广义周期求和（Generalized Periodic Summation）**方法，通过在子群 $H$ 上对李群上的核进行积分（蒙特卡洛采样）来构造齐性空间上的核。
高效采样（Generalized Random Phase Fourier Features）：
- 受欧几里得空间随机傅里特征（Random Fourier Features）的启发，作者提出了一种广义方法。
- 利用随机相位（从群或空间的哈尔测度中采样）和特征标/球面函数构建特征映射。
- 公式形式为： $f(g) \approx \sum w_s K(g, u_s)$ ，其中 $u_s$ 是随机采样点， $K$ 是相位函数。这使得从先验和路径条件后验中采样变得高效，无需构建巨大的核矩阵。
特定核函数的构造：
- 热核（Heat Kernel）：定义为热方程的基本解。在表示论框架下，其系数 $a(\lambda)$ 与拉普拉斯算子的特征值 $\alpha_\lambda$ 呈指数衰减关系（ $e^{-\alpha_\lambda t}$ ）。
- Matérn 核：通过热核的伽马混合（Gamma mixture）定义。利用积分变换，将 Matérn 核的系数表示为特征值的代数函数： $a(\lambda) \propto (2\nu/\kappa^2 + \alpha_\lambda)^{-\nu - n/2}$ 。
- 这种方法避免了直接求解复杂的微分方程，直接通过代数表达式获得正定核。
截断与误差分析：
- 提出了基于**最高权（Highest Weights）和签名（Signatures）**的算法来枚举不可约表示。
- 分析了截断误差，证明对于光滑核（如热核），误差随截断阶数呈超指数衰减；对于 Matérn 核，呈多项式衰减。

3. 主要贡献 (Key Contributions)

统一的理论框架：将 Yaglom (1961) 关于平稳随机过程的抽象理论具体化，为紧李群及其齐性空间上的高斯过程提供了基于表示论的完整构造方法。
可计算的核函数：
- 推导了热核和Matérn 核在李群和齐性空间上的显式级数展开公式。
- 证明了这些核函数是正定的，并具备与欧几里得空间对应的平滑性（Sobolev 空间性质）。
高效算法：
- 开发了点式核评估算法（支持自动微分，用于超参数优化）。
- 开发了高效采样算法（基于广义随机相位傅里特征），使得在大规模数据集上应用这些模型成为可能。
软件实现：将这些方法集成到 GeometricKernels 库中，使 practitioners 能够直接在 $SO(n) $、$ SU(n) $、球面$ S^n $、射影空间$ \mathbb{R}P^n$、Stiefel 流形等空间上使用高斯过程。

4. 实验结果 (Results)

数值验证：作者在 $SO(3) $、$ SO(5)$ 以及 Stiefel 流形 $V(k, n)$ 上进行了实验。
误差分析：
- 截断级数方法表现出极快的收敛速度（特别是热核），仅需几十个特征项即可达到高精度。
- 基于蒙特卡洛的近似（周期求和、随机相位）表现出标准的 $O(1/\sqrt{S})$ 收敛率，且归一化后的随机相位近似效果更佳。
可视化：展示了在实射影平面 $\mathbb{R}P^2$ 和球面 $S^2$ 上的回归结果，包括后验均值、标准差和样本路径，证明了模型能够捕捉数据的几何结构。

5. 意义与影响 (Significance)

填补空白：解决了在非欧几里得空间（特别是具有丰富对称性的空间）上定义和使用高斯过程的长期难题，摆脱了对启发式或特定于问题的方法的依赖。
理论到实践的桥梁：将深奥的表示论和调和分析理论转化为工程师和数据科学家可用的计算工具。
通用性：该方法不仅适用于连续空间，其基于对称性的思想也为离散空间或更一般的代数结构上的核学习提供了蓝图。
应用前景：为机器人学（姿态估计）、神经科学（脑信号建模）、计算机视觉（3D 形状分析）等领域的贝叶斯推断和不确定性量化提供了强有力的工具。

总结：这篇论文通过引入表示论工具，成功地将高斯过程推广到了紧李群及其齐性空间，提供了一套从理论定义、核函数构造到高效采样和推断的完整解决方案，极大地扩展了高斯过程在几何深度学习中的应用范围。第二部分（Part II）将探讨非紧致空间（如双曲空间）的情况。

Stationary Kernels and Gaussian Processes on Lie Groups and their Homogeneous Spaces I: the compact case

1. 核心背景：什么是高斯过程？

2. 核心问题：对称性与“平移不变性”

3. 论文做了什么？（两大贡献）

贡献一：如何计算“相似度”？（构建核函数）

贡献二：如何生成随机样本？（高效采样）

4. 具体应用了哪些空间？

5. 为什么这很重要？（现实意义）

总结

1. 研究背景与问题 (Problem)

2. 方法论 (Methodology)

2.1 理论框架：基于群作用的平稳性

2.2 计算技术

3. 主要贡献 (Key Contributions)

4. 实验结果 (Results)

5. 意义与影响 (Significance)

类似论文

Complexity of Classical Acceleration for ℓ1\ell_1ℓ1​-Regularized PageRank

MapTab: Are MLLMs Ready for Multi-Criteria Route Planning in Heterogeneous Graphs?

Language Guided Adversarial Purification

Graph-based Active Learning for Entity Cluster Repair

Neural Green's Operators for Parametric Partial Differential Equations

Complexity of Classical Acceleration for $\ell_1$ -Regularized PageRank