Accelerating Sampling-Based Control via Learned Linear Koopman Dynamics

Each language version is independently generated for its own context, not a direct translation.

这篇文章介绍了一种让机器人“跑”得更快、更聪明的新方法。为了让你轻松理解，我们可以把控制机器人想象成在复杂迷宫中开车。

1. 核心难题：迷宫里的“慢车”

想象你开着一辆自动驾驶汽车，面前是一个充满急转弯、陡坡和障碍物的复杂迷宫（这就是机器人的非线性动力学，非常复杂）。

传统的控制方法（叫 MPPI）就像是一个超级谨慎的司机。为了决定下一步怎么走，它会在脑海里模拟成千上万条可能的路线（比如：“如果我向左转，会撞墙吗？如果我加速，会翻车吗？”）。

问题在于：因为迷宫太复杂，每次模拟一条路线都要做极其复杂的物理计算。如果要在迷宫里快速反应（比如每秒做几十次决策），这个司机的大脑（计算机）就会累垮，导致反应太慢，甚至来不及刹车。

2. 创新方案：给司机一张“魔法地图”

为了解决这个问题，作者们发明了一种叫 MPPI-DK 的新方法。它的核心思想是：别在脑子里死磕复杂的物理公式了，我们画一张“魔法地图”吧！

这张地图基于一种叫**“柯普曼算子”（Koopman Operator）**的数学技巧。

原来的世界：机器人运动像一团乱麻，忽左忽右，很难预测。
魔法地图的世界：作者们训练了一个 AI（深度学习模型），把机器人原本乱糟糟的运动状态，投影到一个更高维度的“魔法空间”里。
神奇之处：在这个魔法空间里，原本复杂的乱麻运动，竟然变成了简单的直线运动！就像把一团乱毛线理顺成一根直棍子。

3. 具体怎么操作？（类比：从“手算”到“查表”）

旧方法（经典 MPPI）：每次模拟路线，都要像数学家一样，一步步手算复杂的物理公式（比如 $F=ma$ 加上各种摩擦力、惯性）。这就像每次开车前都要重新推导一遍物理定律，太慢了。
新方法（MPPI-DK）：
1. 学习阶段：先让机器人到处跑跑，收集数据，训练那个 AI 画出“魔法地图”。
2. 控制阶段：当需要决策时，机器人不再去算复杂的物理公式，而是直接查这张“魔法地图”。
3. 加速原理：在魔法地图里，预测下一步只需要做简单的矩阵乘法（就像做简单的加减乘除），而不是解复杂的微积分方程。

比喻：

旧方法：每次想走到下一个路口，都要亲自去测量路面的坡度、摩擦系数，然后计算引擎该出多少力。
新方法：提前把整个路网的规律都背下来了（或者存在手机里）。走到路口时，直接看手机上的导航，上面已经算好“直行 5 米，左转 30 度”了。

4. 效果如何？

作者在三个地方测试了这个方法：

倒立摆（像杂技演员顶杆子）：验证了不管杆子怎么晃，新方法都能像老手一样稳住，而且算得更快。
水面船只导航：在模拟的水面上开车，新方法比传统方法快得多，而且走的路径几乎一样好。
四足机器人（机器狗）：这是最硬核的测试。在真实的机器狗身上，新方法让机器狗能实时地、流畅地走到指定位置。
- 结果：机器狗的反应速度大幅提升（计算时间从几十毫秒降到了个位数毫秒），而且走得更稳、更顺滑。

5. 总结

这篇论文就像给机器人装了一个**“超级加速器”**。

它没有改变机器人“思考”的逻辑（依然是通过模拟成千上万条路线来选最好的），但它把“模拟”这个过程从**“做高数题”变成了“查简单的乘法表”**。

一句话总结：
以前机器人做决策像是在解一道复杂的数学题，现在它变成了看一张画好的简单地图。这让机器人能在保持高精度的同时，反应速度提升了好几倍，真正实现了在复杂环境下的实时智能控制。

Each language version is independently generated for its own context, not a direct translation.

这是一份关于论文《Accelerating Sampling-Based Control via Learned Linear Koopman Dynamics》（通过学习的线性 Koopman 动力学加速基于采样的控制）的详细技术总结。

1. 研究背景与问题 (Problem)

核心挑战：
在机器人控制领域，处理具有复杂非线性动力学和高维状态的系统是一个 fundamental 挑战。模型预测控制（MPC）虽然能有效处理状态和输入约束，但在高控制频率下，由于需要反复进行在线优化和非线性动力学传播，计算开销巨大，难以满足实时性要求。

现有方法的局限性：

MPPI (Model Predictive Path Integral)： 作为一种基于信息论的随机最优控制方法，MPPI 通过蒙特卡洛轨迹采样来近似最优控制更新，天然适合处理非线性动力学和非凸代价函数，且易于并行化。然而，MPPI 的核心瓶颈在于轨迹采样过程中需要反复传播非线性系统动力学。对于计算昂贵的模型或资源受限的机载设备，这种重复的前向仿真严重限制了控制频率和可扩展性。
数据驱动替代方案： 虽然深度神经网络（DNN）可以拟合复杂动力学，但在采样控制器中反复评估高度非线性的 DNN 依然计算成本高昂。
Koopman 算子理论： 提供了一种将非线性系统映射到高维“提升空间”（lifted space）中，使其近似为线性动力学的方法。传统的扩展动态模态分解（EDMD）依赖人工设计的提升函数，而深度 Koopman 算子（DKO）利用 DNN 直接从数据中学习提升函数。尽管 DKO 在预测方面表现良好，但将其作为实时基于采样的控制器的计算加速器（即替代 MPPI 中的非线性传播步骤）的研究尚不充分。

本文目标：
提出一种框架，将学习的线性深度 Koopman 算子（DKO）动力学与 MPPI 控制相结合，用高效的线性状态传播替代 MPPI 中的非线性动力学评估，从而在保持控制性能的同时显著降低计算成本。

2. 方法论 (Methodology)

本文提出了 MPPI-DK 框架，其核心思想是利用学习到的线性 Koopman 动力学在提升空间中进行快速轨迹传播。

A. 问题建模

系统定义： 考虑离散时间非线性系统 $x(t+1) = f(x(t), v(t))$ 。
Koopman 近似： 假设系统动力学可以表示为有限维线性 Koopman 动力学：
$x(t+1) = C^*(A^*g(x(t), \theta^*) + B^*v(t))$
其中 $g(\cdot, \theta^*)$ 是由 DNN 参数化的提升函数，将状态映射到高维空间； $A^*, B^*, C^*$ 是常数矩阵。
控制问题： 在有限时域内最小化期望代价，约束条件使用上述线性化的 Koopman 动力学。

B. 动力学学习 (DKO Learning)

数据收集： 从原始非线性系统中收集状态 - 输入 - 下一状态三元组 $(x_i, v_i, x_i^+)$ 。
优化目标： 通过最小化损失函数 $L_f$ $L_{f}$ 来联合优化 DNN 参数 $\theta$ $θ$ 和线性矩阵 $A, B, C$ $A, B, C$ 。损失函数包含两部分：
1. 提升空间内的线性演化误差： $\|g(x^+, \theta) - A g(x, \theta) - B u\|^2$
2. 状态重构误差： $\|x^+ - C g(x^+, \theta)\|^2$
求解策略： 采用迭代优化，固定 $\theta$ 时， $A, B, C$ 可通过最小二乘法（伪逆）解析求解；然后更新 $\theta$ 。

C. MPPI-DK 控制算法

轨迹采样： 在 MPPI 的每一步，不再使用原始非线性动力学 $f(\cdot)$ $f (\cdot)$ 进行 rollout，而是使用学习到的线性算子：
1. 初始化状态 $x_t$ 及其提升状态 $g(x_t, \theta^*)$ 。
2. 采样控制扰动 $\epsilon$ 。
3. 关键加速步骤： 在预测时域内，利用矩阵乘法 $g_{k+1} = A^* g_k + B^* u_k$ 直接更新提升状态，再通过 $x_{k+1} = C^* g_{k+1}$ 恢复物理状态。
4. 计算轨迹代价，根据代价加权平均更新控制序列。
优势： 一旦 $g$ 函数被计算（或仅在初始步骤计算），后续的轨迹传播仅需矩阵乘法，避免了在每一步采样中反复调用复杂的 DNN 前向传播。

3. 主要贡献 (Key Contributions)

Koopman 加速的 MPPI 公式化： 提出了一种基于学习到的线性 DKO 动力学的 MPPI 控制器（MPPI-DK），利用提升空间中的线性结构实现高效的轨迹传播。
基于提升状态传播的高效采样： 在轨迹 rollout 过程中，使用学习到的线性算子替代反复的 DNN 评估。当提升函数 $g$ 高度非线性时，这种方法能大幅降低计算成本。
综合评估与 GPU 加速：
- 在倒立摆、水面航行器仿真以及四足机器人（Unitree Go1）硬件实验中进行了验证。
- 证明了 MPPI-DK 在控制性能上接近使用真实动力学的 MPPI，但计算成本显著降低。
- 展示了该框架天然适合并行计算，在 GPU 硬件上部署时能获得显著的速度提升。

4. 实验结果 (Results)

A. 倒立摆平衡 (Pendulum Balancing)

任务： 将倒立摆从任意初始状态摆动并稳定在直立状态。
发现：
- 增加 DNN 的神经元数量有助于控制器更快收敛到目标状态。
- 增加提升维度（lifted dimension）或引入专家演示数据并未在倒立摆任务中带来一致的性能提升。
- MPPI-DK 的控制轨迹与使用真实动力学的 MPPI 非常接近。

B. 水面航行器导航 (Surface Vehicle Navigation)

任务： 引导具有复杂非线性动力学的水面航行器到达目标位置。
性能对比：
- 控制性能： MPPI-DK 的跟踪误差与使用真实动力学的经典 MPPI 相当，且优于基于相同 DKO 模型的 MPC。
- 计算效率（CPU）： MPPI-DK 的单步计算时间（约 332ms）显著低于经典 MPPI（约 2041ms），但略高于纯 MPC（约 244ms，因为 MPPI 需要大量采样）。
- 计算效率（GPU）： 启用 GPU 并行采样后，MPPI-DK 的计算时间降至 17.9ms，远快于 CPU 上的经典 MPPI 和 MPC，实现了实时控制。

C. 四足机器人硬件实验 (Quadruped Robot)

平台： Unitree Go1 四足机器人。
任务： 参考跟踪（从初始位置导航至目标位置）。
结果：
- 成功率： 在 10 个不同的初始状态下，MPPI-DK 和经典 MPPI 均 100% 成功完成任务。
- 效率： MPPI-DK 的单步计算时间为 8.8ms，优于经典 MPPI 的 11.7ms。
- 精度： MPPI-DK 的最终状态跟踪误差略小于经典 MPPI，且控制输入更平滑。
- 结论： 在真实硬件上，MPPI-DK 能够以接近真实动力学 MPPI 的精度实现高效实时控制。

5. 意义与结论 (Significance & Conclusion)

理论意义： 本文成功地将 Koopman 算子理论从单纯的“动力学建模/预测”扩展到了“基于采样的实时控制”领域，证明了线性化提升空间可以成为采样控制器的有效计算加速器。
实际应用价值：
- 解决实时性瓶颈： 为具有复杂非线性动力学的机器人系统提供了一种在资源受限平台上实现高频控制（如四足机器人）的可行方案。
- 无需解析模型： 该方法完全基于数据驱动，无需精确的物理模型，适用于难以建模的复杂系统。
- 硬件友好： 结合 GPU 并行计算，MPPI-DK 能够显著降低延迟，满足高动态任务（如敏捷机动、快速响应）的需求。

总结： MPPI-DK 框架通过用高效的线性矩阵运算替代昂贵的非线性动力学传播，在保持高性能控制的同时，显著提升了基于采样的控制方法的计算效率，为复杂机器人系统的实时智能控制开辟了新途径。