Hybrid Energy-Aware Reward Shaping: A Unified Lightweight Physics-Guided Methodology for Policy Optimization

Qijun Liao (School of Mechanical Engineering, University of Science and Technology Beijing, China), Jue Yang (School of Mechanical Engineering, University of Science and Technology Beijing, China), Yiting Kang (School of Mechanical Engineering, University of Science and Technology Beijing, China), Xinxin Zhao (School of Mechanical Engineering, University of Science and Technology Beijing, China), Yong Zhang (Jiangsu XCMG Construction Machinery Research Institute Co., Ltd., China), Mingan Zhao (Jiangsu XCMG Construction Machinery Research Institute Co., Ltd., China)

发布于 2026-03-13

📖 1 分钟阅读☕ 轻松阅读

查看于 arXiv ↗PDF ↗

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一种名为 H-EARS（混合能量感知奖励塑形）的新方法。简单来说，它是在教人工智能（AI）如何像人类专家一样，既聪明又省力地控制机器（比如机器人或汽车）。

为了让你更容易理解，我们可以把这篇论文的核心思想想象成**“教一个刚学开车的新手”**。

1. 现状：AI 学车的困境（“小白”的烦恼）

现在的深度学习 AI（比如 Deep Reinforcement Learning）就像是一个没有任何驾驶经验的“白纸”新手。

优点：它很聪明，只要给足够的练习，它就能学会开车。
缺点：
- 太费时间：它需要撞无数次墙、翻无数次车，才能摸索出怎么刹车、怎么转弯。
- 不省油：它可能会为了快速到达目的地，把油门踩到底，导致油耗极高，甚至把引擎烧坏。
- 不靠谱：它可能只记住了训练场（模拟器）的路况，一旦到了真实的、坑坑洼洼的路上，它就晕头转向了。

2. 传统方法：要么太笨，要么太累

为了解决这个问题，以前的科学家尝试过两种办法：

方法 A（纯物理模型）：给 AI 一本厚厚的《汽车物理原理全书》，告诉它每一个零件怎么动。
- 缺点：这就像让新手背下整本《汽车构造学》才能上车。太难了！而且如果车坏了或者路变了，书里的知识就不管用了。计算量巨大，电脑跑不动。
方法 B（纯试错）：完全不给提示，让 AI 自己撞。
- 缺点：就像上面说的，效率太低，而且学出来的开车习惯很糟糕（比如急刹急停）。

3. H-EARS 的妙计：给 AI 一个“能量指南针”

这篇论文提出的 H-EARS 方法，就像给新手司机配了一位经验丰富的老司机教练，但这教练不教复杂的物理公式，只教两个核心直觉：

核心概念一：能量就是“体力”

想象一下，开车最舒服的状态是什么？是平稳、顺滑、不浪费体力。

传统做法：只告诉 AI“到达终点有奖励”。
H-EARS 的做法：除了“到达终点”，还告诉 AI：“如果你动作太猛、太费油（能量高），我就扣分；如果你动作平滑、省力，我就加分。”
比喻：这就像教孩子跑步。以前只说“跑到终点给你糖”；现在加了一句“跑得太快喘不过气要扣糖，跑得稳当省力才给糖”。这样孩子自然学会了既快又省力的跑法。

核心概念二：双重引导（任务 + 能量）

H-EARS 把指导分成了两部分：

任务指南针（Task Potential）：指向目的地（比如“往北走”）。
能量指南针（Energy Potential）：指向“省力”的方向（比如“别急刹车”）。

创新点：以前的方法往往把这两者混在一起，导致 AI 困惑。H-EARS 把它们分开处理，让 AI 先学会怎么到目的地，再学会怎么省着劲儿到。这就像先教孩子“怎么走路”，再教他“怎么优雅地走路”。

核心概念三：动作“刹车片”（Action Regularization）

有时候，AI 为了拿高分，会做出一些极其诡异的高频抖动（比如方向盘每秒转 100 次）。这在物理上是不可能的，但在电脑模拟里它可能“骗”过了系统。

H-EARS 的做法：加了一个“动作刹车片”。如果 AI 的动作太剧烈、太频繁，直接扣分。这迫使 AI 的动作变得平滑、真实，就像给车装了减震器。

4. 为什么这个方法很厉害？（三大优势）

学得快（收敛加速）：
- 因为 AI 有了“省力”这个直觉，它不需要在黑暗中乱撞。就像有了指南针，它知道往哪个方向走是“下坡”（省力），所以能快几倍地学会开车。
- 比喻：以前是盲人摸象，现在是有地图的探险家。
更稳定（不乱抖）：
- 在极端路况下（比如冰雪路面），AI 不会突然发疯乱打方向盘，而是保持平稳。
- 比喻：就像老司机在冰面上开车，动作轻柔，不会让车打滑。
不用当专家（轻量级）：
- 这是最棒的一点！以前的物理方法需要物理学家花几个月推导公式。H-EARS 只需要工程师知道最核心的能量是什么（比如“车有重量，动起来有动能”），不需要知道所有复杂的细节。
- 比喻：以前学开车要懂发动机原理；现在只要知道“脚别踩太狠”就行。普通工程师几天就能搞定，不用等物理学家。

5. 实验结果：真的管用吗？

作者做了很多测试：

在虚拟游戏里：让 AI 控制四足机器人（像蚂蚁）、单腿机器人（像跳蚤）、甚至像人一样的机器人走路。结果发现，用了 H-EARS 的 AI，学得快、走得稳、还省电。
在真实卡车模拟里：模拟一辆在冰雪、陡坡上行驶的重型卡车。
- 普通 AI：在冰面上容易失控，车身乱晃。
- H-EARS AI：像老司机一样，稳稳地控制住车身，即使在极端的冰雪路面上也能安全通过。

总结

这篇论文就像是在说：“别让 AI 从零开始瞎琢磨，给它一点关于‘能量’和‘物理直觉’的提示，它就能学得更快、更稳、更聪明，而且不需要我们把它变成物理学家。”

这就好比教孩子骑自行车：

旧方法：要么让他自己摔几百次（纯试错），要么先让他背完力学课本（纯物理模型）。
H-EARS 方法：告诉他“脚蹬子别踩太猛，身体歪了就轻轻扶正，目标是骑到前面那棵树”。这样，孩子既能学会骑车，又不会摔得鼻青脸肿，还能骑得很省力。

这就是 H-EARS 带来的改变：让 AI 从“实验室里的学霸”变成“工厂里的实干家”。

Each language version is independently generated for its own context, not a direct translation.

1. 研究背景与问题 (Problem)

核心痛点：
尽管深度强化学习（DRL）在连续控制任务中取得了显著成果，但无模型（Model-free）方法（如 SAC、PPO 等）主要依赖试错探索，存在以下三大缺陷：

高方差与不稳定性：纯试错学习往往导致策略方差大，难以收敛到稳定状态。
能量效率低：智能体缺乏物理先验，容易学习到“捷径”策略（如高频振荡），导致能量浪费且不符合物理规律。
泛化能力差：在训练分布之外（Out-of-Distribution）或极端条件下，策略容易失效，难以从实验室迁移到工业应用。

现有方法的局限性：

基于物理的模型（如拉格朗日/哈密顿神经网络）：虽然保证了物理一致性，但需要完整的系统方程，计算复杂度通常为 $O(n^3)$ ，且对建模不确定性敏感，难以在实际工程中部署。
纯无模型方法：计算高效但缺乏物理约束，容易学习到不合理的控制行为。
传统奖励塑造（Reward Shaping）：大多仅关注收敛加速，缺乏对物理可解释性和稳定性的理论保证，且无法在动作层面约束控制行为。

目标：
在不需要完整系统方程和专家力学知识的前提下，将轻量级的物理先验（特别是能量最小化原理）融入无模型强化学习，实现快速收敛、高稳定性且节能的控制策略。

2. 方法论 (Methodology)

论文提出了 H-EARS (Hybrid Energy-Aware Reward Shaping) 框架，这是一种将基于势能的奖励塑造（PBRS）与能量感知动作正则化相结合的系统性框架。

2.1 核心公式

H-EARS 定义的塑造奖励函数为：
$R_{H-EARS}(s, a, s') = \underbrace{R(s, a, s') + \gamma\Phi(s') - \Phi(s)}_{\text{势能塑造 (Potential Shaping)}} - \underbrace{\lambda \cdot E(a)}_{\text{动作正则化 (Action Regularization)}}$

其中：

双势能函数 $\Phi(s)$ ： $\Phi(s) = \alpha_{task}\Phi_{task}(s) + \alpha_{energy}\Phi_{energy}(s)$ $Φ (s) = α_{t a s k} Φ_{t a s k} (s) + α_{e n er g y} Φ_{e n er g y} (s)$
- $\Phi_{task}$ ：编码任务导向（如距离目标的距离）。
- $\Phi_{energy} = -E(q, \dot{q})$ ：编码机械能结构（动能 + 势能），通过最小化能量来引导策略。
动作正则化 $E(a)$ ： $E(a) = a^\top Q a$ ，用于惩罚动作幅值，防止高频振荡。
$\lambda$ ：正则化系数。

2.2 理论创新点

功能独立性 (Functional Independence)：
- 证明了势能塑造项（依赖状态转移）和正则化项（依赖动作）在功能域上是解耦的。
- 这意味着可以独立优化任务性能和能量效率，调整 $\lambda$ 不会破坏 PBRS 的策略不变性。
基于能量的收敛加速机制：
- 利用机械稳定性原理（能量函数的 Hessian 矩阵正定， $d^2E/dq^2 > 0$ ），证明了能量势能为策略梯度提供了丰富的方向信息。
- 在任务奖励稀疏的区域，能量梯度 $\nabla E$ 依然有效，从而加速收敛（理论加速因子可达 $10^2 \sim 10^3$ 倍）。
正则化的必要性：
- 针对“能量 - 任务冲突”系统（如需要瞬时能量注入的任务）或离散化系统，证明了仅靠势能塑造可能导致高频振荡。
- 动作正则化 $\lambda E(a)$ 是防止病理行为（如 $O(\Delta t^{-1})$ 的高频振荡）的理论必要条件。
近似误差界：
- 推导了近似能量势能的性能损失上界。即使能量模型存在 20% 的近似误差，性能损失也小于 5%，证明了轻量级建模（仅捕捉主导能量项）的可行性。
Lyapunov 稳定性启发：
- 将能量最小化视为 Lyapunov 稳定性的一种启发式指导，验证了在极端条件下能量势能对系统稳定性的隐式约束作用。

2.3 工程实现

轻量级建模：无需推导完整的欧拉 - 拉格朗日方程，仅需识别主导能量项（如躯干动能、重力势能）。
通用集成：可直接嵌入 SAC、TD3、PPO、DDPG 等主流算法，仅修改 Critic 的 TD 目标，不改变 Actor 更新结构。

3. 关键贡献 (Key Contributions)

统一的理论框架：首次将任务导向的势能塑造与能量感知的动作正则化统一在一个数学框架下，并证明了其功能独立性和收敛性。
轻量级物理引导：提出了一种 $O(n)$ 复杂度的建模方法，仅需主导能量项即可实现物理引导，降低了工程部署门槛（无需专家力学知识）。
严格的理论保证：
- 证明了在函数近似下的收敛速率 $O(1/\sqrt{N})$ 。
- 推导了近似势能的性能误差界。
- 建立了能量势能与 Lyapunov 稳定性的启发式联系。
广泛的实验验证：
- 在标准基准（Ant, Hopper, LunarLander, Humanoid）上验证了多种算法。
- 在高保真车辆仿真（TruckSim）中验证了极端路况下的安全性与鲁棒性。

4. 实验结果 (Results)

4.1 标准基准环境 (Gymnasium)

收敛速度：H-EARS 显著加速了收敛。例如在 Ant-v5 中，SAC+H-EARS 比原版 SAC 快 28.2% 达到性能阈值；在 LunarLander-v3 中，收敛速度提升了 53.3%。
稳定性：大幅降低了策略方差。SAC+H-EARS 在 Ant-v5 上的变异系数（CV）从 5.8% 降至 4.2%；在 LunarLander 上从 11.2% 降至 6.6%。
算法普适性：在 SAC、TD3、PPO、DDPG 四种算法上均观察到性能提升或稳定性增强。
- 注：对于某些确定性算法（如 TD3），由于自身平滑机制，性能提升幅度较小，但稳定性依然改善。
消融实验：
- 移除任务势能：导致收敛变慢，无法快速到达目标。
- 移除能量势能：在不稳定系统（如 Hopper）中导致策略崩溃或方差剧增。
- 移除正则化：导致高频振荡，训练不稳定。

4.2 车辆控制仿真 (TruckSim)

场景：四轮分布式驱动电动 MPV，在低附着系数（ $\mu \in [0.1, 1.0]$ ）和复合坡度（横向 $\le 15^\circ$ , 纵向 $\le 20^\circ$ ）的极端路况下。
收敛性：H-EARS SAC 比标准 SAC 快 32.1% 达到稳定性能，且训练后期无性能退化。
控制精度：
- 平均速度误差降低 43.9% (0.23 m/s vs 0.41 m/s)。
- 最大侧滑角降低 49.5% (0.52° vs 1.03°)。
稳定性验证：
- 在极端工况下，H-EARS 策略表现出单调收敛特性，侧滑角和横摆角速度波动极小，符合 Lyapunov 稳定性预测。
- 标准 SAC 在路况突变点出现周期性失稳。
模型鲁棒性：仅使用主导能量项（忽略悬架弹性等次要项）的简化模型，在极端条件下仍保持了 96.0% 的性能，验证了近似误差界的理论有效性。

5. 意义与价值 (Significance)

填补了理论与应用的鸿沟：H-EARS 提供了一种无需完整动力学模型即可将物理先验融入 DRL 的实用路径，解决了“高精度模型计算太贵”与“无模型方法物理性太差”之间的矛盾。
工业落地潜力：通过仅需主导能量项的轻量级建模，使得非力学专家也能快速部署物理引导的 RL 控制器，极大地降低了从实验室到工业现场（如工程机械、自动驾驶）的迁移成本。
安全性提升：在安全关键领域（如车辆控制），H-EARS 通过隐式的 Lyapunov 稳定性约束，显著提升了系统在极端条件下的鲁棒性和安全性。
理论指导实践：论文不仅提出了方法，还建立了完整的理论体系（收敛性、误差界、稳定性），为后续研究提供了坚实的理论基础和设计指南。

总结：H-EARS 是一种高效、稳健且理论完备的强化学习增强框架，它通过巧妙结合能量最小化原理与奖励塑造，成功实现了模型-free 强化学习在复杂物理系统中的实用化突破。