Hybrid Energy-Aware Reward Shaping: A Unified Lightweight Physics-Guided Methodology for Policy Optimization
Diese Studie stellt H-EARS vor, eine einheitliche, leichtgewichtige Methode, die potentialbasierte Reward-Shaping mit energiebewusster Aktionsregularisierung kombiniert, um die Konvergenz und Energieeffizienz von Deep Reinforcement Learning in kontinuierlichen Steuerungsaufgaben ohne vollständige physikalische Modelle zu verbessern.
Qijun Liao (School of Mechanical Engineering, University of Science and Technology Beijing, China), Jue Yang (School of Mechanical Engineering, University of Science and Technology Beijing, China), Yiting Kang (School of Mechanical Engineering, University of Science and Technology Beijing, China), Xinxin Zhao (School of Mechanical Engineering, University of Science and Technology Beijing, China), Yong Zhang (Jiangsu XCMG Construction Machinery Research Institute Co., Ltd., China), Mingan Zhao (Jiangsu XCMG Construction Machinery Research Institute Co., Ltd., China)2026-03-13🤖 cs.LG