Integrating Lagrangian Neural Networks into the Dyna Framework for Reinforcement Learning
本文提出了一种将拉格朗日神经网络集成到基于 Dyna 框架的模型强化学习中的方法,通过引入物理定律约束并利用状态估计优化器加速训练,有效提升了模型预测的准确性与样本效率。
321 篇论文
本文提出了一种将拉格朗日神经网络集成到基于 Dyna 框架的模型强化学习中的方法,通过引入物理定律约束并利用状态估计优化器加速训练,有效提升了模型预测的准确性与样本效率。
该论文通过构建家庭电池管理和电力网络接入拍卖两个实验,证明了基于大语言模型的生成式智能体能够突破传统数学模型的局限,在电力调度与拍卖场景中有效模拟人类决策行为,既可通过上下文学习传递优化策略,又能复现理性策略及系统性行为偏差。
该论文在输入输出反馈线性化框架下,提出了一种针对非线性系统执行器输入的相对任务分类法,将输入划分为必要、冗余和灵巧三类,并证明了灵巧输入集在特定动态延拓下可视为额外输出通道,从而实现了在满足兼容性条件时通过统一控制器在完整与简化任务间无缝切换且共享输出无瞬态响应的控制策略。
该论文提出了“双存储严格耗散性”这一新概念,通过引入两个存储函数将其与最优控制的价值函数直接关联,证明了该条件不仅是经济模型预测控制渐近稳定性的充要条件,还简化了验证过程并讨论了相应的终端成本设计。
本文提出了一种针对平稳周期性速率单调实时系统的方法,通过利用响应时间的中心极限定理并结合逆高斯混合分布的重新参数化与自适应 EM 算法来估算故障率,仿真结果表明该方法能有效近似故障率并适用于实时系统的扩展分析。
该论文提出了一种新颖的协同优化方法,通过联合设计多无人机运输系统的物理布局(即推力模块的排列)与控制器,以最大化携带负载时的飞行精度和抗扰动鲁棒性,并通过多机实验验证了该方法的有效性。
本文提出了一种名为 DMaC 的新型分布式有限时间算法,该算法利用窄带无误反馈信道,在存在任意丢包模式的有向网络中确保所有节点自主确定收敛并精确计算出最大状态值。
该论文提出了一种利用预训练大语言模型引导进化搜索,将控制策略表示为标准编程语言(如 Python)程序的方法,从而在动态系统控制中生成既具备复杂行为能力又具有高透明度和可解释性的控制策略。
本文提出了一种针对具有能量有界非随机扰动的不确定线性时不变系统的新型定向探索策略,通过利用非证伪参数集的经典结果构建半定规划,在无需假设扰动分布的情况下,基于初始参数不确定性设计了能保证参数估计精度的探索方案。
本文提出了一种基于离散事件系统模块化监督控制的策略,通过结合在线前瞻控制与强制事件,在 MATLAB 仿真平台上对 IEEE 30、118 及 300 节点系统进行了验证,有效降低了计算复杂度并提升了电力系统级联故障预测与缓解的鲁棒性和可靠性。
本文提出了一种基于得分匹配扩散的非线性系统确定性反馈控制框架,通过前向扩散探索状态空间并设计反向去噪律来驱动系统概率密度收敛至目标分布,从而为漂移自由及线性时不变系统提供了可靠的密度控制与规划方法。
本文提出了一种专为嵌入式实时凸优化(特别是现代制导与控制应用)定制的二次锥规划求解器,该方法结合预测 - 校正原对偶内点法与齐次嵌入框架,能够直接处理二次目标函数以避免稀疏性损失,并配套开发了基于问题稀疏性分析的代码生成工具,最终在嵌入式平台上的实验表明其性能优于现有求解器。
该论文建立了全局脉冲控制下模拟量子模拟器实现通用量子计算的充要条件,提出了结合硬件约束的“直接量子最优控制”框架,并在里德堡原子阵列上成功实验验证了该框架在合成多体相互作用及实现拓扑动力学方面的可行性。
本文提出了一种基于稀疏正则化的事件触发控制框架,通过结合滚动时域策略与多阶段优化算法,在平衡控制性能与执行频率的同时,为闭环系统提供了相对于周期性控制的性能保证及稳定性证明。
本文提出了一种仅基于旋转对称约束的分布式多智能体编队控制策略,通过设计势能函数驱动智能体形成平面对称构型,并进一步扩展以实现沿预定轨迹的协同平移、旋转和缩放机动。
本文提出了一种结合离线多参数优化与实时测量的预测性灵活性聚合方法,通过设计隐私保护的集中式控制方案,实现了低压配电网的高效、低成本实时管理。
本文提出了一种针对离散时间优化算法的分析与综合方法,通过求解线性矩阵不等式并结合 Zames-Falb 滤波器系数,实现了在存在时变延迟和不稳定信道动态的切换网络环境下具有指数收敛率保证的鲁棒优化算法设计。
该论文从系统理论视角出发,揭示了广义纳什均衡中严格耗散性与转椅现象之间的双向蕴含关系,建立了稳态均衡的最优性条件与存储函数几何特征,并设计了确保开环轨迹收敛至稳态的线性终端惩罚,从而为博弈论模型预测控制的递归可行性与闭环稳定性分析奠定了理论基础。
该论文提出了一种结合组合时钟交换与机器学习技术的本地能源市场机制,通过让产消者仅报告在给定价格下的偏好产品组合而非复杂报价,有效解决了其认知与计算资源受限及偏好复杂的问题,并实现了约 15 次迭代的高效价格收敛。
该论文提出了一种基于加权信号时序逻辑(WSTL)的安全保障且最优的偏好学习方法,通过结构剪枝和对数变换将复杂的多线性约束转化为混合整数线性规划问题,并在机器人导航及一级方程式赛车数据中验证了其捕捉复杂任务目标的有效性。