A Novel Hybrid Heuristic-Reinforcement Learning Optimization Approach for a Class of Railcar Shunting Problems
本文提出了一种结合铁路专用启发式方法与 Q 学习的混合启发式强化学习(HHRL)框架,通过将双端接入、双机车协同的铁路调车问题分解为单侧接入子问题,有效提升了复杂调车场景下的求解效率与质量。
342 篇论文
本文提出了一种结合铁路专用启发式方法与 Q 学习的混合启发式强化学习(HHRL)框架,通过将双端接入、双机车协同的铁路调车问题分解为单侧接入子问题,有效提升了复杂调车场景下的求解效率与质量。
本文研究了基于 Wasserstein 距离的分布鲁棒标准二次优化问题,证明了其等价于一个修改后的确定性标准二次优化实例,并提供了样本外性能保证及实验验证。
该论文通过建立二次增长广义 McKean-Vlasov 倒向随机微分方程的新存在性与稳定性结果,在无需模型参数或时间范围有界且允许控制变量二次型运行成本的条件下,证明了具有无界控制空间的非马尔可夫均值场博弈弱形式解的存在性。
本文提出了一种专为混合整数规划求解器中基于决策图的并行化框架设计的无锁工作窃取队列,该队列通过支持原生批量操作和简化并发模型(单所有者单窃取者),实现了恒定延迟的推送性能并显著优于现有通用方案。
本文提出了一种基于 Koopman 算子框架的非线性系统频率响应新公式,通过输出拉普拉斯变换将经典 LTI 方法推广至非线性领域,并导出了用于绘制伯德图的复值响应函数及存在性充分条件。
本文提出了一种利用满足 Wolfe 条件的步长搜索来求解无约束多目标区间优化问题 Pareto 临界点的非线性共轭梯度算法,并通过推导 Zoutendijk 条件证明了该算法在多种参数变体下的全局收敛性,同时通过数值实验验证了其性能。
本文提出了一种将贝叶斯学习与线性规划相结合的框架,通过利用数据更新不确定性分布并构建后验可行性保障(包括可信域鲁棒化、后验场景法及蒙特卡洛认证),在提升决策安全性的同时实现了具有可解释性的不确定性感知优化。
本文提出了一种基于牛顿法的算法,通过建立弱帕累托最优与帕累托临界点之间的联系,并结合 Armijo 型线搜索策略,有效求解了具有区间不确定性的多目标优化问题,并证明了其收敛性及在投资组合优化中的应用效果。
本文提出了一种结合贝叶斯学习与可信风险准则的层级贝叶斯动态博弈框架,用于解决竞争环境下信息不完全时的库存与定价决策问题,并通过仿真及生物数据实证验证了该模型在不确定性环境下的有效性与跨领域适用性。
本文针对一般熵正则化时间不一致随机控制问题,设计了一种基于探索性平衡哈密顿 - 雅可比 - 贝尔曼方程的策略迭代算法,并证明了该算法生成的策略和值函数能以指数速率收敛至平衡策略,从而在构造性证明全局解存在唯一性的同时解决了策略改进失效及目标值函数先验未知的难题。
该论文针对生命表仅提供整数年龄生存概率而缺乏分数年龄死亡分布信息的问题,提出了两种互补的约束方法(即几乎必然一致与期望一致),推导了寿命泛函的上下界,从而为寿险公司在不依赖特定分数年龄假设的情况下量化死亡率偏差对合同价值的影响提供了鲁棒框架。
本文针对系数依赖于状态过程分布的非凸控制集 McKean-Vlasov 随机偏微分方程最优控制问题,结合尖峰变分法与涉及概率测度 Lions 导数的伴随反向随机偏微分方程,建立了 Pontryagin 型随机极大值原理,从而将该原理从有限维随机微分方程推广至无限维随机偏微分方程情形。
该论文通过解析基于 softmax 的梯度流动力学,揭示了优化过程会内在驱动模型输出趋向低熵解,从而为 Transformer 中注意力集中和巨大激活等实证现象提供了理论解释。
本文针对去除时间窗约束的线路式动态车辆调度问题(liDARP without TWs),提出了一种基于生成停靠模式的新混合整数规划模型及分支定价算法,并设计了根节点启发式策略,在大规模实例中实现了快速求解且显著优于现有最先进方法。
该论文通过信息论视角重新诠释 NP 问题中的见证者发现,指出在完全无结构的“伪随机”探测模型下,由于多项式次探测所能获取的互信息量远不足以消除不确定性,从而揭示了指数级搜索复杂性的信息论根源。
本文提出了首个无需全局平滑常数或线搜索的自适应投影自由框架 ALFCG,通过自归一化累加器估计局部平滑度,在随机复合非凸优化中实现了优于现有方法的迭代复杂度并展现出卓越的性能。
该论文提出了通过坐标下降法最小化狄利克雷能量来计算马尔可夫链平稳分布的优化框架,从而阐明了“红灯绿灯”(RLGL)算法的行为、证明了特定链的指数收敛性,并提出了加速收敛的实用调度策略。
本文利用集合分离技术,证明了在控制拓扑下,基于迭代李括号的“高阶正规性”足以确保具有无界控制的脉冲扩展系统不存在极小值间隙。
该论文通过引入新的 Lyapunov 型函数,证明了 Popov 算法在求解广义单调变分不等式时,有约束情形下的步长上界为 $1/(2L)1/(\sqrt{3}L)$,且这两个上界均是最优紧的。
本文提出了两种基于投影梯度下降的低秩优化方法,通过结合秩缩减机制或混合策略,确保在具有局部利普希茨连续梯度的代数簇上生成的序列其聚点均为布利甘德(Bouligand)驻点,从而在收敛性、设计简洁性及计算效率等方面展现出显著优势。