Cooperative Game-Theoretic Credit Assignment for Multi-Agent Policy Gradients via the Core

本文提出了名为 CORA 的基于合作博弈论核心分配的多智能体强化学习信用分配方法,通过评估联盟边际贡献并结合截断双 Q 学习来高效估算联盟优势,从而解决传统全局优势共享导致的优化不足问题,在多个基准测试中显著提升了多智能体协作性能。

Mengda Ji, Genjiu Xu, Keke Jia, Zekun Duan, Yong Qiu, Jianjun Ge, Mingqiang LiWed, 11 Ma🤖 cs.AI

Two-Stage Stochastic Capacity Expansion in Stable Matching under Truthful or Strategic Preference Uncertainty

本文针对学校选择等实际场景中偏好不确定性(包括外生的真实偏好和策略性误报导致的内生偏好)对容量规划的影响,提出了一个两阶段随机容量扩展模型,通过样本平均近似法结合拉格朗日与局部搜索启发式算法,在考虑学生策略行为的情况下优化容量决策以提升匹配结果。

Maria Bazotte, Margarida Carvalho, Thibaut VidalWed, 11 Ma🔢 math

Strategically Robust Multi-Agent Reinforcement Learning with Linear Function Approximation

本文提出了一种名为 RQRE-OVI 的乐观值迭代算法,用于在大规模或连续状态空间下通过线性函数近似计算风险敏感量化响应均衡(RQRE),该算法不仅具有理论上的收敛保证和样本复杂度分析,还通过引入理性与风险敏感参数在性能与鲁棒性之间建立了可调节的帕累托前沿,从而在跨博弈场景中展现出比传统纳什均衡方法更优越的稳定性与泛化能力。

Jake Gonzales, Max Horwitz, Eric Mazumdar, Lillian J. RatliffWed, 11 Ma🤖 cs.LG

Platooning as a Service (PlaaS): A Sustainable Transportation Framework for Connected and Autonomous Vehicles

本文提出了一种名为“车队即服务”(PlaaS)的决策支持框架,通过建立以车队服务提供商为领导者的斯塔克尔伯格博弈模型来优化定价与行驶距离决策,并分析了政府补贴及运营参数对平台利润与碳排放的影响,从而为自动驾驶车辆编队行驶促进可持续交通提供了理论依据与管理启示。

Bhosale Akshay Tanaji, Sayak Roychowdhury, Anand AbrahambWed, 11 Ma💻 cs

Bilateral Trade Under Heavy-Tailed Valuations: Minimax Regret with Infinite Variance

该论文研究了具有无界方差(有限 pp 阶矩,p(1,2)p \in (1,2))和 β\beta-Hölder 连续市场价值函数的上下文双边贸易问题,通过扩展自界性质并结合截断均值估计,确定了最小最大遗憾的精确收敛速率,该速率在 p=2p=2 时退化为经典非参数速率,而在 p1+p \to 1^+ 时趋于线性速率。

Hangyi ZhaoTue, 10 Ma🤖 cs.LG