cs.GT 篇论文 | Gist.Science

Characterizations of voting rules based on majority margins

该论文通过引入“偏好平等”等具有明确规范内涵的公理，证明了任何类型的投票规则属于基于多数边距的投票规则当且仅当满足这些公理，从而为这一数学性质赋予了规范性基础。

Yifeng Ding, Wesley H. Holliday, Eric PacuitWed, 11 Ma📈 econ

On the Impact of the Utility in Semivalue-based Data Valuation

该论文通过引入数据集的“空间签名”概念，将半值法数据估值中的效用选择问题转化为低维空间中的线性泛函问题，并提出了一种实用的鲁棒性度量方法，以量化和评估效用变化对数据估值结果的影响。

Mélissa Tamine, Benjamin Heymann, Maxime Vono, Patrick LoiseauWed, 11 Ma🤖 cs.AI

Cooperative Game-Theoretic Credit Assignment for Multi-Agent Policy Gradients via the Core

本文提出了名为 CORA 的基于合作博弈论核心分配的多智能体强化学习信用分配方法，通过评估联盟边际贡献并结合截断双 Q 学习来高效估算联盟优势，从而解决传统全局优势共享导致的优化不足问题，在多个基准测试中显著提升了多智能体协作性能。

Mengda Ji, Genjiu Xu, Keke Jia, Zekun Duan, Yong Qiu, Jianjun Ge, Mingqiang LiWed, 11 Ma🤖 cs.AI

Two-Stage Stochastic Capacity Expansion in Stable Matching under Truthful or Strategic Preference Uncertainty

本文针对学校选择等实际场景中偏好不确定性（包括外生的真实偏好和策略性误报导致的内生偏好）对容量规划的影响，提出了一个两阶段随机容量扩展模型，通过样本平均近似法结合拉格朗日与局部搜索启发式算法，在考虑学生策略行为的情况下优化容量决策以提升匹配结果。

Maria Bazotte, Margarida Carvalho, Thibaut VidalWed, 11 Ma🔢 math

Algorithmic Collusion at Test Time: A Meta-game Design and Evaluation

该论文提出了一种元博弈设计框架，通过在测试时约束下结合预训练策略与自适应规则，评估了在不同成本设置下强化学习、UCB 及大语言模型策略在重复定价博弈中是否能在理性选择下自发形成算法共谋。

Yuhong Luo, Daniel Schoepflin, Xintong WangWed, 11 Ma💻 cs

Electoral Systems Simulator: An Open Framework for Comparing Electoral Mechanisms Across Voter Distribution Scenarios

本文介绍了开源 Python 框架 `electoral_sim`，该框架通过在二维意识形态空间中模拟选民分布，比较了包括比例代表制在内的多种选举机制及一种基于玻尔兹曼软核的假设机制，以选举结果与选民几何中位数的欧几里得距离为指标评估其表现。

Sumit MukherjeeWed, 11 Ma💻 cs

Strategically Robust Multi-Agent Reinforcement Learning with Linear Function Approximation

本文提出了一种名为 RQRE-OVI 的乐观值迭代算法，用于在大规模或连续状态空间下通过线性函数近似计算风险敏感量化响应均衡（RQRE），该算法不仅具有理论上的收敛保证和样本复杂度分析，还通过引入理性与风险敏感参数在性能与鲁棒性之间建立了可调节的帕累托前沿，从而在跨博弈场景中展现出比传统纳什均衡方法更优越的稳定性与泛化能力。

Jake Gonzales, Max Horwitz, Eric Mazumdar, Lillian J. RatliffWed, 11 Ma🤖 cs.LG

Platooning as a Service (PlaaS): A Sustainable Transportation Framework for Connected and Autonomous Vehicles

本文提出了一种名为“车队即服务”（PlaaS）的决策支持框架，通过建立以车队服务提供商为领导者的斯塔克尔伯格博弈模型来优化定价与行驶距离决策，并分析了政府补贴及运营参数对平台利润与碳排放的影响，从而为自动驾驶车辆编队行驶促进可持续交通提供了理论依据与管理启示。

Bhosale Akshay Tanaji, Sayak Roychowdhury, Anand AbrahambWed, 11 Ma💻 cs

Game-Theoretic Modeling of Stealthy Intrusion Defense against MDP-Based Attackers

本文通过博弈论建模，针对具有隐蔽性和多阶段特征的高级持续性威胁（APT），在攻击者拥有完全信息、完全盲视及概率信念三种不同信息情境下，研究了防御者在随机部署检测传感器以应对马尔可夫决策过程（MDP）驱动的攻击者时的最优防御策略。

Willie Kouam, Stefan RassWed, 11 Ma💻 cs

Proportionality Degree in Participatory Budgeting

该论文首次研究了参与式预算中的比例度问题，通过理论推导与实验验证，揭示了尽管“等份额法”（MES）在公理保证上更强，但其与 Phragmen 序贯规则在比例度这一量化指标上具有相同的紧确界。

Aris Filos-Ratsikas, Sreedurga Gogulapati, Georgios KalantzisWed, 11 Ma💻 cs

The 802.11 MAC protocol leads to inefficient equilibria

本文通过博弈论模型和仿真证明，现有的 802.11 分布式 MAC 协议在非合作环境下会导致节点陷入低效的纳什均衡，而若能实现信道资源分配与节点传输策略的解耦，则可使所有竞争节点获得比 DCF 更高的吞吐量。

Godfrey Tan, John GuttagWed, 11 Ma💻 cs

A Robust Multi-Item Auction Design with Statistical Learning

本文提出了一种结合可信区间的新型统计学习方法，通过非参数密度估计和两项创新策略，在确保拍卖机制公平性、激励相容性及个体理性高概率成立的前提下，有效降低了多物品拍卖的实施成本并实现了收益最大化。

Jiale Han, Xiaowu DaiTue, 10 Ma💻 cs

The Illusion of Collusion

该论文研究了在无直接竞争信息的情况下，基于多臂老虎机的算法代理如何在重复囚徒困境中通过行动同步性自发形成“朴素合谋”，并发现这种合谋现象的发生与否高度依赖于所采用的行为策略（确定性算法必然导致合谋，而持续随机算法则能避免）。

Connor Douglas, Foster Provost, Arun SundararajanTue, 10 Ma💻 cs

Feedback Control for Small Budget Pacing

该论文提出了一种结合分桶滞回与比例反馈的反馈控制方法，通过 principled 的参数选择框架显著提升了在线广告（尤其是小预算活动）的预算执行精度与交付稳定性。

Sreeja Apparaju, Yichuan Niu, Xixi QiTue, 10 Ma🤖 cs.LG

Informal and Privatized Transit: Incentives, Efficiency and Coordination

该论文通过构建博弈论模型，分析了非正规及私有化交通系统中司机逐利行为导致的效率损失，并提出了通过中央控制部分运力或实施交叉补贴等机制来优化系统协调与效率的解决方案，且经由印度纳拉索帕拉地区的实证数据验证了这些干预措施的有效性。

Devansh Jalota, Matthew TsaoTue, 10 Ma🔢 math

Opponent State Inference Under Partial Observability: An HMM-POMDP Framework for 2026 Formula 1 Energy Strategy

该论文针对 2026 年 F1 新规下因对手隐藏状态导致的部分可观测随机博弈问题，提出了一种结合隐藏马尔可夫模型（HMM）推断对手能量状态与深度 Q 网络（DQN）制定决策的两层框架，有效解决了传统单智能体优化方法无法应对的“反收割陷阱”等复杂策略挑战。

Kalliopi KleisarchakiTue, 10 Ma🤖 cs.LG

Bilateral Trade Under Heavy-Tailed Valuations: Minimax Regret with Infinite Variance

该论文研究了具有无界方差（有限 $p$ 阶矩， $p \in (1,2)$ ）和 $\beta$ -Hölder 连续市场价值函数的上下文双边贸易问题，通过扩展自界性质并结合截断均值估计，确定了最小最大遗憾的精确收敛速率，该速率在 $p=2$ 时退化为经典非参数速率，而在 $p \to 1^+$ 时趋于线性速率。

Hangyi ZhaoTue, 10 Ma🤖 cs.LG

NePPO: Near-Potential Policy Optimization for General-Sum Multi-Agent Reinforcement Learning

本文提出了一种名为 NePPO 的新多智能体强化学习流程，通过学习玩家无关的势函数将混合合作 - 竞争环境转化为近似势博弈，从而在通用和博弈中有效计算近似纳什均衡，其性能优于 MAPPO、IPPO 和 MADDPG 等主流基线方法。

Addison Kalanther, Sanika Bharvirkar, Shankar Sastry, Chinmay MaheshwariTue, 10 Ma🤖 cs.LG

Masked Unfairness: Hiding Causality within Zero ATE

该论文揭示了仅基于平均处理效应（ATE）为零的监管标准存在“因果掩盖”漏洞，即优化算法可在满足该统计指标的同时通过混淆因素实施严重的不公平对待，且此类隐蔽的不公难以被检测，因此主张应将公平性监管从决策层面提升至模型层面。

Zou Yang, Sophia Xiao, Bijan MazaheriTue, 10 Ma🤖 cs.LG

Randomise Alone, Reach as a Team

本文研究了对手存在下、玩家间无共享随机源且彼此独立的并发图博弈，证明了阈值判定问题属于实数存在理论（ $\exists\mathbb{R}$ ）且为 NP 难，几乎必然可达性判定为 NP 完全，并提出了适用于此类分布随机化场景的 IRATL 逻辑及相应求解算法。

Léonard Brice, Thomas A. Henzinger, Alipasha Montaseri, Ali Shafiee, K. S. ThejaswiniTue, 10 Ma💻 cs