Code-Space Response Oracles: Generating Interpretable Multi-Agent Policies with Large Language Models

该论文提出了代码空间响应 oracle(CSRO)框架,通过利用大语言模型将多智能体策略生成重构为代码生成任务,从而在保持与基线相当性能的同时,解决了传统强化学习方法中策略不可解释的问题,并实现了可解释、多样化且具备人类智能特征的策略合成。

Daniel Hennes, Zun Li, John Schultz, Marc LanctotThu, 12 Ma🤖 cs.AI

Instant Runoff Voting on Graphs: Exclusion Zones and Distortion

本文研究了基于图 metric 偏好的即时 runoff 投票(IRV)机制,证明了在树形图上多项式时间内可求解排除区验证与最小化问题,同时指出满足强强制淘汰性质的通用规则下这些问题是 NP 难的,并进一步分析了 IRV 在此离散设定下的效用扭曲界限。

Georgios Birmpas, Georgios Chionas, Efthyvoulos Drousiotis, Soodeh Habibi, Marios Mavronicolas, Paul SpirakisThu, 12 Ma💻 cs

Test-then-Punish: A Statistical Approach to Repeated Games

该论文提出了一种将统计假设检验嵌入博弈策略的“先测试后惩罚”框架,通过允许忽略极小概率历史并采用序贯或分批测试机制,在 imperfect monitoring(不完美监控)条件下成功扩展了重复博弈的民间定理,证明了足够耐心的玩家可维持任意可行且个体理性的收益。

Aymeric Capitaine, Antoine Scheid, Etienne Boursier, Alain Durmus, Michael I. JordanMon, 09 Ma💻 cs

The Coordination Gap: Alternation Metrics for Temporal Dynamics in Multi-Agent Battle of the Exes

该论文指出传统评估指标因缺乏时间敏感性而严重误判多智能体协作质量,通过引入“完美轮替”参考系及六种新型轮替指标,揭示了在“前任之战”变体中即使传统公平性指标很高,Q 学习智能体的实际协作表现仍可能远低于随机基线,从而强调了在分析多智能体动态时采用时间感知观测量的必要性。

Nikolaos Al. Papadopoulos, Konstantinos PsannisMon, 09 Ma🤖 cs.LG