Offer of a reward does not always promote trust in spatial games
该研究通过引入空间信任博弈中的角色间奖励机制,发现适度的奖励虽能促进信任,但过度奖励会诱发“不回报”策略从而抑制信任演化,且奖励成本并非越低越好,适度高昂的奖励反而有助于巩固信任集群。
62 篇论文
该研究通过引入空间信任博弈中的角色间奖励机制,发现适度的奖励虽能促进信任,但过度奖励会诱发“不回报”策略从而抑制信任演化,且奖励成本并非越低越好,适度高昂的奖励反而有助于巩固信任集群。
该论文提出了一种用于求解平均收益博弈的新确定性对称递归算法。
本文通过构建合并与切换两种耦合机制,利用随机游走和谱分析研究了多层网络中的协调博弈,揭示了层间交互既能促进也能破坏全局共识的复杂动力学特性及其稳定性条件。
该论文提出了名为“深度激励设计”(DID)的新框架,通过引入与博弈无关的可微均衡块(DEB)模块,利用单一神经网络统一解决了涵盖合同设计、机器调度及逆均衡问题在内的多种复杂激励设计任务,能够高效处理不同规模和参数的博弈场景。
该研究通过在双臂老虎机任务中测试大语言模型,发现其在不同奖励条件下均表现出将位置偏好放大为僵化决策策略的鲁棒性偏差,且这种由低学习率和高逆温度导致的过度利用行为难以通过常规解码参数调整消除,进而揭示了这些偏差可能深刻影响人机协作的潜在机制。
本文提出了一种专为品牌广告竞价设计的轻量级模型预测控制(MPC)框架,该框架利用在线保序回归直接从流数据构建单调模型,无需复杂机器学习即可在低计算开销下实现高效的实时出价与成本管控。
该论文通过博弈论分析指出,现有基准测试因缺乏纳什均衡而导致开发者策略性“刷榜”的激励错位问题,并证明采用“先调优后测试”的新评估协议可在温和条件下构建出唯一纳什均衡,从而确保模型排名真实反映其潜在质量。
本文作为“有偏交互博弈”的配套研究,通过探讨偏见在稀缺条件下对等级、不平等及合作涌现的影响,验证了该模型在模拟从极端资本主义到社会平等主义等复杂社会系统(包括非线性动态及财富再分配政策)方面的适用性与改进价值。
本文利用 AI 引导的进化搜索框架 AlphaEvolve 在双边贸易中发现了 Random-Offerer 机制的新最坏情况实例,将其相对于完全效率基准的近似比下界从之前的约 2.02 提升至 2.0749。
该论文针对现有逆博弈方法在推断智能体目标时假设“完全共享知识”的局限性,提出了一种能够推断智能体彼此对对方目标估计的“二级逆博弈”框架,并通过理论证明与实验验证了其在处理去中心化场景中目标认知偏差方面的有效性。
该论文提出了一种结合组合时钟交换与机器学习技术的本地能源市场机制,通过让产消者仅报告在给定价格下的偏好产品组合而非复杂报价,有效解决了其认知与计算资源受限及偏好复杂的问题,并实现了约 15 次迭代的高效价格收敛。
该论文将因果博弈扩展至序贯场景并证明其计算复杂性,但实证结果表明,在理性最佳响应假设下,序贯因果均衡并未带来比经典斯塔克尔伯格均衡更高的社会福利,从而揭示了基于理性选择的标准博弈框架与因果推理优势之间的根本性不兼容。
该论文证明了在《游戏王》集换式卡牌游戏中,判定给定可计算策略是否为必胜策略的问题是 -完全的(即不可判定),并构造了符合当前禁限卡表的合法卡组,通过归约可计算策略的判定问题至可计算停机问题以及可数良序集问题来证实这一结论。
该论文提出了一种基于量化响应均衡(QRE)的游戏理论评估框架,通过推导闭式均衡解和估计理性参数,将大语言模型的战略推理能力置于连续尺度上进行理论验证,揭示了模型在博弈中的表现差异及其对提示语框架的高度敏感性。
该论文提出了代码空间响应 oracle(CSRO)框架,通过利用大语言模型将多智能体策略生成重构为代码生成任务,从而在保持与基线相当性能的同时,解决了传统强化学习方法中策略不可解释的问题,并实现了可解释、多样化且具备人类智能特征的策略合成。
本文研究了基于图 metric 偏好的即时 runoff 投票(IRV)机制,证明了在树形图上多项式时间内可求解排除区验证与最小化问题,同时指出满足强强制淘汰性质的通用规则下这些问题是 NP 难的,并进一步分析了 IRV 在此离散设定下的效用扭曲界限。
该论文通过实验发现,基于大语言模型(LLM)的定价代理在寡头市场及拍卖环境中能自主达成超竞争价格与利润,且指令措辞的细微变化会显著影响其合谋程度,这为监管此类 AI 定价代理带来了独特挑战。
本文针对 Gorantla 等人提出的开放问题,通过引入一种更简洁有力的构造性技术,推导出了在任意组数和物品类型下保证公平分配存在的显式上界,并将该结果成功扩展至 chores(坏任务)及连续分配(如切蛋糕)等场景。
该论文提出了一种将统计假设检验嵌入博弈策略的“先测试后惩罚”框架,通过允许忽略极小概率历史并采用序贯或分批测试机制,在 imperfect monitoring(不完美监控)条件下成功扩展了重复博弈的民间定理,证明了足够耐心的玩家可维持任意可行且个体理性的收益。
该论文指出传统评估指标因缺乏时间敏感性而严重误判多智能体协作质量,通过引入“完美轮替”参考系及六种新型轮替指标,揭示了在“前任之战”变体中即使传统公平性指标很高,Q 学习智能体的实际协作表现仍可能远低于随机基线,从而强调了在分析多智能体动态时采用时间感知观测量的必要性。