Cooperative Game-Theoretic Credit Assignment for Multi-Agent Policy Gradients via the Core

本論文は、協力型マルチエージェント強化学習におけるクレジット割り当て問題に対し、協力ゲーム理論の「コア」に基づく利得配分手法 CORA を提案し、エージェント間の連合貢献を適切に評価することで協調的な最適行動を促進し、既存手法を上回る性能を実現することを示しています。

Mengda Ji, Genjiu Xu, Keke Jia, Zekun Duan, Yong Qiu, Jianjun Ge, Mingqiang LiWed, 11 Ma🤖 cs.AI

Two-Stage Stochastic Capacity Expansion in Stable Matching under Truthful or Strategic Preference Uncertainty

本論文は、学校選択などのマッチング市場において、学生が真の選好を報告するか戦略的に虚偽を報告するかという不確実性を考慮し、2 段階の確率的最適化手法を用いて学校容量の拡張計画を立案する枠組みを提案し、学生行動が容量設計に与える影響を明らかにしています。

Maria Bazotte, Margarida Carvalho, Thibaut VidalWed, 11 Ma🔢 math

Electoral Systems Simulator: An Open Framework for Comparing Electoral Mechanisms Across Voter Distribution Scenarios

本論文は、有権者の分布シナリオに基づいて複数の選挙制度をシミュレーションし、その結果と有権者分布の幾何学的中央値との距離を評価するオープンソースの Python フレームワーク「electoral_sim」を提案し、既存の制度から理論的な上限性能を示す仮想的な新方式までを比較検証したものである。

Sumit MukherjeeWed, 11 Ma💻 cs

Strategically Robust Multi-Agent Reinforcement Learning with Linear Function Approximation

本論文は、大規模なマルコフゲームにおいて、ナッシュ均衡の欠点を克服し、推定報酬に対するリプシッツ連続性と分布ロバスト性を備えた「リスク感受性量化応答均衡(RQRE)」を線形関数近似を用いて効率的に計算するアルゴリズム「RQRE-OVI」を提案し、その収束性と頑健性の理論的保証および実験的有効性を示したものである。

Jake Gonzales, Max Horwitz, Eric Mazumdar, Lillian J. RatliffWed, 11 Ma🤖 cs.LG

Platooning as a Service (PlaaS): A Sustainable Transportation Framework for Connected and Autonomous Vehicles

本論文は、連合自動運転車(CAV)のプラトーン化を「プラトーン・アズ・ア・サービス(PlaaS)」として提供し、プラトーンサービス提供者と利用者をリーダーとフォロワーとするスタッケルベルクゲームとして定式化することで、政府補助金や速度条件などの要因を分析し、持続可能な交通システムにおける最適な価格設定と環境負荷低減の枠組みを提案しています。

Bhosale Akshay Tanaji, Sayak Roychowdhury, Anand AbrahambWed, 11 Ma💻 cs

Game-Theoretic Modeling of Stealthy Intrusion Defense against MDP-Based Attackers

本論文は、高度持続的脅威(APT)の攻撃をマルコフ決定過程に基づく攻撃者と防御者の戦略的相互作用としてモデル化し、攻撃者の防御戦略に関する知識のレベル(スタッケルベルグ、盲目、信念ベース)に応じて、攻撃者が重要資産へのアクセスを獲得する可能性を最小化する最適な防御戦略を導出するものである。

Willie Kouam, Stefan RassWed, 11 Ma💻 cs

Proportionality Degree in Participatory Budgeting

この論文は、参加型予算配分における「比例性の度合い」を初めて研究し、メソッド・オブ・イコール・シェアーズとフレーゲンの逐次ルールという 2 つの主要な手法について、理論的な厳密な境界値の導出と実データを用いた実験的検証を通じて、両者が定量的には同等の比例性を有することを示しています。

Aris Filos-Ratsikas, Sreedurga Gogulapati, Georgios KalantzisWed, 11 Ma💻 cs

The 802.11 MAC protocol leads to inefficient equilibria

本論文は、ゲーム理論モデルとシミュレーションを用いて、非協力的な環境における 802.11 の MAC プロトコル(DCF および 802.11e)がシステム全体のパフォーマンスを低下させる望ましくないナッシュ均衡をもたらすことを示し、チャネル資源の割り当てとノードの送信戦略を独立させることで、より高いスループットを実現する理想的な MAC プロトコルが可能であることを論じています。

Godfrey Tan, John GuttagWed, 11 Ma💻 cs

Opponent State Inference Under Partial Observability: An HMM-POMDP Framework for 2026 Formula 1 Energy Strategy

2026 年の F1 新規定における不完全観測条件下でのエネルギー戦略最適化のため、競合他車の隠れた状態を隠れマルコフモデルで推論し、その推論結果を Deep Q-Network に投入して意思決定を行う 2 層フレームワークを提案し、敵の欺瞞的な「カウンターハーベスト」戦略の検出や ERS 状態の高精度推定を実現する手法を示しています。

Kalliopi KleisarchakiTue, 10 Ma🤖 cs.LG

Bilateral Trade Under Heavy-Tailed Valuations: Minimax Regret with Infinite Variance

分散が無限大となる重尾分布を持つバイラテラル取引において、自己有界性の拡張と截断平均推定を用いることで、ノイズのpp乗モーメントと市場価値関数のβ\beta-Hölder 滑らかさに基づく最小最大後悔の正確なレート(p=2p=2の古典的非パラメトリックレートからp1+p\to1^+の線形レートまでを補間する)を導出し、一致する下界を証明しました。

Hangyi ZhaoTue, 10 Ma🤖 cs.LG

NePPO: Near-Potential Policy Optimization for General-Sum Multi-Agent Reinforcement Learning

本論文は、一般和マルチエージェント強化学習において、プレイヤーに依存しないポテンシャル関数を学習することで混合協調・競争環境における近似ナッシュ均衡を効率的に計算する新しいパイプライン「NePPO」を提案し、既存手法よりも優れた性能を実証したものである。

Addison Kalanther, Sanika Bharvirkar, Shankar Sastry, Chinmay MaheshwariTue, 10 Ma🤖 cs.LG

Masked Unfairness: Hiding Causality within Zero ATE

この論文は、因果的公平性の評価において平均処置効果(ATE)のみに依存する規制が、交絡変数によって「因果的マスキング」を引き起こし、見かけ上の公平性を維持しながら実質的な不平等を隠蔽する深刻なリスクを有することを示し、モデルレベルでの公平性規制の必要性を説いています。

Zou Yang, Sophia Xiao, Bijan MazaheriTue, 10 Ma🤖 cs.LG

Randomise Alone, Reach as a Team

この論文は、共有乱数を持たない分散環境における concurrent graph games において、閾値問題が NP 困難かつ実数存在論理に属し、ほぼ確実到達問題が NP 完全であることを示し、新しい論理 IRATL を提案するとともに、これらの問題に対するソルバーを実装・評価したものである。

Léonard Brice, Thomas A. Henzinger, Alipasha Montaseri, Ali Shafiee, K. S. ThejaswiniTue, 10 Ma💻 cs