Quantal Response Equilibrium as a Measure of Strategic Sophistication: Theory and Validation for LLM Evaluation

Deze paper introduceert een game-theoretisch evaluatiekader gebaseerd op het Quantal Response Equilibrium om de strategische complexiteit van grote taalmodellen kwantitatief te meten en te valideren tegen menselijk gedrag, waarbij wordt aangetoond dat hoewel modellen theoretische voorspellingen benaderen, hun prestaties sterk gevoelig zijn voor promptformulering en versieverschillen.

Mateo Pechon-Elkins, Jon ChunThu, 12 Ma💻 cs

Code-Space Response Oracles: Generating Interpretable Multi-Agent Policies with Large Language Models

Dit paper introduceert Code-Space Response Oracles (CSRO), een nieuw raamwerk dat Large Language Models gebruikt om in plaats van ondoorzichtige neurale netten interpreteerbare, menselijke code te genereren voor multi-agent beleidsstrategieën, waardoor complexe speltheoretische evenwichten transparanter en betrouwbaarder worden.

Daniel Hennes, Zun Li, John Schultz, Marc LanctotThu, 12 Ma🤖 cs.AI

Instant Runoff Voting on Graphs: Exclusion Zones and Distortion

Dit artikel onderzoekt instant-runoff voting op grafen met metrische voorkeuren, waarbij het aantoont dat het testen van uitsluitingszones en het vinden van de minimale zone op bomen in polynomiale tijd kan worden opgelost via dynamisch programmeren, terwijl deze problemen voor algemene grafen NP-moeilijk blijven, en analyseert bovendien de utilitaire vervorming van het stemsysteem.

Georgios Birmpas, Georgios Chionas, Efthyvoulos Drousiotis, Soodeh Habibi, Marios Mavronicolas, Paul SpirakisThu, 12 Ma💻 cs

The Coordination Gap: Alternation Metrics for Temporal Dynamics in Multi-Agent Battle of the Exes

Deze paper introduceert nieuwe, tijdsgevoelige alternatiemetrics om de beperkingen van traditionele, tijdsblinde maatstaven aan te tonen bij het evalueren van multi-agent coördinatie, waarbij blijkt dat agenten met hoge traditionele scores in feite slechter presteren dan willekeurige baselines in termen van daadwerkelijke coördinatiekwaliteit.

Nikolaos Al. Papadopoulos, Konstantinos PsannisMon, 09 Ma🤖 cs.LG