Scaling Strategy, Not Compute: A Stand-Alone, Open-Source StarCraft II Benchmark for Accessible Reinforcement Learning Research

Deze paper introduceert de Two-Bridge Map Suite, een open-source benchmark voor StarCraft II die als tussenliggend niveau fungeert tussen de volledige game en mini-games, waardoor onderzoekers tactische vaardigheden kunnen bestuderen zonder de hoge rekenkosten van de volledige game.

Sourav Panda, Shreyash Kale, Tanmay Ambadkar, Abhinav Verma, Jonathan Dodge2026-03-10🤖 cs.LG

Consensus is Not Verification: Why Crowd Wisdom Strategies Fail for LLM Truthfulness

Dit paper concludeert dat het vermeerderen van inferentieberekeningen via crowd-wisdom-strategieën de waarheidsgetrouwheid van taalmodellen in niet-verifieerbare domeinen niet verbetert, omdat de fouten van modellen sterk gecorreleerd zijn en aggregatie vaak gedeelde misvattingen versterkt in plaats van de waarheid te onthullen.

Yegor Denisov-Blanch, Joshua Kazdan, Jessica Chudnovsky, Rylan Schaeffer, Sheng Guan, Soji Adeshina, Sanmi Koyejo2026-03-10🤖 cs.LG

Annealed Co-Generation: Disentangling Variables via Progressive Pairwise Modeling

Dit paper introduceert het Annealed Co-Generation (ACG)-framework, dat multivariate co-generatie in wetenschappelijke toepassingen efficiënter maakt door complexe gezamenlijke modellering te vervangen door een samenstellende reeks van laag-dimensionale, paarsgewijze diffusiemodellen die via een drie-fase-annealingsproces worden gekoppeld.

Hantao Zhang, Jieke Wu, Mingda Xu, Xiao Hu, Yingxuan You, Pascal Fua2026-03-10🤖 cs.LG

Distilling and Adapting: A Topology-Aware Framework for Zero-Shot Interaction Prediction in Multiplex Biological Networks

Deze paper introduceert een nieuw topology-bewust kader dat kennisdistillatie en contextbewuste representatielering combineert om zero-shot interactievoorspelling in multiplex biologische netwerken te verbeteren, waardoor de beperkingen van bestaande methoden worden overwonnen en de ontdekking van nieuwe biologische interacties voor gepersonaliseerde therapieën wordt bevorderd.

Alana Deng, Sugitha Janarthanan, Yan Sun, Zihao Jing, Pingzhao Hu2026-03-10🤖 cs.LG

Reward Under Attack: Analyzing the Robustness and Hackability of Process Reward Models

Deze studie toont aan dat Process Reward Models (PRMs) kwetsbaar zijn voor adversariale aanvallen en eerder functioneren als fluwheidsdetectoren dan als betrouwbare verifiers van redenering, waardoor de auteurs een drielaags diagnostisch framework en PRM-BiasBench introduceren om deze zwaktes te kwantificeren en op te lossen.

Rishabh Tiwari, Aditya Tomar, Udbhav Bamba, Monishwaran Maheswaran, Heng Yang, Michael W. Mahoney, Kurt Keutzer, Amir Gholami2026-03-10🤖 cs.LG