Scaling Strategy, Not Compute: A Stand-Alone, Open-Source StarCraft II Benchmark for Accessible Reinforcement Learning Research

Die Autoren stellen mit dem Two-Bridge Map Suite eine neue Open-Source-Benchmark für StarCraft II vor, die als intermediäre Testumgebung zwischen dem Vollspiel und Minispielen dient, indem sie ökonomische Mechaniken ausschaltet, um Reinforcement-Learning-Forschung unter realistischeren Rechenbudgets zu ermöglichen.

Sourav Panda, Shreyash Kale, Tanmay Ambadkar, Abhinav Verma, Jonathan Dodge2026-03-10🤖 cs.LG

CapTrack: Multifaceted Evaluation of Forgetting in LLM Post-Training

Das Paper stellt CapTrack vor, ein rahmenbasiertes Evaluierungssystem, das Vergessen in nachtrainierten LLMs nicht nur als Wissensverlust, sondern als systematische Verhaltensdrift definiert und in einer groß angelegten Studie zeigt, dass insbesondere Instruction Fine-Tuning zu erheblichen Einbußen bei Robustheit und Standardverhalten führt, während Präferenzoptimierung konservativer wirkt.

Lukas Thede, Stefan Winzeck, Zeynep Akata, Jonathan Richard Schwarz2026-03-10🤖 cs.LG

Consensus is Not Verification: Why Crowd Wisdom Strategies Fail for LLM Truthfulness

Die Studie zeigt, dass sich die Wahrheitstreue von Sprachmodellen in nicht verifizierbaren Domänen durch Abstimmungsmethoden oder die Skalierung der Inferenz nicht verbessern lässt, da die Fehler der Modelle stark korreliert sind und Aggregation stattdessen gemeinsame Missverständnisse verstärkt.

Yegor Denisov-Blanch, Joshua Kazdan, Jessica Chudnovsky, Rylan Schaeffer, Sheng Guan, Soji Adeshina, Sanmi Koyejo2026-03-10🤖 cs.LG

Annealed Co-Generation: Disentangling Variables via Progressive Pairwise Modeling

Die Arbeit stellt einen Annealed Co-Generation-Rahmen vor, der durch die Verwendung von paarweisen Diffusionsmodellen und einem dreistufigen Temperierungsprozess eine effiziente und konsistente multivariate Co-Generierung für wissenschaftliche Anwendungen ermöglicht, ohne die Komplexität einer gemeinsamen Hochdimensionalmodellierung zu erfordern.

Hantao Zhang, Jieke Wu, Mingda Xu, Xiao Hu, Yingxuan You, Pascal Fua2026-03-10🤖 cs.LG

Evo: Autoregressive-Diffusion Large Language Models with Evolving Balance

Die Arbeit stellt Evo vor, ein neuartiges Sprachmodell, das autoregressive und diffusionsbasierte Generierung in einem kontinuierlichen evolutionären Rahmen vereint, um durch adaptive Balance zwischen beiden Paradigmen sowohl hohe Generierungsqualität als auch schnelle Inferenz zu erreichen.

Junde Wu, Minhao Hu, Jiayuan Zhu, Yuyuan Liu, Tianyi Zhang, Kang Li, Jingkun Chen, Jiazhen Pan, Min Xu, Yueming Jin2026-03-10🤖 cs.LG

Distilling and Adapting: A Topology-Aware Framework for Zero-Shot Interaction Prediction in Multiplex Biological Networks

Die Autoren stellen einen neuartigen, topologiebewussten Rahmen vor, der durch Kontext-Representation-Learning, Wissensdistillation und einen Graph-Tokeniser für Multiplex-Biologische Netzwerke eine robuste Zero-Shot-Vorhersage von Interaktionen zwischen bisher unbekannten biologischen Entitäten ermöglicht.

Alana Deng, Sugitha Janarthanan, Yan Sun, Zihao Jing, Pingzhao Hu2026-03-10🤖 cs.LG

Reward Under Attack: Analyzing the Robustness and Hackability of Process Reward Models

Die Studie zeigt, dass aktuelle Prozess-Reward-Modelle (PRMs) anfällig für adversarialen Angriff sind, da sie eher Sprachflüssigkeit als logische Korrektheit bewerten, und stellt mit PRM-BiasBench ein Diagnose-Toolkit vor, um diese Schwachstellen vor dem Einsatz zu identifizieren.

Rishabh Tiwari, Aditya Tomar, Udbhav Bamba, Monishwaran Maheswaran, Heng Yang, Michael W. Mahoney, Kurt Keutzer, Amir Gholami2026-03-10🤖 cs.LG