Characterizing MARL for Energy Control: A Multi-KPI Benchmark on the CityLearn Environment

Diese Arbeit stellt einen umfassenden Multi-KPI-Benchmark für Multi-Agenten-Reinforcement-Learning-Algorithmen im CityLearn-Umfeld vor und zeigt, dass dezentralisiertes Training mit dezentraler Ausführung (DTDE) zentrale Ansätze in Bezug auf Leistung und Robustheit übertrifft.

Aymen Khouja, Imen Jendoubi, Oumayma Mahjoub, Oussama Mahfoudhi, Ruan De Kock, Siddarth Singh, Claude Formanek2026-03-10🤖 cs.LG

MrBERT: Modern Multilingual Encoders via Vocabulary, Domain, and Dimensional Adaptation

Die Autoren stellen MrBERT vor, eine Familie effizienter multilingualer Encoder auf ModernBERT-Basis, die durch gezielte Anpassung an 35 Sprachen sowie spezialisierte Domänen und die Integration von Matryoshka-Repräsentationslernen sowohl state-of-the-art-Leistung als auch kosteneffiziente Inferenz ermöglicht.

Daniel Tamayo, Iñaki Lacunza, Paula Rivera-Hidalgo, Severino Da Dalt, Javier Aula-Blasco, Aitor Gonzalez-Agirre, Marta Villegas2026-03-10🤖 cs.LG

ARLArena: A Unified Framework for Stable Agentic Reinforcement Learning

Die Arbeit stellt ARLArena vor, ein einheitliches Framework zur Analyse und Stabilisierung des agentic Reinforcement Learning, das auf Basis einer detaillierten Untersuchung der Trainingsinstabilität die neue Methode SAMPO entwickelt, um zuverlässiges und leistungsfähiges Training von LLM-basierten Agenten zu ermöglichen.

Xiaoxuan Wang, Han Zhang, Haixin Wang, Yidan Shi, Ruoyan Li, Kaiqiao Han, Chenyi Tong, Haoran Deng, Renliang Sun, Alexander Taylor, Yanqiao Zhu, Jason Cong, Yizhou Sun, Wei Wang2026-03-10💻 cs

CryoNet.Refine: A One-step Diffusion Model for Rapid Refinement of Structural Models with Cryo-EM Density Map Restraints

CryoNet.Refine ist ein auf einem einstufigen Diffusionsmodell basierendes Deep-Learning-Framework, das die automatische und schnelle Verfeinerung von Protein- sowie DNA/RNA-Protein-Komplexen mittels Cryo-EM-Dichtekarten ermöglicht und dabei sowohl die Übereinstimmung mit den experimentellen Daten als auch die geometrische Qualität gegenüber herkömmlichen Methoden wie Phenix.real_space_refine signifikant verbessert.

Fuyao Huang, Xiaozhu Yu, Kui Xu, Qiangfeng Cliff Zhang2026-03-10💻 cs

Scaling Search Relevance: Augmenting App Store Ranking with LLM-Generated Judgments

Die Studie zeigt, dass die Erweiterung eines App-Store-Rankers durch Millionen von mit einem spezialisierten, feinabgestimmten LLM generierten Textrelevanz-Labels die Pareto-Grenze verschiebt und zu signifikanten Verbesserungen sowohl bei der Offline-NDCG als auch bei der weltweiten Konversionsrate führt, insbesondere bei Suchanfragen mit wenig Verhaltensdaten.

Evangelia Christakopoulou, Vivekkumar Patel, Hemanth Velaga, Sandip Gaikwad, Sean Suchter, Venkat Sundaranatha2026-03-10🤖 cs.LG

Attn-QAT: 4-Bit Attention With Quantization-Aware Training

Die Arbeit stellt Attn-QAT vor, eine Methode zur quantisierungsbewussten 4-Bit-Attention, die durch die Anpassung der Rückwärtsberechnung an niedrige Präzision und die Auflösung impliziter Genauigkeitsannahmen eine stabile FP4-Ausbildung ohne Ausreißer-Minderung ermöglicht und auf der RTX 5090 eine bis zu 1,5-fache Geschwindigkeitssteigerung erzielt.

Peiyuan Zhang, Matthew Noto, Wenxuan Tan, Chengquan Jiang, Will Lin, Wei Zhou, Hao Zhang2026-03-10🤖 cs.LG

How Well Do Multimodal Models Reason on ECG Signals?

Diese Arbeit stellt einen reproduzierbaren Rahmen vor, der die reasoning-Fähigkeiten multimodaler Modelle bei EKG-Signalen durch eine duale Verifikation von Wahrnehmung (mittels Code-Generierung) und Deduktion (durch Abgleich mit klinischen Kriterien) skalierbar bewertet, um die Validität klinischer Logik jenseits oberflächlicher Metriken zu überprüfen.

Maxwell A. Xu, Harish Haresamudram, Catherine W. Liu, Patrick Langer, Jathurshan Pradeepkumar, Wanting Mao, Sunita J. Ferns, Aradhana Verma, Jimeng Sun, Paul Schmiedmayer, Xin Liu, Daniel McDuff, Emily B. Fox, James M. Rehg2026-03-10🤖 cs.LG

Opponent State Inference Under Partial Observability: An HMM-POMDP Framework for 2026 Formula 1 Energy Strategy

Diese Arbeit stellt ein zweistufiges HMM-POMDP-Rahmenwerk vor, das die Energiestrategie für die Formel-1-Saison 2026 optimiert, indem es mittels eines Hidden-Markov-Modells den verborgenen Zustand von Gegnern aus Telemetriedaten ableitet und eine Deep-Q-Network-Politik zur Vermeidung von Täuschungsmanövern wie dem „Counter-Harvest Trap" steuert.

Kalliopi Kleisarchaki2026-03-10🤖 cs.LG

HarmonyCell: Automating Single-Cell Perturbation Modeling under Semantic and Distribution Shifts

HarmonyCell ist ein end-to-end Agenten-Framework, das durch eine LLM-gesteuerte semantische Vereinheitlichung und einen adaptiven Monte-Carlo-Baumsuch-Algorithmus die Modellierung von Einzelzell-Perturbationen unter semantischen und distributionellen Verschiebungen automatisiert und dabei sowohl die Ausführungsfähigkeit als auch die Leistung gegenüber Experten-basierten Baselines signifikant verbessert.

Wenxuan Huang, Mingyu Tsoi, Yanhao Huang, Xinjie Mao, Xue Xia, Hao Wu, Jiaqi Wei, Yuejin Yang, Lang Yu, Cheng Tan, Xiang Zhang, Zhangyang Gao, Siqi Sun2026-03-10💻 cs