Reliable Grid Forecasting: State Space Models for Safety-Critical Energy Systems

Diese Studie stellt einen operatorfreundlichen Evaluierungsrahmen für die Netzlastprognose vor, der zeigt, dass herkömmliche Genauigkeitsmetriken Sicherheitsrisiken verschleiern, und demonstriert, wie durch explizite Wetterintegration und bias-konstrainte Optimierungsziele die Zuverlässigkeit von State-Space-Modellen und Transformern in sicherheitskritischen Energiesystemen verbessert wird, ohne in triviale Überprognosen zu verfallen.

Sunki Hong, Jisoo Lee2026-03-10⚡ eess

DrivingGen: A Comprehensive Benchmark for Generative Video World Models in Autonomous Driving

Das Paper stellt DrivingGen vor, den ersten umfassenden Benchmark für generative Weltmodelle im autonomen Fahren, der durch eine diverse Datensammlung und neue Metriken die Bewertung von visueller Realitätsnähe, Trajektorienplausibilität, zeitlicher Kohärenz und Steuerbarkeit ermöglicht, um die Entwicklung zuverlässiger und einsatzfähiger Simulationswerkzeuge zu fördern.

Yang Zhou, Hao Shao, Letian Wang, Zhuofan Zong, Hongsheng Li, Steven L. Waslander2026-03-10💻 cs

The Algorithmic Gaze of Image Quality Assessment: An Audit and Trace Ethnography of the LAION-Aesthetics Predictor

Diese Studie untersucht den LAION-Aesthetics Predictor und zeigt durch Audits und eine digitale Ethnographie auf, dass das Modell durch die Bevorzugung westlicher und männlicher Perspektiven sowie die Unterdrückung von LGBTQ+-Inhalten bestehende Machtstrukturen in der KI-generierten Bildkunst verstärkt, woraus die Notwendigkeit pluralistischerer Bewertungsansätze abgeleitet wird.

Jordan Taylor, William Agnew, Maarten Sap, Sarah E. Fox, Haiyi Zhu2026-03-10💻 cs

CaMeLs Can Use Computers Too: System-level Security for Computer Use Agents

Die Arbeit stellt mit „Single-Shot Planning" einen neuen Sicherheitsansatz für Computer-Nutzungs-Agenten vor, der durch eine strikte Trennung von Planung und Ausführung Prompt-Injection-Angriffe verhindert und gleichzeitig Branch-Steering-Angriffe adressiert, wodurch sowohl Sicherheit als auch die Leistungsfähigkeit der Modelle gewährleistet werden.

Hanna Foerster, Tom Blanchard, Kristina Nikolic, Ilia Shumailov, Cheng Zhang, Robert Mullins, Nicolas Papernot, Florian Tramèr, Yiren Zhao2026-03-10💻 cs

BoxMind: Closed-loop AI strategy optimization for elite boxing validated in the 2024 Olympics

Die Studie stellt BoxMind vor, ein geschlossenes KI-Expertensystem, das durch die Umwandlung von Boxkampf-Videos in hierarchische taktische Indikatoren und die Nutzung eines graphbasierten Vorhersagemodells strategische Empfehlungen generiert, die 2024 bei den Olympischen Spielen in Paris zur historischen Medaillenausbeute der chinesischen Nationalmannschaft beitrugen.

Kaiwen Wang, Kaili Zheng, Rongrong Deng, Qingmin Fan, Milin Zhang, Zongrui Li, Xuesi Zhou, Bo Han, Liren Chen, Chenyi Guo, Ji Wu2026-03-10💻 cs

Multifaceted Scenario-Aware Hypergraph Learning for Next POI Recommendation

Die Arbeit stellt MSAHG vor, einen neuartigen Hypergraph-Lernansatz, der durch scenario-spezifische Subhypergraphen und einen parametrischen Trennungsmechanismus die Mobilitätsmuster von Nutzern in unterschiedlichen Kontexten effektiv modelliert und so die Genauigkeit der Empfehlung des nächsten Points of Interest (POI) in Location-Based Social Networks signifikant verbessert.

Yuxi Lin, Yongkang Li, Jie Xing, Zipei Fan2026-03-10💻 cs

DevBench: A Realistic, Developer-Informed Benchmark for Code Generation Models

Der Artikel stellt DevBench vor, einen datengestützten Benchmark, der große Sprachmodelle anhand von 1.800 realistischen Code-Vervollständigungsaufgaben aus Entwickler-Telemetriedaten bewertet, um deren praktische Nützlichkeit und ökologische Validität über traditionelle Metriken hinaus zu analysieren.

Pareesa Ameneh Golnari, Adarsh Kumarappan, Wen Wen, Xiaoyu Liu, Gabriel Ryan, Yuting Sun, Shengyu Fu, Elsie Nallipogu2026-03-10🤖 cs.LG

MAS-Orchestra: Understanding and Improving Multi-Agent Reasoning Through Holistic Orchestration and Controlled Benchmarks

Die Arbeit stellt MAS-Orchestra vor, ein Trainingsframework, das Multi-Agenten-Systeme durch holistische Orchestrierung als Reinforcement-Learning-Problem formuliert, und führt mit MASBENCH eine kontrollierte Benchmark ein, um die Bedingungen für den Vorteil von Multi-Agenten-Systemen gegenüber Einzelagenten zu analysieren und deren Effizienz sowie Leistung signifikant zu steigern.

Zixuan Ke, Yifei Ming, Austin Xu, Ryan Chin, Xuan-Phi Nguyen, Prathyusha Jwalapuram, Jiayu Wang, Semih Yavuz, Caiming Xiong, Shafiq Joty2026-03-10💬 cs.CL

Replayable Financial Agents: A Determinism-Faithfulness Assurance Harness for Tool-Using LLM Agents

Die Studie stellt das Determinismus-Faithfulness Assurance Harness (DFAH) vor, einen Rahmen zur unabhängigen Messung von Nachvollziehbarkeit und Genauigkeit bei Tool-nutzenden LLM-Agenten im Finanzsektor, der zeigt, dass Determinismus und Genauigkeit nicht korrelieren und daher beide separat bewertet werden müssen, um regulatorische Audit-Anforderungen zu erfüllen.

Raffi Khatchadourian2026-03-10💬 cs.CL

Continuous-Flow Data-Rate-Aware CNN Inference on FPGA

Diese Arbeit stellt einen neuartigen Ansatz für datenratenbewusste, kontinuierliche CNN-Architekturen auf FPGAs vor, der durch geschicktes Interleaving von Signalen und Teilen von Hardwareeinheiten eine nahezu 100-prozentige Hardwareauslastung erreicht und so komplexe Modelle wie MobileNet mit hoher Durchsatzrate auf einem einzigen Chip implementierbar macht.

Tobias Habermann, Michael Mecik, Zhenyu Wang, César David Vera, Martin Kumm, Mario Garrido2026-03-10🤖 cs.LG

MeanCache: From Instantaneous to Average Velocity for Accelerating Flow Matching Inference

Das Paper stellt MeanCache vor, ein training-freies Caching-Framework für Flow Matching, das durch die Nutzung von durchschnittlichen Geschwindigkeiten anstelle von momentanen Geschwindigkeiten sowie einer Trajektorien-Stabilitäts-Strategie die Inferenzgeschwindigkeit bei gleichzeitiger Aufrechterhaltung der Generierungsqualität signifikant steigert.

Huanlin Gao, Ping Chen, Fuyuan Shi, Ruijia Wu, Li YanTao, Qiang Hui, Yuren You, Ting Lu, Chao Tan, Shaoan Zhao, Zhaoxiang Liu, Fang Zhao, Kai Wang, Shiguo Lian2026-03-10🤖 cs.LG

BioAgent Bench: An AI Agent Evaluation Suite for Bioinformatics

Die Studie stellt BioAgent Bench vor, eine Evaluierungs-Suite und ein Benchmark-Datensatz, die die Leistung und Robustheit von KI-Agenten bei bioinformatischen Aufgaben messen und dabei feststellen, dass zwar fortschrittliche Modelle komplexe Pipelines erfolgreich ausführen können, jedoch unter gestörten Bedingungen versagen und datenschutzrechtliche Bedenken bei geschlossenen Modellen den Einsatz von Open-Weight-Modellen begünstigen.

Dionizije Fa, Marko Čuljak, Bruno Pandža, Mateo Čupic2026-03-10💻 cs

RedSage: A Cybersecurity Generalist LLM

Das Paper stellt RedSage vor, ein lokal einsetzbares, quelloffenes Cybersecurity-LLM, das durch domänenspezifisches Vor- und Nachtraining sowie einen agentenbasierten Augmentierungsprozess entwickelt wurde und auf dem neu eingeführten RedSage-Bench sowie etablierten Benchmarks signifikante Verbesserungen gegenüber Baseline-Modellen erzielt.

Naufal Suryanto, Muzammal Naseer, Pengfei Li, Syed Talal Wasim, Jinhui Yi, Juergen Gall, Paolo Ceravolo, Ernesto Damiani2026-03-10💬 cs.CL

Real-Time Aligned Reward Model beyond Semantics

Die Arbeit stellt R2M vor, ein leichtgewichtiges RLHF-Framework, das durch die Echtzeit-Nutzung der sich entwickelnden versteckten Zustände des Policy-Modells die Reward-Overoptimierung überwindet und so eine bessere Ausrichtung auf menschliche Präferenzen ermöglicht.

Zixuan Huang, Xin Xia, Yuxi Ren, Jianbin Zheng, Xuefeng Xiao, Hongyan Xie, Li Huaqiu, Songshi Liang, Zhongxiang Dai, Fuzhen Zhuang, Jianxin Li, Yikun Ban, Deqing Wang2026-03-10💻 cs

Impact of LLMs news Sentiment Analysis on Stock Price Movement Prediction

Diese Studie zeigt, dass die Kombination von LLM-basierten Nachrichten-Sentiment-Analysen (insbesondere mit DeBERTa und einem Ensemble-Modell) die Vorhersagegenauigkeit von Aktienkursbewegungen signifikant verbessert und verschiedene Klassifikations- sowie Regressionsmodelle unterstützt.

Walid Siala (SnT, University of Luxembourg, Luxembourg), Ahmed Khanfir (RIADI, ENSI, University of Manouba, Tunisia, SnT, University of Luxembourg, Luxembourg), Mike Papadakis (SnT, University of Luxembourg, Luxembourg)2026-03-10💻 cs