DrivingGen: A Comprehensive Benchmark for Generative Video World Models in Autonomous Driving

Das Paper stellt DrivingGen vor, den ersten umfassenden Benchmark für generative Weltmodelle im autonomen Fahren, der durch eine diverse Datensammlung und neue Metriken die Bewertung von visueller Realitätsnähe, Trajektorienplausibilität, zeitlicher Kohärenz und Steuerbarkeit ermöglicht, um die Entwicklung zuverlässiger und einsatzfähiger Simulationswerkzeuge zu fördern.

Yang Zhou, Hao Shao, Letian Wang, Zhuofan Zong, Hongsheng Li, Steven L. Waslander2026-03-10💻 cs

Route, Retrieve, Reflect, Repair: Self-Improving Agentic Framework for Visual Detection and Linguistic Reasoning in Medical Imaging

Die Arbeit stellt R^4 vor, ein selbstverbesserndes Agenten-Framework für die medizinische Bildanalyse, das durch Routing, Abruf, Reflexion und Reparatur die Zuverlässigkeit und räumliche Verankerung von Vision-Language-Modellen bei der Generierung von Befunden und Erkennung von Anomalien in Röntgenaufnahmen signifikant verbessert, ohne dabei Gradienten-basiertes Fine-Tuning zu erfordern.

Md. Faiyaz Abdullah Sayeedi, Rashedur Rahman, Siam Tahsin Bhuiyan, Sefatul Wasi, Ashraful Islam, Saadia Binte Alam, AKM Mahbubur Rahman2026-03-10💻 cs

The Algorithmic Gaze of Image Quality Assessment: An Audit and Trace Ethnography of the LAION-Aesthetics Predictor

Diese Studie untersucht den LAION-Aesthetics Predictor und zeigt durch Audits und eine digitale Ethnographie auf, dass das Modell durch die Bevorzugung westlicher und männlicher Perspektiven sowie die Unterdrückung von LGBTQ+-Inhalten bestehende Machtstrukturen in der KI-generierten Bildkunst verstärkt, woraus die Notwendigkeit pluralistischerer Bewertungsansätze abgeleitet wird.

Jordan Taylor, William Agnew, Maarten Sap, Sarah E. Fox, Haiyi Zhu2026-03-10💻 cs

CaMeLs Can Use Computers Too: System-level Security for Computer Use Agents

Die Arbeit stellt mit „Single-Shot Planning" einen neuen Sicherheitsansatz für Computer-Nutzungs-Agenten vor, der durch eine strikte Trennung von Planung und Ausführung Prompt-Injection-Angriffe verhindert und gleichzeitig Branch-Steering-Angriffe adressiert, wodurch sowohl Sicherheit als auch die Leistungsfähigkeit der Modelle gewährleistet werden.

Hanna Foerster, Tom Blanchard, Kristina Nikolic, Ilia Shumailov, Cheng Zhang, Robert Mullins, Nicolas Papernot, Florian Tramèr, Yiren Zhao2026-03-10💻 cs

User Detection and Response Patterns of Sycophantic Behavior in Conversational AI

Diese Studie analysiert Reddit-Diskussionen, um zu zeigen, dass Nutzer Sycophantie bei KI-Systemen durch verschiedene Techniken erkennen und bewerten, wobei die Wirkung kontextabhängig ist und für vulnerable Gruppen sogar als emotionale Unterstützung geschätzt wird, was die Forderung nach einer universellen Eliminierung dieses Verhaltens in Frage stellt und kontextsensitive KI-Designs nahelegt.

Kazi Noshin, Syed Ishtiaque Ahmed, Sharifa Sultana2026-03-10💻 cs

BoxMind: Closed-loop AI strategy optimization for elite boxing validated in the 2024 Olympics

Die Studie stellt BoxMind vor, ein geschlossenes KI-Expertensystem, das durch die Umwandlung von Boxkampf-Videos in hierarchische taktische Indikatoren und die Nutzung eines graphbasierten Vorhersagemodells strategische Empfehlungen generiert, die 2024 bei den Olympischen Spielen in Paris zur historischen Medaillenausbeute der chinesischen Nationalmannschaft beitrugen.

Kaiwen Wang, Kaili Zheng, Rongrong Deng, Qingmin Fan, Milin Zhang, Zongrui Li, Xuesi Zhou, Bo Han, Liren Chen, Chenyi Guo, Ji Wu2026-03-10💻 cs

Multifaceted Scenario-Aware Hypergraph Learning for Next POI Recommendation

Die Arbeit stellt MSAHG vor, einen neuartigen Hypergraph-Lernansatz, der durch scenario-spezifische Subhypergraphen und einen parametrischen Trennungsmechanismus die Mobilitätsmuster von Nutzern in unterschiedlichen Kontexten effektiv modelliert und so die Genauigkeit der Empfehlung des nächsten Points of Interest (POI) in Location-Based Social Networks signifikant verbessert.

Yuxi Lin, Yongkang Li, Jie Xing, Zipei Fan2026-03-10💻 cs

S2DiT: Sandwich Diffusion Transformer for Mobile Streaming Video Generation

Die Arbeit stellt S2DiT vor, einen effizienten Streaming-Sandwich-Diffusions-Transformer, der durch neuartige Aufmerksamkeitsmechanismen, eine budgetbewusste Architektur und einen 2-in-1-Wissensdistillierungsansatz hochwertige Videogenerierung in Echtzeit auf mobilen Geräten wie dem iPhone ermöglicht.

Lin Zhao, Yushu Wu, Aleksei Lebedev, Dishani Lahiri, Meng Dong, Arpit Sahni, Michael Vasilkovsky, Hao Chen, Ju Hu, Aliaksandr Siarohin, Sergey Tulyakov, Yanzhi Wang, Anil Kag, Yanyu Li2026-03-10💻 cs

ReViP: Mitigating False Completion in Vision-Language-Action Models with Vision-Proprioception Rebalance

Die Arbeit stellt ReViP vor, ein neuartiges Vision-Language-Action-Framework, das durch die Einführung von fortschrittsbewussten visuellen Hinweisen und eine adaptive Rebalancierung von Propriozeption und visueller Wahrnehmung das Problem falscher Aufgabenabschlüsse bei Robotern effektiv löst und die Erfolgsraten im Vergleich zu bestehenden Baselines signifikant steigert.

Zhuohao Li, Yinghao Li, Jian-Jian Jiang, Lang Zhou, Tianyu Zhang, Jiadong Yin, Mu Lin, Yi-Kin Wei, Wei-Shi Zheng2026-03-10💻 cs

ScenePilot-Bench: A Large-Scale Dataset and Benchmark for Evaluation of Vision-Language Models in Autonomous Driving

Die Arbeit stellt ScenePilot-Bench vor, einen umfassenden Benchmark und Datensatz, der darauf abzielt, die Fähigkeiten von Vision-Language-Modellen in sicherheitskritischen Szenarien des autonomen Fahrens durch eine vielschichtige Evaluierung von Szenenverständnis, räumlicher Wahrnehmung und Bewegungsplanung zu bewerten und zu verbessern.

Yujin Wang, Yutong Zheng, Wenxian Fan, Tianyi Wang, Hongqing Chu, Li Zhang, Bingzhao Gao, Daxin Tian, Jianqiang Wang, Hong Chen2026-03-10💻 cs

BioAgent Bench: An AI Agent Evaluation Suite for Bioinformatics

Die Studie stellt BioAgent Bench vor, eine Evaluierungs-Suite und ein Benchmark-Datensatz, die die Leistung und Robustheit von KI-Agenten bei bioinformatischen Aufgaben messen und dabei feststellen, dass zwar fortschrittliche Modelle komplexe Pipelines erfolgreich ausführen können, jedoch unter gestörten Bedingungen versagen und datenschutzrechtliche Bedenken bei geschlossenen Modellen den Einsatz von Open-Weight-Modellen begünstigen.

Dionizije Fa, Marko Čuljak, Bruno Pandža, Mateo Čupic2026-03-10💻 cs

Real-Time Aligned Reward Model beyond Semantics

Die Arbeit stellt R2M vor, ein leichtgewichtiges RLHF-Framework, das durch die Echtzeit-Nutzung der sich entwickelnden versteckten Zustände des Policy-Modells die Reward-Overoptimierung überwindet und so eine bessere Ausrichtung auf menschliche Präferenzen ermöglicht.

Zixuan Huang, Xin Xia, Yuxi Ren, Jianbin Zheng, Xuefeng Xiao, Hongyan Xie, Li Huaqiu, Songshi Liang, Zhongxiang Dai, Fuzhen Zhuang, Jianxin Li, Yikun Ban, Deqing Wang2026-03-10💻 cs

Impact of LLMs news Sentiment Analysis on Stock Price Movement Prediction

Diese Studie zeigt, dass die Kombination von LLM-basierten Nachrichten-Sentiment-Analysen (insbesondere mit DeBERTa und einem Ensemble-Modell) die Vorhersagegenauigkeit von Aktienkursbewegungen signifikant verbessert und verschiedene Klassifikations- sowie Regressionsmodelle unterstützt.

Walid Siala (SnT, University of Luxembourg, Luxembourg), Ahmed Khanfir (RIADI, ENSI, University of Manouba, Tunisia, SnT, University of Luxembourg, Luxembourg), Mike Papadakis (SnT, University of Luxembourg, Luxembourg)2026-03-10💻 cs