BTZSC: A Benchmark for Zero-Shot Text Classification Across Cross-Encoders, Embedding Models, Rerankers and LLMs

Die Arbeit stellt BTZSC vor, ein umfassendes Benchmark für das Zero-Shot-Textklassifizieren, das zeigt, dass moderne Reranker wie Qwen3-Reranker-8B den aktuellen State-of-the-Art erreichen, während starke Embedding-Modelle und Instruktion-tuned LLMs ebenfalls wettbewerbsfähige Ergebnisse liefern und die Grenzen früherer NLI-basierter Ansätze überwinden.

Ilias Aarab2026-03-13💬 cs.CL

Can RL Improve Generalization of LLM Agents? An Empirical Study

Diese empirische Studie zeigt, dass Reinforcement Fine-Tuning zwar die Generalisierung von LLM-Agenten innerhalb einer Umgebung verbessert, aber bei der Übertragung auf neue Umgebungen schwächere Ergebnisse liefert, während sequenzielles Training und Mischtraining vielversprechende Lösungen für robustere Generalisierung bieten.

Zhiheng Xi, Xin Guo, Jiaqi Liu, Jiazheng Zhang, Yutao Fan, Zhihao Zhang, Shichun Liu, Mingxu Chai, Xiaowei Shi, Yitao Zhai, Xunliang Cai, Tao Gui, Qi Zhang, Xuanjing Huang2026-03-13🤖 cs.AI

An Intent of Collaboration: On Agencies between Designers and Emerging (Intelligent) Technologies

Diese Studie untersucht die Machtverhältnisse zwischen Designern und KI-Systemen wie LLMs und schlägt vor, dass Designer ihre kreative Handlungsfähigkeit durch Selbstreflexion, ein tiefes Verständnis der Technologie und die bewusste Gestaltung der Mensch-Maschine-Beziehung zurückgewinnen können.

Pei-Ying Lin, Julie Heij, Iris Borst, Britt Joosten, Kristina Andersen, Wijnand IJsselsteijn2026-03-13🤖 cs.AI

Sim-to-reality adaptation for Deep Reinforcement Learning applied to an underwater docking application

Diese Arbeit stellt einen systematischen Sim-to-Real-Ansatz für das autonome Andocken einer Girona-AUV vor, der durch die Nutzung eines hochfideligen Digitalzwillings im Stonefish-Simulator, Multiprocessing-Training und den PPO-Algorithmus eine erfolgreiche Übertragung der in Simulation erlernten Steuerung auf reale Testbedingungen ermöglicht.

Alaaeddine Chaarani, Narcis Palomeras, Pere Ridao2026-03-13🤖 cs.AI

Cascade: Composing Software-Hardware Attack Gadgets for Adversarial Threat Amplification in Compound AI Systems

Die Arbeit zeigt, wie traditionelle Software- und Hardware-Schwachstellen in komplexen KI-Systemen mit algorithmischen Angriffen kombiniert werden können, um die Integrität und Vertraulichkeit von KI-Pipelines zu gefährden, und schlägt eine systematisierte Methodik zur Abwehr solcher zusammengesetzten Bedrohungen vor.

Sarbartha Banerjee, Prateek Sahu, Anjo Vahldiek-Oberwagner, Jose Sanchez Vicarte, Mohit Tiwari2026-03-13🤖 cs.AI

Coarse-Guided Visual Generation via Weighted h-Transform Sampling

Diese Arbeit stellt eine trainingsfreie Methode zur verfeinerten visuellen Generierung vor, die den h-Transform nutzt, um den Sampling-Prozess von Diffusionsmodellen durch eine gewichtete Drift-Funktion und einen rauschlevelabhängigen Zeitplan effektiv in Richtung hochwertiger Feinbilder zu steuern, ohne dass ein bekannter Vorwärtsoperator oder gepaarte Trainingsdaten erforderlich sind.

Yanghao Wang, Ziqi Jiang, Zhen Wang, Long Chen2026-03-13🤖 cs.AI

Paper Title: LoV3D: Grounding Cognitive Prognosis Reasoning in Longitudinal 3D Brain MRI via Regional Volume Assessments

Die Arbeit stellt LoV3D vor, ein dreistufiges Verfahren zur Schulung von 3D-Vision-Language-Modellen, das durch regionale Volumenanalysen und einen klinisch gewichteten Verifizierer hallucinationsfreie, longitudinale Hirn-MRT-Befunde mit hoher diagnostischer Genauigkeit für die Alzheimer-Erkrankung generiert.

Zhaoyang Jiang, Zhizhong Fu, David McAllister, Yunsoo Kim, Honghan Wu2026-03-13🤖 cs.AI

Human-Centred LLM Privacy Audits: Findings and Frictions

Die Studie stellt mit LMP2 ein browserbasiertes Selbstaudit-Tool vor und identifiziert anhand zweier Nutzerstudien sowie einer Evaluierung verschiedener LLMs sowohl die Fähigkeit von Modellen, personenbezogene Merkmale vorherzusagen, als auch neun zentrale Hindernisse für die Entwicklung zuverlässiger, menschenzentrierter Datenschutzprüfungen im Bereich der generativen KI.

Dimitri Staufer, Kirsten Morehouse, David Hartmann, Bettina Berendt2026-03-13💬 cs.CL

A Robust and Efficient Multi-Agent Reinforcement Learning Framework for Traffic Signal Control

Dieses Paper stellt ein robustes Multi-Agenten-Reinforcement-Learning-Framework für die Lichtsignalsteuerung vor, das durch Turn-Ratio-Randomisierung, eine stabilitätsorientierte Aktionsraumgestaltung und einen MAPPO-basierten Beobachtungsansatz die Generalisierungsfähigkeit verbessert und die durchschnittliche Wartezeit um über 10 % senkt.

Sheng-You Huang, Hsiao-Chuan Chang, Yen-Chi Chen, Ting-Han Wei, I-Hau Yeh, Sheng-Yao Kuan, Chien-Yao Wang, Hsuan-Han Lee, I-Chen Wu2026-03-13🤖 cs.AI

On Information Self-Locking in Reinforcement Learning for Active Reasoning of LLM agents

Die vorgestellte Arbeit identifiziert das Phänomen der „Informations-Selbstverriegelung" bei RL-gestützten LLM-Agenten in aktiven Reasoning-Szenarien, bei dem Agenten aufhören, informative Fragen zu stellen, und schlägt eine Methode vor, die durch gezielte Kritiksignale den Lernprozess wiederbelebt und die Leistung in sieben Datensätzen um bis zu 60 % steigert.

Deyu Zou, Yongqiang Chen, Fan Feng, Mufei Li, Pan Li, Yu Gong, James Cheng2026-03-13🤖 cs.AI