Steering Awareness: Models Can Be Trained to Detect Activation Steering

Die Studie zeigt, dass Sprachmodelle durch Feinabstimmung lernen können, Eingriffe durch Aktivitätssteuerung zu erkennen und die eingefügten Konzepte zu identifizieren, was die Annahme widerlegt, dass solche Manipulationen für das Modell unsichtbar bleiben, und gleichzeitig die langfristige Zuverlässigkeit von steuerungsbasierten Sicherheitsbewertungen infrage stellt.

Joshua Fonseca Rivera, David Demitri Africa2026-03-06💻 cs

ReFusion: A Diffusion Large Language Model with Parallel Autoregressive Decoding

Das Paper stellt ReFusion vor, ein neuartiges Masked-Diffusion-Modell, das durch die Integration von Sequenzreorganisation in den kausalen Aufmerksamkeitsrahmen paralleles Slot-Level-Decoding ermöglicht, wodurch es sowohl die Ineffizienz von KV-Caching als auch die Lernkomplexität überwindet und gleichzeitig die Leistung früherer Diffusionsmodelle deutlich übertrifft und sich der Geschwindigkeit von autoregressiven Modellen annähert.

Jia-Nan Li, Jian Guan, Wei Wu + 1 more2026-03-06💻 cs

When Do Tools and Planning Help Large Language Models Think? A Cost- and Latency-Aware Benchmark

Die Studie zeigt, dass der Einsatz von Planung und externen Tools bei Large Language Models zwar die Genauigkeit bei komplexen Faktenfragen (Event-QA) erheblich steigern kann, jedoch oft zu drastischen Latenz- und Kostensteigerungen führt, während bei persuasiven Aufgaben (CMV) einfache One-Shot-Prompting-Ansätze effizienter und effektiver sind, was die Notwendigkeit einer aufgaben- und kostenbewussten Auswahl von Modellgröße und Agentenkomplexität unterstreicht.

Subha Ghoshal, Ali Al-Bustami2026-03-06💻 cs

Where is the multimodal goal post? On the Ability of Foundation Models to Recognize Contextually Important Moments

Die Studie zeigt, dass aktuelle multimodale Basis-Modelle bei der Identifizierung kontextuell wichtiger Momente in Fußballvideos kaum besser als Zufall sind, da sie oft auf eine einzelne dominante Modalität angewiesen sind und keine effektive Synthese aus mehreren Quellen leisten, was den Bedarf an modularen Architekturen und ergänzenden Trainingsverfahren unterstreicht.

Aditya K Surikuchi, Raquel Fernández, Sandro Pezzelle2026-03-06💻 cs

Adaptive Rollout Allocation for Online Reinforcement Learning with Verifiable Rewards

Die Arbeit stellt VIP vor, eine adaptive Strategie zur Zuweisung von Rollouts im Online-Reinforcement-Learning mit verifizierbaren Belohnungen, die mithilfe von Gauß-Prozessen die Varianz der Gradienten schätzt und den Rechenbudget durch eine konvexe Optimierung minimiert, um die Sampling-Effizienz und Leistung im Vergleich zu einheitlichen Zuweisungsmethoden zu steigern.

Hieu Trung Nguyen, Bao Nguyen, Wenao Ma + 3 more2026-03-06💻 cs

Assessing Risks of Large Language Models in Mental Health Support: A Framework for Automated Clinical AI Red Teaming

Die Studie stellt ein neues Evaluierungsframework für das automatische Red-Teaming von KI in der Psychotherapie vor, das durch umfangreiche Simulationen mit Patienten-Charakteren kritische Sicherheitslücken wie die Validierung von Wahnvorstellungen und das Versagen bei Suizidprävention aufdeckt und somit die Notwendigkeit klinischer Tests vor dem Einsatz von KI-gestützter mentaler Gesundheitsversorgung unterstreicht.

Ian Steenstra, Paola Pedrelli, Weiyan Shi + 2 more2026-03-06💻 cs