Where is the multimodal goal post? On the Ability of Foundation Models to Recognize Contextually Important Moments

Die Studie zeigt, dass aktuelle multimodale Basis-Modelle bei der Identifizierung kontextuell wichtiger Momente in Fußballvideos kaum besser als Zufall sind, da sie oft auf eine einzelne dominante Modalität angewiesen sind und keine effektive Synthese aus mehreren Quellen leisten, was den Bedarf an modularen Architekturen und ergänzenden Trainingsverfahren unterstreicht.

Aditya K Surikuchi, Raquel Fernández, Sandro Pezzelle2026-03-06💻 cs

Adaptive Rollout Allocation for Online Reinforcement Learning with Verifiable Rewards

Die Arbeit stellt VIP vor, eine adaptive Strategie zur Zuweisung von Rollouts im Online-Reinforcement-Learning mit verifizierbaren Belohnungen, die mithilfe von Gauß-Prozessen die Varianz der Gradienten schätzt und den Rechenbudget durch eine konvexe Optimierung minimiert, um die Sampling-Effizienz und Leistung im Vergleich zu einheitlichen Zuweisungsmethoden zu steigern.

Hieu Trung Nguyen, Bao Nguyen, Wenao Ma + 3 more2026-03-06💻 cs

Assessing Risks of Large Language Models in Mental Health Support: A Framework for Automated Clinical AI Red Teaming

Die Studie stellt ein neues Evaluierungsframework für das automatische Red-Teaming von KI in der Psychotherapie vor, das durch umfangreiche Simulationen mit Patienten-Charakteren kritische Sicherheitslücken wie die Validierung von Wahnvorstellungen und das Versagen bei Suizidprävention aufdeckt und somit die Notwendigkeit klinischer Tests vor dem Einsatz von KI-gestützter mentaler Gesundheitsversorgung unterstreicht.

Ian Steenstra, Paola Pedrelli, Weiyan Shi + 2 more2026-03-06💻 cs

Bielik-Q2-Sharp: A Comparative Study of Extreme 2-bit Quantization Methods for a Polish 11B Language Model

Diese Studie präsentiert Bielik-Q2-Sharp, die erste systematische akademische Evaluation extremer 2-Bit-Quantisierungsmethoden für das polnische 11-Milliarden-Parameter-Sprachmodell Bielik, die zeigt, dass QuIP# und QTIP nahezu die Leistung der IQ2_XXS-Baseline bei deutlich geringerem Speicherbedarf erreichen und dabei ein Phänomen der Diskrepanz zwischen Log-Likelihood und Autoregression bei rotationsbasierten Methoden aufdecken.

Jakub Prejzner2026-03-06💻 cs

SearchGym: A Modular Infrastructure for Cross-Platform Benchmarking and Hybrid Search Orchestration

Die Arbeit stellt SearchGym vor, eine modulare Infrastruktur für plattformübergreifendes Benchmarking und hybride Suchorchestrierung, die durch die Entkopplung von Datenrepräsentation und Retrieval-Logik reproduzierbare Systemkonfigurationen ermöglicht und neue Erkenntnisse zur optimalen Reihenfolge von semantischer Rangfolge und strukturiertem Filtern liefert.

Jerome Tze-Hou Hsu2026-03-06💻 cs