RedTeamCUA: Realistic Adversarial Testing of Computer-Use Agents in Hybrid Web-OS Environments

Dit paper introduceert RedTeamCUA, een nieuw testframework met een hybride sandbox voor het realistisch evalueren van kwetsbaarheden voor indirecte prompt-injectie in computergebruiksagenten, en presenteert de RTC-Bench-benchmark die aantoont dat zelfs de meest geavanceerde agenten aanzienlijke veiligheidsrisico's vertonen in hybride web-OS-omgevingen.

Zeyi Liao, Jaylen Jones, Linxi Jiang + 5 more2026-03-03💬 cs.CL

OmniSpatial: Towards Comprehensive Spatial Reasoning Benchmark for Vision Language Models

In dit paper wordt OmniSpatial geïntroduceerd, een uitgebreid en uitdagend benchmark voor ruimtelijk redeneren bij vision-language modellen, gebaseerd op cognitieve psychologie met meer dan 8.4K handmatig geannoteerde vraag-antwoordparen die vier hoofdcategorieën bestrijken, terwijl experimenten de beperkingen van bestaande modellen aantonen en twee nieuwe strategieën voor verbetering voorstellen.

Mengdi Jia, Zekun Qi, Shaochen Zhang + 5 more2026-03-03💬 cs.CL

Meta-Adaptive Prompt Distillation for Few-Shot Visual Question Answering

Deze paper introduceert Meta-Adaptive Prompt Distillation, een meta-leerbenadering die few-shot vermogens in Large Multimodal Models verbetert door taakrelevante visuele kenmerken te distilleren in aangepaste soft prompts, waardoor de prestaties op visuele vraagbeantwoordingstaken aanzienlijk stijgen ten opzichte van traditionele in-context learning en parameter-efficiënte finetuning.

Akash Gupta, Amos Storkey, Mirella Lapata2026-03-03💬 cs.CL

TTSDS2: Resources and Benchmark for Evaluating Human-Quality Text to Speech Systems

In dit werk wordt TTSDS2, een robuustere en verbeterde versie van de TTSDS-metiek, geïntroduceerd als de enige van zestien metrics die consistent sterk correleert met subjectieve beoordelingen, vergezeld van een uitgebreid dataset met meer dan 11.000 ratings, een pipeline om datalekken te voorkomen en een voortdurend bijgewerkt benchmark voor TTS in 14 talen.

Christoph Minixhofer, Ondrej Klejch, Peter Bell2026-03-03⚡ eess

Cognitive models can reveal interpretable value trade-offs in language models

Dit onderzoek toont aan dat cognitieve modellen, oorspronkelijk ontwikkeld voor menselijk taalgebruik, effectief kunnen worden ingezet om waardebepalingen en afwegingen in taalmodellen systematisch te analyseren, waardoor inzichtelijk wordt hoe factoren zoals redeneerinspanning, prompts en trainingsfasen het gedrag en de waarden van deze modellen beïnvloeden.

Sonia K. Murthy, Rosie Zhao, Jennifer Hu + 4 more2026-03-03💬 cs.CL