MHDash: An Online Platform for Benchmarking Mental Health-Aware AI Assistants

Dit artikel introduceert MHDash, een open-source platform dat een gedetailleerde evaluatie en audit van AI-systemen voor mentale gezondheid mogelijk maakt door aggregate prestaties te vervangen door risicospecifieke analyses in multi-turn dialogen, waarbij wordt aangetoond dat bestaande benchmarks ontoereikend zijn voor veiligheidskritieke toepassingen.

Yihe Zhang, Cheyenne N Mohawk, Kaiying Han + 3 more2026-03-12🤖 cs.AI

Evaluating Long-Horizon Memory for Multi-Party Collaborative Dialogues

Dit paper introduceert EverMemBench, het eerste benchmark voor het evalueren van langetermijngeheugen in multi-partij collaboratieve dialogen, en onthult fundamentele beperkingen van huidige systemen op het gebied van multi-hop redenering, temporele gevolgtrekking en bewustzijn van het geheugen.

Chuanrui Hu, Tong Li, Xingze Gao, Hongda Chen, Yi Bai, Dannong Xu, Tianwei Lin, Xiaohong Li, Yunyun Han, Jian Pei, Yafeng Deng2026-03-12💬 cs.CL

Moving On, Even When You're Broken: Fail-Active Trajectory Generation via Diffusion Policies Conditioned on Embodiment and Task

Dit paper introduceert DEFT, een op diffusie gebaseerd trajectiegeneratiesysteem dat robots in staat stelt om taken veilig af te ronden ondanks actuatiefouten door te generaliseren over beschadigingen en onvoorziene omstandigheden, zowel in simulatie als in de echte wereld.

Gilberto G. Briscoe-Martinez, Yaashia Gautam, Rahul Shetty, Anuj Pasricha, Marco M. Nicotra, Alessandro Roncone2026-03-12🤖 cs.AI

UniWeTok: An Unified Binary Tokenizer with Codebook Size 2128\mathit{2^{128}} for Unified Multimodal Large Language Model

UniWeTok is een geünificeerde binaire tokenizer met een codebook van $2^{128}$ die door middel van een hybride architectuur en een driestaps trainingsframework state-of-the-art prestaties bereikt in zowel beeldherstel als generatie, terwijl het aanzienlijk minder rekenkracht vereist dan bestaande methoden.

Shaobin Zhuang, Yuang Ai, Jiaming Han, Weijia Mao, Xiaohui Li, Fangyikang Wang, Xiao Wang, Yan Li, Shanchuan Lin, Kun Xu, Zhenheng Yang, Huaibo Huang, Xiangyu Yue, Hao Chen, Yali Wang2026-03-12🤖 cs.AI

TikArt: Stabilizing Aperture-Guided Fine-Grained Visual Reasoning with Reinforcement Learning

Dit paper introduceert TikArt, een agent die multimodaal redeneren verbetert door een Think-Aperture-Observe-cyclus te gebruiken voor sequentiële beeldvergroting en segmentatie, waarbij versterkingsleer met een Relative Uncertainty Reduction-beloning wordt ingezet om fijne-granulariteit visuele redenering te stabiliseren.

Hao Ding, Zhichuan Yang, Weijie Ge, Ziqin Gao, Chaoyi Lu, Lei Zhao2026-03-12🤖 cs.AI

Many AI Analysts, One Dataset: Navigating the Agentic Data Science Multiverse

Dit artikel toont aan dat autonome AI-analisten, gebaseerd op grote taalmodellen, op grote schaal de variatie in analytische beslissingen en uiteenlopende conclusies kunnen repliceren die bij menselijke 'many-analyst'-studies worden waargenomen, wat de noodzaak onderstreept van transparante rapportage en volledige openbaarmaking van prompts om selectieve rapportage in de AI-gestuurde wetenschap te voorkomen.

Martin Bertran, Riccardo Fogliato, Zhiwei Steven Wu2026-03-12🤖 cs.AI

Adversarial Hubness Detector: Detecting Hubness Poisoning in Retrieval-Augmented Generation Systems

Dit paper introduceert Hubscan, een open-source beveiligingsscanner die hubness-vergiftiging in Retrieval-Augmented Generation-systemen detecteert door een multi-detectorarchitectuur te gebruiken die statistische analyse, clusterverdeling en stabiliteitstests combineert om schadelijke 'hubs' in vectorindexen te identificeren.

Idan Habler, Vineeth Sai Narajala, Stav Koren, Amy Chang, Tiffany Saade2026-03-12🤖 cs.AI

AMLRIS: Alignment-aware Masked Learning for Referring Image Segmentation

Dit paper introduceert AMLRIS, een trainingsstrategie die pixel-voor-pixel visueel-taaluitlijning kwantificeert en onbetrouwbare gebieden maskeert tijdens het trainen voor Referring Image Segmentation, waardoor de prestaties en robuustheid van het model aanzienlijk worden verbeterd zonder extra inferentie-overhead.

Tongfei Chen, Shuo Yang, Yuguang Yang, Linlin Yang, Runtang Guo, Changbai Li, He Long, Chunyu Xie, Dawei Leng, Baochang Zhang2026-03-12🤖 cs.AI

Defensive Refusal Bias: How Safety Alignment Fails Cyber Defenders

Dit onderzoek toont aan dat veiligheidsgealigneerde grote taalmodellen een 'defensieve weigeringsbias' vertonen waarbij ze geautoriseerde cyberverdedigingstaken onterecht weigeren vanwege het gebruik van gevoelige termen, zelfs wanneer expliciete autorisatie wordt gegeven, wat wijst op een tekortkoming in het onderscheiden van intentie en autorisatie.

David Campbell, Neil Kale, Udari Madhushani Sehwag, Bert Herring, Nick Price, Dan Borges, Alex Levinson, Christina Q Knight2026-03-12🤖 cs.AI

One Model, Many Skills: Parameter-Efficient Fine-Tuning for Multitask Code Analysis

Deze studie toont aan dat parameter-efficiënte fine-tuning (PEFT) voor meerdere code-analysetaken tegelijkertijd een uitstekende prestatie-efficiëntiebalans biedt die vaak volledig fine-tuning benadert of zelfs overtreft, terwijl het opslag- en rekencosten aanzienlijk verlaagt en superieur is aan directe prompting van grote open-source modellen.

Amal Akli, Maxime Cordy, Mike Papadakis, Yves Le Traon2026-03-12💻 cs