Many AI Analysts, One Dataset: Navigating the Agentic Data Science Multiverse

Dit artikel toont aan dat autonome AI-analisten, gebaseerd op grote taalmodellen, op grote schaal de variatie in analytische beslissingen en uiteenlopende conclusies kunnen repliceren die bij menselijke 'many-analyst'-studies worden waargenomen, wat de noodzaak onderstreept van transparante rapportage en volledige openbaarmaking van prompts om selectieve rapportage in de AI-gestuurde wetenschap te voorkomen.

Martin Bertran, Riccardo Fogliato, Zhiwei Steven Wu2026-03-12🤖 cs.AI

Adversarial Hubness Detector: Detecting Hubness Poisoning in Retrieval-Augmented Generation Systems

Dit paper introduceert Hubscan, een open-source beveiligingsscanner die hubness-vergiftiging in Retrieval-Augmented Generation-systemen detecteert door een multi-detectorarchitectuur te gebruiken die statistische analyse, clusterverdeling en stabiliteitstests combineert om schadelijke 'hubs' in vectorindexen te identificeren.

Idan Habler, Vineeth Sai Narajala, Stav Koren, Amy Chang, Tiffany Saade2026-03-12🤖 cs.AI

AMLRIS: Alignment-aware Masked Learning for Referring Image Segmentation

Dit paper introduceert AMLRIS, een trainingsstrategie die pixel-voor-pixel visueel-taaluitlijning kwantificeert en onbetrouwbare gebieden maskeert tijdens het trainen voor Referring Image Segmentation, waardoor de prestaties en robuustheid van het model aanzienlijk worden verbeterd zonder extra inferentie-overhead.

Tongfei Chen, Shuo Yang, Yuguang Yang, Linlin Yang, Runtang Guo, Changbai Li, He Long, Chunyu Xie, Dawei Leng, Baochang Zhang2026-03-12🤖 cs.AI

Defensive Refusal Bias: How Safety Alignment Fails Cyber Defenders

Dit onderzoek toont aan dat veiligheidsgealigneerde grote taalmodellen een 'defensieve weigeringsbias' vertonen waarbij ze geautoriseerde cyberverdedigingstaken onterecht weigeren vanwege het gebruik van gevoelige termen, zelfs wanneer expliciete autorisatie wordt gegeven, wat wijst op een tekortkoming in het onderscheiden van intentie en autorisatie.

David Campbell, Neil Kale, Udari Madhushani Sehwag, Bert Herring, Nick Price, Dan Borges, Alex Levinson, Christina Q Knight2026-03-12🤖 cs.AI

One Model, Many Skills: Parameter-Efficient Fine-Tuning for Multitask Code Analysis

Deze studie toont aan dat parameter-efficiënte fine-tuning (PEFT) voor meerdere code-analysetaken tegelijkertijd een uitstekende prestatie-efficiëntiebalans biedt die vaak volledig fine-tuning benadert of zelfs overtreft, terwijl het opslag- en rekencosten aanzienlijk verlaagt en superieur is aan directe prompting van grote open-source modellen.

Amal Akli, Maxime Cordy, Mike Papadakis, Yves Le Traon2026-03-12💻 cs

Evolving Demonstration Optimization for Chain-of-Thought Feature Transformation

Deze paper introduceert een framework dat de prestaties van Large Language Models bij Feature Transformation verbetert door een gesloten lus te gebruiken waarin trajecten van succesvolle transformaties worden geëvolueerd en geselecteerd via diversiteitsbewuste contextoptimalisatie, wat leidt tot superieure resultaten op diverse tabulaire benchmarks.

Xinyuan Wang, Kunpeng Liu, Arun Vignesh Malarkkan, Yanjie Fu2026-03-12💬 cs.CL

The System Hallucination Scale (SHS): A Minimal yet Effective Human-Centered Instrument for Evaluating Hallucination-Related Behavior in Large Language Models

Dit artikel introduceert de System Hallucination Scale (SHS), een lichtgewicht, mensgericht instrument dat, in navolging van bestaande psychometrische schalen, hallucinatiegerelateerd gedrag in grote taalmodellen evalueert vanuit het gebruikersperspectief en in een realistische studie met 210 deelnemers is gevalideerd als een betrouwbaar hulpmiddel voor systemontwikkeling en monitoring.

Heimo Müller, Dominik Steiger, Markus Plass, Andreas Holzinger2026-03-12💬 cs.CL