cs.AI papers | Gist.Science

MHDash: An Online Platform for Benchmarking Mental Health-Aware AI Assistants

Dit artikel introduceert MHDash, een open-source platform dat een gedetailleerde evaluatie en audit van AI-systemen voor mentale gezondheid mogelijk maakt door aggregate prestaties te vervangen door risicospecifieke analyses in multi-turn dialogen, waarbij wordt aangetoond dat bestaande benchmarks ontoereikend zijn voor veiligheidskritieke toepassingen.

Yihe Zhang, Cheyenne N Mohawk, Kaiying Han + 3 more2026-03-12🤖 cs.AI

Hallucination is a Consequence of Space-Optimality: A Rate-Distortion Theorem for Membership Testing

Dit paper toont aan dat hallucinaties in grote taalmodellen een onvermijdelijk gevolg zijn van optimale geheugenefficiëntie bij het testen van lidmaatschap, waarbij beperkte capaciteit het model dwingt om met hoge zekerheid onjuiste feiten te genereren als onderdeel van een verliesbeperkende compressiestrategie.

Anxin Guo, Jingwei Li2026-03-12💬 cs.CL

Evaluating Long-Horizon Memory for Multi-Party Collaborative Dialogues

Dit paper introduceert EverMemBench, het eerste benchmark voor het evalueren van langetermijngeheugen in multi-partij collaboratieve dialogen, en onthult fundamentele beperkingen van huidige systemen op het gebied van multi-hop redenering, temporele gevolgtrekking en bewustzijn van het geheugen.

Chuanrui Hu, Tong Li, Xingze Gao, Hongda Chen, Yi Bai, Dannong Xu, Tianwei Lin, Xiaohong Li, Yunyun Han, Jian Pei, Yafeng Deng2026-03-12💬 cs.CL

Moving On, Even When You're Broken: Fail-Active Trajectory Generation via Diffusion Policies Conditioned on Embodiment and Task

Dit paper introduceert DEFT, een op diffusie gebaseerd trajectiegeneratiesysteem dat robots in staat stelt om taken veilig af te ronden ondanks actuatiefouten door te generaliseren over beschadigingen en onvoorziene omstandigheden, zowel in simulatie als in de echte wereld.

Gilberto G. Briscoe-Martinez, Yaashia Gautam, Rahul Shetty, Anuj Pasricha, Marco M. Nicotra, Alessandro Roncone2026-03-12🤖 cs.AI

DMS2F-HAD: A Dual-branch Mamba-based Spatial-Spectral Fusion Network for Hyperspectral Anomaly Detection

Het paper introduceert DMS2F-HAD, een innovatief dubbel-vertakkend Mamba-gebaseerd netwerk dat door het efficiënt combineren van ruimtelijke en spectrale kenmerken via een dynamische fusie-mechanisme, state-of-the-art prestaties en een aanzienlijk hogere inferentiesnelheid bereikt voor hyperspectrale anomaliedetectie.

Aayushma Pant, Lakpa Tamang, Tsz-Kwan Lee + 1 more2026-03-12🤖 cs.AI

Long Chain-of-Thought Compression via Fine-Grained Group Policy Optimization

Dit paper introduceert Fine-grained Group Policy Optimization (FGO), een versterkt leer-algoritme dat de inefficiëntie en entropie-inzakking van GRPO oplost en effectieve compressie van Chain-of-Thought-redeneringen mogelijk maakt zonder prestatieverlies.

Xinchen Han, Hossam Afifi, Michel Marot, Xilu Wang, Lu Yin2026-03-12🤖 cs.LG

UniWeTok: An Unified Binary Tokenizer with Codebook Size $\mathit{2^{128}}$ for Unified Multimodal Large Language Model

UniWeTok is een geünificeerde binaire tokenizer met een codebook van $2^{128}$ die door middel van een hybride architectuur en een driestaps trainingsframework state-of-the-art prestaties bereikt in zowel beeldherstel als generatie, terwijl het aanzienlijk minder rekenkracht vereist dan bestaande methoden.

Shaobin Zhuang, Yuang Ai, Jiaming Han, Weijia Mao, Xiaohui Li, Fangyikang Wang, Xiao Wang, Yan Li, Shanchuan Lin, Kun Xu, Zhenheng Yang, Huaibo Huang, Xiangyu Yue, Hao Chen, Yali Wang2026-03-12🤖 cs.AI

TikArt: Stabilizing Aperture-Guided Fine-Grained Visual Reasoning with Reinforcement Learning

Dit paper introduceert TikArt, een agent die multimodaal redeneren verbetert door een Think-Aperture-Observe-cyclus te gebruiken voor sequentiële beeldvergroting en segmentatie, waarbij versterkingsleer met een Relative Uncertainty Reduction-beloning wordt ingezet om fijne-granulariteit visuele redenering te stabiliseren.

Hao Ding, Zhichuan Yang, Weijie Ge, Ziqin Gao, Chaoyi Lu, Lei Zhao2026-03-12🤖 cs.AI

GOT-JEPA: Generic Object Tracking with Model Adaptation and Occlusion Handling using Joint-Embedding Predictive Architecture

Het paper introduceert GOT-JEPA, een model-predictief pretrainingsframework dat de generalisatie en robustheid van objecttracking verbetert door het voorspellen van trackingmodellen in plaats van beeldfeatures, aangevuld met OccuSolver voor verfijnde verwerking van occlusies.

Shih-Fang Chen, Jun-Cheng Chen, I-Hong Jhuo, Yen-Yu Lin2026-03-12🤖 cs.AI

Many AI Analysts, One Dataset: Navigating the Agentic Data Science Multiverse

Dit artikel toont aan dat autonome AI-analisten, gebaseerd op grote taalmodellen, op grote schaal de variatie in analytische beslissingen en uiteenlopende conclusies kunnen repliceren die bij menselijke 'many-analyst'-studies worden waargenomen, wat de noodzaak onderstreept van transparante rapportage en volledige openbaarmaking van prompts om selectieve rapportage in de AI-gestuurde wetenschap te voorkomen.

Martin Bertran, Riccardo Fogliato, Zhiwei Steven Wu2026-03-12🤖 cs.AI

No Need For Real Anomaly: MLLM Empowered Zero-Shot Video Anomaly Detection

LAVIDA is een end-to-end zero-shot framework voor video-anomaliedetectie dat gebruikmaakt van een Multimodal Large Language Model en een Anomaly Exposure Sampler om pseudo-anomalieën te genereren, waardoor het zonder echte trainingsdata state-of-the-art prestaties bereikt op diverse benchmarks.

Zunkai Dai, Ke Li, Jiajia Liu, Jie Yang, Yuanyuan Qiao2026-03-12🤖 cs.AI

PatchDenoiser: Parameter-efficient multi-scale patch learning and fusion denoiser for Low-dose CT imaging

Het paper introduceert PatchDenoiser, een lichtgewicht en energiezuinig multi-schaal denoising-framework voor low-dose CT-beelden dat ruis effectief onderdrukt terwijl het fijne anatomische details behoudt en aanzienlijk efficiënter is dan bestaande CNN-, GAN- en transformer-methoden.

Jitindra Fartiyal, Pedro Freire, Sergei K. Turitsyn, Sergei G. Solovski2026-03-12🤖 cs.AI

Adversarial Hubness Detector: Detecting Hubness Poisoning in Retrieval-Augmented Generation Systems

Dit paper introduceert Hubscan, een open-source beveiligingsscanner die hubness-vergiftiging in Retrieval-Augmented Generation-systemen detecteert door een multi-detectorarchitectuur te gebruiken die statistische analyse, clusterverdeling en stabiliteitstests combineert om schadelijke 'hubs' in vectorindexen te identificeren.

Idan Habler, Vineeth Sai Narajala, Stav Koren, Amy Chang, Tiffany Saade2026-03-12🤖 cs.AI

AMLRIS: Alignment-aware Masked Learning for Referring Image Segmentation

Dit paper introduceert AMLRIS, een trainingsstrategie die pixel-voor-pixel visueel-taaluitlijning kwantificeert en onbetrouwbare gebieden maskeert tijdens het trainen voor Referring Image Segmentation, waardoor de prestaties en robuustheid van het model aanzienlijk worden verbeterd zonder extra inferentie-overhead.

Tongfei Chen, Shuo Yang, Yuguang Yang, Linlin Yang, Runtang Guo, Changbai Li, He Long, Chunyu Xie, Dawei Leng, Baochang Zhang2026-03-12🤖 cs.AI

A Minimal Agent for Automated Theorem Proving

Deze paper introduceert een minimaal, open-source agentyssysteem voor geautomatiseerd stellingbewijzen dat door gebruik te maken van iteratieve verfijning en bibliotheekzoekopdrachten concurrerende prestaties levert ten opzichte van geavanceerde systemen, terwijl het aanzienlijk eenvoudiger is en kostenefficiënter.

Borja Requena, Austin Letson, Krystian Nowakowski, Izan Beltran Ferreiro, Leopoldo Sarra2026-03-12🤖 cs.AI

Defensive Refusal Bias: How Safety Alignment Fails Cyber Defenders

Dit onderzoek toont aan dat veiligheidsgealigneerde grote taalmodellen een 'defensieve weigeringsbias' vertonen waarbij ze geautoriseerde cyberverdedigingstaken onterecht weigeren vanwege het gebruik van gevoelige termen, zelfs wanneer expliciete autorisatie wordt gegeven, wat wijst op een tekortkoming in het onderscheiden van intentie en autorisatie.

David Campbell, Neil Kale, Udari Madhushani Sehwag, Bert Herring, Nick Price, Dan Borges, Alex Levinson, Christina Q Knight2026-03-12🤖 cs.AI

CARE: Towards Clinical Accountability in Multi-Modal Medical Reasoning with an Evidence-Grounded Agentic Framework

Dit paper introduceert CARE, een agentisch raamwerk dat multi-modale medische redenering verbetert door het werkproces te ontleden in gespecialiseerde modules voor visuele gronding en redenering, waardoor de nauwkeurigheid en klinische verantwoordbaarheid van AI-systemen aanzienlijk stijgt.

Yuexi Du, Jinglu Wang, Shujie Liu, Nicha C. Dvornek, Yan Lu2026-03-12🤖 cs.AI

SEED-SET: Scalable Evolving Experimental Design for System-level Ethical Testing

Dit paper introduceert SEED-SET, een Bayesiaans experimenteel ontwerpframework dat objectieve evaluaties en subjectieve oordelen van belanghebbenden combineert via hiërarchische Gaussische processen om ethische benchmarks voor autonome systemen efficiënter en interpreteerbaarder te maken.

Anjali Parashar, Yingke Li, Eric Yang Yu, Fei Chen, James Neidhoefer, Devesh Upadhyay, Chuchu Fan2026-03-12📊 stat

BrandFusion: A Multi-Agent Framework for Seamless Brand Integration in Text-to-Video Generation

Dit paper introduceert BrandFusion, een nieuw multi-agent framework dat automatisch en naadloos merkintegratie mogelijk maakt in tekst-naar-video-generatie door promptgetrouwheid, herkenbaarheid en contextuele natuurlijkheid te waarborgen via een offline kennisbasis en een online iteratief refinementsproces.

Zihao Zhu, Ruotong Wang, Siwei Lyu, Min Zhang, Baoyuan Wu2026-03-12🤖 cs.AI

One Model, Many Skills: Parameter-Efficient Fine-Tuning for Multitask Code Analysis

Deze studie toont aan dat parameter-efficiënte fine-tuning (PEFT) voor meerdere code-analysetaken tegelijkertijd een uitstekende prestatie-efficiëntiebalans biedt die vaak volledig fine-tuning benadert of zelfs overtreft, terwijl het opslag- en rekencosten aanzienlijk verlaagt en superieur is aan directe prompting van grote open-source modellen.

Amal Akli, Maxime Cordy, Mike Papadakis, Yves Le Traon2026-03-12💻 cs

← Vorige Volgende →

cs.AI