cs.AI papers | Gist.Science

Many AI Analysts, One Dataset: Navigating the Agentic Data Science Multiverse

Dit artikel toont aan dat autonome AI-analisten, gebaseerd op grote taalmodellen, op grote schaal de variatie in analytische beslissingen en uiteenlopende conclusies kunnen repliceren die bij menselijke 'many-analyst'-studies worden waargenomen, wat de noodzaak onderstreept van transparante rapportage en volledige openbaarmaking van prompts om selectieve rapportage in de AI-gestuurde wetenschap te voorkomen.

Martin Bertran, Riccardo Fogliato, Zhiwei Steven Wu2026-03-12🤖 cs.AI

No Need For Real Anomaly: MLLM Empowered Zero-Shot Video Anomaly Detection

LAVIDA is een end-to-end zero-shot framework voor video-anomaliedetectie dat gebruikmaakt van een Multimodal Large Language Model en een Anomaly Exposure Sampler om pseudo-anomalieën te genereren, waardoor het zonder echte trainingsdata state-of-the-art prestaties bereikt op diverse benchmarks.

Zunkai Dai, Ke Li, Jiajia Liu, Jie Yang, Yuanyuan Qiao2026-03-12🤖 cs.AI

PatchDenoiser: Parameter-efficient multi-scale patch learning and fusion denoiser for Low-dose CT imaging

Het paper introduceert PatchDenoiser, een lichtgewicht en energiezuinig multi-schaal denoising-framework voor low-dose CT-beelden dat ruis effectief onderdrukt terwijl het fijne anatomische details behoudt en aanzienlijk efficiënter is dan bestaande CNN-, GAN- en transformer-methoden.

Jitindra Fartiyal, Pedro Freire, Sergei K. Turitsyn, Sergei G. Solovski2026-03-12🤖 cs.AI

Adversarial Hubness Detector: Detecting Hubness Poisoning in Retrieval-Augmented Generation Systems

Dit paper introduceert Hubscan, een open-source beveiligingsscanner die hubness-vergiftiging in Retrieval-Augmented Generation-systemen detecteert door een multi-detectorarchitectuur te gebruiken die statistische analyse, clusterverdeling en stabiliteitstests combineert om schadelijke 'hubs' in vectorindexen te identificeren.

Idan Habler, Vineeth Sai Narajala, Stav Koren, Amy Chang, Tiffany Saade2026-03-12🤖 cs.AI

AMLRIS: Alignment-aware Masked Learning for Referring Image Segmentation

Dit paper introduceert AMLRIS, een trainingsstrategie die pixel-voor-pixel visueel-taaluitlijning kwantificeert en onbetrouwbare gebieden maskeert tijdens het trainen voor Referring Image Segmentation, waardoor de prestaties en robuustheid van het model aanzienlijk worden verbeterd zonder extra inferentie-overhead.

Tongfei Chen, Shuo Yang, Yuguang Yang, Linlin Yang, Runtang Guo, Changbai Li, He Long, Chunyu Xie, Dawei Leng, Baochang Zhang2026-03-12🤖 cs.AI

A Minimal Agent for Automated Theorem Proving

Deze paper introduceert een minimaal, open-source agentyssysteem voor geautomatiseerd stellingbewijzen dat door gebruik te maken van iteratieve verfijning en bibliotheekzoekopdrachten concurrerende prestaties levert ten opzichte van geavanceerde systemen, terwijl het aanzienlijk eenvoudiger is en kostenefficiënter.

Borja Requena, Austin Letson, Krystian Nowakowski, Izan Beltran Ferreiro, Leopoldo Sarra2026-03-12🤖 cs.AI

Defensive Refusal Bias: How Safety Alignment Fails Cyber Defenders

Dit onderzoek toont aan dat veiligheidsgealigneerde grote taalmodellen een 'defensieve weigeringsbias' vertonen waarbij ze geautoriseerde cyberverdedigingstaken onterecht weigeren vanwege het gebruik van gevoelige termen, zelfs wanneer expliciete autorisatie wordt gegeven, wat wijst op een tekortkoming in het onderscheiden van intentie en autorisatie.

David Campbell, Neil Kale, Udari Madhushani Sehwag, Bert Herring, Nick Price, Dan Borges, Alex Levinson, Christina Q Knight2026-03-12🤖 cs.AI

CARE: Towards Clinical Accountability in Multi-Modal Medical Reasoning with an Evidence-Grounded Agentic Framework

Dit paper introduceert CARE, een agentisch raamwerk dat multi-modale medische redenering verbetert door het werkproces te ontleden in gespecialiseerde modules voor visuele gronding en redenering, waardoor de nauwkeurigheid en klinische verantwoordbaarheid van AI-systemen aanzienlijk stijgt.

Yuexi Du, Jinglu Wang, Shujie Liu, Nicha C. Dvornek, Yan Lu2026-03-12🤖 cs.AI

SEED-SET: Scalable Evolving Experimental Design for System-level Ethical Testing

Dit paper introduceert SEED-SET, een Bayesiaans experimenteel ontwerpframework dat objectieve evaluaties en subjectieve oordelen van belanghebbenden combineert via hiërarchische Gaussische processen om ethische benchmarks voor autonome systemen efficiënter en interpreteerbaarder te maken.

Anjali Parashar, Yingke Li, Eric Yang Yu, Fei Chen, James Neidhoefer, Devesh Upadhyay, Chuchu Fan2026-03-12📊 stat

BrandFusion: A Multi-Agent Framework for Seamless Brand Integration in Text-to-Video Generation

Dit paper introduceert BrandFusion, een nieuw multi-agent framework dat automatisch en naadloos merkintegratie mogelijk maakt in tekst-naar-video-generatie door promptgetrouwheid, herkenbaarheid en contextuele natuurlijkheid te waarborgen via een offline kennisbasis en een online iteratief refinementsproces.

Zihao Zhu, Ruotong Wang, Siwei Lyu, Min Zhang, Baoyuan Wu2026-03-12🤖 cs.AI

One Model, Many Skills: Parameter-Efficient Fine-Tuning for Multitask Code Analysis

Deze studie toont aan dat parameter-efficiënte fine-tuning (PEFT) voor meerdere code-analysetaken tegelijkertijd een uitstekende prestatie-efficiëntiebalans biedt die vaak volledig fine-tuning benadert of zelfs overtreft, terwijl het opslag- en rekencosten aanzienlijk verlaagt en superieur is aan directe prompting van grote open-source modellen.

Amal Akli, Maxime Cordy, Mike Papadakis, Yves Le Traon2026-03-12💻 cs

Explainable LLM Unlearning Through Reasoning

Dit paper introduceert Targeted Reasoning Unlearning (TRU), een nieuwe methode die gebruikmaakt van een redeneringsgebaseerde doelstelling om ongewenste kennis in grote taalmodellen nauwkeurig en uitlegbaar te verwijderen zonder de algemene prestaties te schaden.

Junfeng Liao, Qizhou Wang, Shanshan Ye, Xin Yu, Ling Chen, Zhen Fang2026-03-12🤖 cs.LG

AraModernBERT: Transtokenized Initialization and Long-Context Encoder Modeling for Arabic

Dit paper introduceert AraModernBERT, een voor het Arabisch aangepaste encoder-only transformer die door middel van transtokenized initialisatie en native lange-contextmodellering tot 8.192 tokens aanzienlijke prestatieverbeteringen boekt op zowel taalmodellering als diverse downstream-taken.

Omar Elshehy, Omer Nacar, Abdelbasset Djamai, Muhammed Ragab, Khloud Al Jallad, Mona Abdelazim2026-03-12💬 cs.CL

MoE-SpAc: Efficient MoE Inference Based on Speculative Activation Utility in Heterogeneous Edge Scenarios

Dit paper introduceert MoE-SpAc, een inferentieframework voor MoE-modellen op heterogene randapparaten dat speculatieve decoding gebruikt als voorspellende sensor voor geheugenbeheer en dynamische werklastverdeling, wat resulteert in aanzienlijke snelheidsverbeteringen ten opzichte van bestaande methoden.

Shuhuai Li, Jianghao Lin, Dongdong Ge, Yinyu Ye2026-03-12🤖 cs.LG

The Dunning-Kruger Effect in Large Language Models: An Empirical Study of Confidence Calibration

Deze empirische studie toont aan dat grote taalmodellen, vergelijkbaar met het Dunning-Kruger-effect bij mensen, vaak een onterecht hoog zelfvertrouwen vertonen wanneer hun prestaties laag zijn, wat belangrijke implicaties heeft voor de veilige inzet van deze modellen.

Sudipta Ghosh, Mrityunjoy Panday2026-03-12💬 cs.CL

Quantifying Hallucinations in Language Language Models on Medical Textbooks

Dit onderzoek kwantificeert hallucinaties in medische vraag-antwoordtaken van taalmodellen en toont aan dat LLaMA-70B-Instruct in 19,7% van de gevallen feitelijke fouten maakt ondanks hoge plausibiliteit, terwijl een negatief verband wordt gevonden tussen hallucinatiepercentages en de door clinici beoordeelde bruikbaarheid.

Brandon C. Colelough, Davis Bartels, Dina Demner-Fushman2026-03-12💬 cs.CL

Evolving Demonstration Optimization for Chain-of-Thought Feature Transformation

Deze paper introduceert een framework dat de prestaties van Large Language Models bij Feature Transformation verbetert door een gesloten lus te gebruiken waarin trajecten van succesvolle transformaties worden geëvolueerd en geselecteerd via diversiteitsbewuste contextoptimalisatie, wat leidt tot superieure resultaten op diverse tabulaire benchmarks.

Xinyuan Wang, Kunpeng Liu, Arun Vignesh Malarkkan, Yanjie Fu2026-03-12💬 cs.CL

Causally Grounded Mechanistic Interpretability for LLMs with Faithful Natural-Language Explanations

Dit artikel presenteert een pipeline die causaal gefundeerde circuits in GPT-2 Small koppelt aan betrouwbare natuurlijke taalverklaringen, waarbij wordt vastgesteld dat LLM-generatie superieur is aan sjablonen maar dat modelvertrouwen geen voorspeller is voor de eerlijkheid van de verklaringen.

Ajay Pravin Mahale2026-03-12💬 cs.CL

The System Hallucination Scale (SHS): A Minimal yet Effective Human-Centered Instrument for Evaluating Hallucination-Related Behavior in Large Language Models

Dit artikel introduceert de System Hallucination Scale (SHS), een lichtgewicht, mensgericht instrument dat, in navolging van bestaande psychometrische schalen, hallucinatiegerelateerd gedrag in grote taalmodellen evalueert vanuit het gebruikersperspectief en in een realistische studie met 210 deelnemers is gevalideerd als een betrouwbaar hulpmiddel voor systemontwikkeling en monitoring.

Heimo Müller, Dominik Steiger, Markus Plass, Andreas Holzinger2026-03-12💬 cs.CL

A Two-Stage Architecture for NDA Analysis: LLM-based Segmentation and Transformer-based Clause Classification

Deze paper presenteert een twee-trapsarchitectuur die LLaMA-3.1-8B-Instruct en een fijngetune Legal-Roberta-Large combineert om non-disclosure agreements automatisch te segmenteren en te classificeren, wat resulteert in een hoge precisie en haalbaarheid voor de analyse van deze juridische documenten.

Ana Begnini, Matheus Vicente, Leonardo Souza2026-03-12💬 cs.CL

← Vorige Volgende →